Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Привет, меня зовут Дмитрий Косик. Сейчас я активно вникаю в вайбкодинг, поэтому хочу делиться тем, что мне удается делать, а что нет) Подробнее в моем ТГ

Откуда берутся расходы

OpenClaw передает в API каждый запрос вместе с полным контекстом текущей сессии: системным промптом, историей диалога, содержимым подключенных файлов.

Итоговая стоимость = (input tokens + output tokens) × цена модели. Один запрос в конце длинной сессии может стоить в 20 раз дороже, чем тот же вопрос в начале чистой сессии.

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Три главных источника лишних токенов:

  • Раздутый контекст — длинные сессии без очистки
  • Избыточная модель — Opus там, где справится Haiku
  • Размытые запросы — агент переспрашивает, итерации множатся

1. Контекст: главный пожиратель бюджета

OpenClaw хранит историю сессии до явного завершения. Если утром вы обсуждали интеграцию с Telegram, а вечером просите разобрать CSV — оба разговора едут в API вместе.

Команда /clear полностью обнуляет историю. Для автоматизации в openclaw.json есть два параметра:

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

auto_clear_after_idle_minutes — сессия сбрасывается автоматически после N минут простоя.
max_history_messages — обрезает историю до последних N сообщений.

Эффект: средний input_tokens на запрос снизился с ~18 000 до ~4 500 токенов. В 4 раза.

2. Маршрутизация по моделям

Самая дорогая ошибка — одна модель на все задачи. Разница между Haiku и Opus — почти 19 раз по входящим токенам.

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

OpenClaw поддерживает model_routing — правила, по которым агент сам выбирает модель:

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Типичный результат: 70% задач → Haiku, 28% → Sonnet, 2% → Opus. Экономия ~65% по сравнению с «все через Sonnet».

3. Навыки вместо объяснений

Каждый раз объяснять агенту что делать — это токены на объяснение плюс токены на уточнение. Навык — файл с готовой инструкцией. Один вызов, ноль объяснений.

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Системный промпт в навыке не попадает в историю диалога — он отправляется один раз как system message. Дешевле, чем каждый раз писать в чат.

4. Точность запроса = меньше итераций

Каждая итерация — это дополнительный round-trip: запрос + ответ + уточнение + ответ. Размытый вопрос легко превращается в 4–5 сообщений там, где можно уложиться в одно.

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Структура хорошего запроса: что сделать + с чем + в каком формате + ограничение.

5. Батчинг запросов

Три отдельных вопроса за три минуты — три инициализации контекста. Три вопроса в одном сообщении — одна инициализация.

Батчинг трех связанных вопросов — экономия 63% токенов  
Батчинг трех связанных вопросов — экономия 63% токенов  

6. Файлы: читайте точечно

Подключение файла через @file.md отправляет весь файл в контекст. Если файл на 5 000 слов, а нужна одна секция — это лишние токены.

  • Спрашивайте агента без прикрепления, описав нужную часть текстом
  • Держите контекстные файлы короткими — до 400–600 слов каждый
  • Разбивайте большие документы на тематические блоки

7. Мониторинг: /cost и лимиты

Разбивка расходов по моделям — 71% задач ушло на Haiku  
Разбивка расходов по моделям — 71% задач ушло на Haiku  

Установите дневной лимит в конфиге — агент предупредит, когда подходите к порогу:

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Итог по методам

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Начните с первых двух пунктов — они дают наибольший эффект с минимальными усилиями. Первые три шага можно сделать за час. Разница в счете придет уже в следующем месяце.

Подписывайте на мой ТГ, там я делюсь полезными материалами по теме ИИ.

2
Начать дискуссию