Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов
Привет, меня зовут Дмитрий Косик. Сейчас я активно вникаю в вайбкодинг, поэтому хочу делиться тем, что мне удается делать, а что нет) Подробнее в моем ТГ
Откуда берутся расходы
OpenClaw передает в API каждый запрос вместе с полным контекстом текущей сессии: системным промптом, историей диалога, содержимым подключенных файлов.
Итоговая стоимость = (input tokens + output tokens) × цена модели. Один запрос в конце длинной сессии может стоить в 20 раз дороже, чем тот же вопрос в начале чистой сессии.
Три главных источника лишних токенов:
- Раздутый контекст — длинные сессии без очистки
- Избыточная модель — Opus там, где справится Haiku
- Размытые запросы — агент переспрашивает, итерации множатся
1. Контекст: главный пожиратель бюджета
OpenClaw хранит историю сессии до явного завершения. Если утром вы обсуждали интеграцию с Telegram, а вечером просите разобрать CSV — оба разговора едут в API вместе.
Команда /clear полностью обнуляет историю. Для автоматизации в openclaw.json есть два параметра:
auto_clear_after_idle_minutes — сессия сбрасывается автоматически после N минут простоя.
max_history_messages — обрезает историю до последних N сообщений.
Эффект: средний input_tokens на запрос снизился с ~18 000 до ~4 500 токенов. В 4 раза.
2. Маршрутизация по моделям
Самая дорогая ошибка — одна модель на все задачи. Разница между Haiku и Opus — почти 19 раз по входящим токенам.
OpenClaw поддерживает model_routing — правила, по которым агент сам выбирает модель:
Типичный результат: 70% задач → Haiku, 28% → Sonnet, 2% → Opus. Экономия ~65% по сравнению с «все через Sonnet».
3. Навыки вместо объяснений
Каждый раз объяснять агенту что делать — это токены на объяснение плюс токены на уточнение. Навык — файл с готовой инструкцией. Один вызов, ноль объяснений.
Системный промпт в навыке не попадает в историю диалога — он отправляется один раз как system message. Дешевле, чем каждый раз писать в чат.
4. Точность запроса = меньше итераций
Каждая итерация — это дополнительный round-trip: запрос + ответ + уточнение + ответ. Размытый вопрос легко превращается в 4–5 сообщений там, где можно уложиться в одно.
Структура хорошего запроса: что сделать + с чем + в каком формате + ограничение.
5. Батчинг запросов
Три отдельных вопроса за три минуты — три инициализации контекста. Три вопроса в одном сообщении — одна инициализация.
6. Файлы: читайте точечно
Подключение файла через @file.md отправляет весь файл в контекст. Если файл на 5 000 слов, а нужна одна секция — это лишние токены.
- Спрашивайте агента без прикрепления, описав нужную часть текстом
- Держите контекстные файлы короткими — до 400–600 слов каждый
- Разбивайте большие документы на тематические блоки
7. Мониторинг: /cost и лимиты
Установите дневной лимит в конфиге — агент предупредит, когда подходите к порогу:
Итог по методам
Начните с первых двух пунктов — они дают наибольший эффект с минимальными усилиями. Первые три шага можно сделать за час. Разница в счете придет уже в следующем месяце.
Подписывайте на мой ТГ, там я делюсь полезными материалами по теме ИИ.