Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Привет, меня зовут Дмитрий Косик. Сейчас я активно вникаю в вайбкодинг, поэтому хочу делиться тем, что мне удается делать, а что нет) Подробнее в моем ТГ

t.me

Косик Дмитрий | Торговец Кодом

OpenClaw передает в API каждый запрос вместе с полным контекстом текущей сессии: системным промптом, историей диалога, содержимым подключенных файлов.

Итоговая стоимость = (input tokens + output tokens) × цена модели. Один запрос в конце длинной сессии может стоить в 20 раз дороже, чем тот же вопрос в начале чистой сессии.

Три главных источника лишних токенов:

Раздутый контекст — длинные сессии без очистки
Избыточная модель — Opus там, где справится Haiku
Размытые запросы — агент переспрашивает, итерации множатся

OpenClaw хранит историю сессии до явного завершения. Если утром вы обсуждали интеграцию с Telegram, а вечером просите разобрать CSV — оба разговора едут в API вместе.

Команда /clear полностью обнуляет историю. Для автоматизации в openclaw.json есть два параметра:

auto_clear_after_idle_minutes — сессия сбрасывается автоматически после N минут простоя.
max_history_messages — обрезает историю до последних N сообщений.

Эффект: средний input_tokens на запрос снизился с ~18 000 до ~4 500 токенов. В 4 раза.

Самая дорогая ошибка — одна модель на все задачи. Разница между Haiku и Opus — почти 19 раз по входящим токенам.

OpenClaw поддерживает model_routing — правила, по которым агент сам выбирает модель:

Типичный результат: 70% задач → Haiku, 28% → Sonnet, 2% → Opus. Экономия ~65% по сравнению с «все через Sonnet».

Каждый раз объяснять агенту что делать — это токены на объяснение плюс токены на уточнение. Навык — файл с готовой инструкцией. Один вызов, ноль объяснений.

Системный промпт в навыке не попадает в историю диалога — он отправляется один раз как system message. Дешевле, чем каждый раз писать в чат.

Каждая итерация — это дополнительный round-trip: запрос + ответ + уточнение + ответ. Размытый вопрос легко превращается в 4–5 сообщений там, где можно уложиться в одно.

Структура хорошего запроса: что сделать + с чем + в каком формате + ограничение.

Три отдельных вопроса за три минуты — три инициализации контекста. Три вопроса в одном сообщении — одна инициализация.

Батчинг трех связанных вопросов — экономия 63% токенов

Подключение файла через @file.md отправляет весь файл в контекст. Если файл на 5 000 слов, а нужна одна секция — это лишние токены.

Спрашивайте агента без прикрепления, описав нужную часть текстом
Держите контекстные файлы короткими — до 400–600 слов каждый
Разбивайте большие документы на тематические блоки

Разбивка расходов по моделям — 71% задач ушло на Haiku

Установите дневной лимит в конфиге — агент предупредит, когда подходите к порогу:

Начните с первых двух пунктов — они дают наибольший эффект с минимальными усилиями. Первые три шага можно сделать за час. Разница в счете придет уже в следующем месяце.

Подписывайте на мой ТГ, там я делюсь полезными материалами по теме ИИ.

t.me

Косик Дмитрий | Торговец Кодом

Как снизить расход токенов в OpenClaw: разбор по-настоящему рабочих методов

Откуда берутся расходы

1. Контекст: главный пожиратель бюджета

2. Маршрутизация по моделям

3. Навыки вместо объяснений

4. Точность запроса = меньше итераций

5. Батчинг запросов

6. Файлы: читайте точечно

7. Мониторинг: /cost и лимиты

Итог по методам