Как сократить расход токенов в Claude Code: от мемов до инженерии
Anthropic признали: пользователи Claude Code Max сжигают $200 в месяц за час вместо пяти. Комьюнити ответило волной инструментов - от шуточных до серьёзных. Разбираю каждый с цифрами.
Почему это стало проблемой
Claude Code - это AI-агент, который работает прямо в терминале. Он читает файлы, запускает команды, пишет код. Каждое действие - это токены. Каждый токен - это деньги.
31 марта 2026 года Anthropic публично признали проблему: пользователи плана Max ($200/мес) упираются в лимиты в разы быстрее, чем ожидалось. Средний расход на разработчика - $6 в день, но у активных пользователей доходит до $12.
В ответ комьюнити начало строить инструменты. За неделю появилось больше десятка решений - от мемных до инженерных. Вот что реально работает.
Caveman Mode - шутка, которая экономит 65% выходных токенов
Самый вирусный инструмент - 6 400 звёзд на GitHub за 4 дня. Попал на главную Hacker News с 881 баллом.
Идея простая: заставить Claude отвечать как пещерный человек. "Why use many token when few token do trick." Вместо развёрнутого ответа на 1 214 токенов получаешь 294.
Автор Julius Brussee сам назвал это шуткой. Но она работает: минус 65% на output-токенах. На общих затратах экономия скромнее - около 25%, потому что основной расход идёт на input (контекст).
Критика с Hacker News: "Токены - это единицы мышления. Сжимая вывод, ты ограничиваешь модель." Контраргумент: "Caveman не уменьшает мозг. Caveman уменьшает рот." Reasoning-токены не затрагиваются.
Token-efficient CLAUDE.md - 17% экономии без усилий
Готовый файл конфигурации с 8 правилами поведения: не льсти пользователю, не лей воду, не переписывай файлы целиком, анализируй перед написанием кода. 3 600 звёзд на GitHub.
Внешние бенчмарки показывают снижение объёма ответов на 63% (с 465 до 170 слов) и 17% экономии на общих затратах.
Нюанс: сам CLAUDE.md добавляет input-токены к каждому сообщению. Anthropic рекомендуют держать его до 200 строк.
/compact - простое действие, которое меняет всё
Встроенная команда Claude Code. Автокомпакт срабатывает на 95% заполнения контекста - это слишком поздно. К этому моменту модель уже работает с раздутым окном.
Лучшая практика: запускать /compact вручную на 60% и указывать, что сохранить. Например: "/compact Keep: текущая архитектура, решение использовать Redis, нерешённая ошибка в middleware.ts"
Это одна команда, которая может сэкономить 30-50% контекста за сессию.
RTK (Rust Token Killer) - серьёзная инженерия
19 900 звёзд на GitHub. Это уже не мем.
RTK - бинарник на Rust, который перехватывает вывод shell-команд и сжимает его ДО попадания в контекст Claude. Работает как прокси: git status, ls, тесты - всё проходит через фильтр.
Цифры из 30-минутного бенчмарка:
- ls/tree: минус 80% (2 000 -> 400 токенов)
- Чтение файлов: минус 70% (40 000 -> 12 000)
- Вывод тестов: минус 90% (25 000 -> 2 500)
- Git-операции: минус 80-92%
- Итого за сессию: 118 000 -> 23 900 токенов
Это работает, потому что сжимает input-токены - а именно они составляют основную часть расходов.
Model routing - Opus думает, Haiku бегает
Официально поддерживаемая техника. Идея: не все задачи требуют самой мощной модели.
Установите CLAUDE_CODE_SUBAGENT_MODEL=haiku - и простые задачи (поиск файлов, чтение документации, проверка типов) пойдут через Haiku по $0.25 за миллион токенов вместо Opus.
Экономия - до 92% на субагентных задачах. Паттерн: Opus для архитектуры, Sonnet для реализации, Haiku для рутины.
Thinking budget - скрытый пожиратель бюджета
По умолчанию Claude тратит до 32 000 токенов на "размышления" перед каждым ответом. Эти токены тарифицируются как output - самые дорогие.
Большинству задач хватает 8 000. Установите MAX_THINKING_TOKENS=8000 или используйте команду /effort для снижения. Минус 70% на скрытых затратах.
ccusage - нельзя оптимизировать то, что не измеряешь
CLI-инструмент, который парсит логи Claude Code и показывает реальный расход по дням, сессиям, моделям. Запускается одной командой: npx ccusage@latest.
Без него все остальные оптимизации - вслепую.
Что из этого использовать
Если выбирать три вещи:
- /compact на 60% - бесплатно, встроено, работает сразу
- RTK - максимальная экономия на input-токенах
- Model routing - официальный способ снизить стоимость субагентов
Caveman Mode - отличный мем и неплохой бонус сверху. Но основная экономия - в сжатии входных данных, а не выходных.
Какие техники используете вы? Или пока не смотрите на расход токенов?