Как сократить расход токенов в Claude Code: от мемов до инженерии

Anthropic признали: пользователи Claude Code Max сжигают $200 в месяц за час вместо пяти. Комьюнити ответило волной инструментов - от шуточных до серьёзных. Разбираю каждый с цифрами.

Claude Code - это AI-агент, который работает прямо в терминале. Он читает файлы, запускает команды, пишет код. Каждое действие - это токены. Каждый токен - это деньги.

31 марта 2026 года Anthropic публично признали проблему: пользователи плана Max ($200/мес) упираются в лимиты в разы быстрее, чем ожидалось. Средний расход на разработчика - $6 в день, но у активных пользователей доходит до $12.

В ответ комьюнити начало строить инструменты. За неделю появилось больше десятка решений - от мемных до инженерных. Вот что реально работает.

Самый вирусный инструмент - 6 400 звёзд на GitHub за 4 дня. Попал на главную Hacker News с 881 баллом.

Идея простая: заставить Claude отвечать как пещерный человек. "Why use many token when few token do trick." Вместо развёрнутого ответа на 1 214 токенов получаешь 294.

Автор Julius Brussee сам назвал это шуткой. Но она работает: минус 65% на output-токенах. На общих затратах экономия скромнее - около 25%, потому что основной расход идёт на input (контекст).

Критика с Hacker News: "Токены - это единицы мышления. Сжимая вывод, ты ограничиваешь модель." Контраргумент: "Caveman не уменьшает мозг. Caveman уменьшает рот." Reasoning-токены не затрагиваются.

Готовый файл конфигурации с 8 правилами поведения: не льсти пользователю, не лей воду, не переписывай файлы целиком, анализируй перед написанием кода. 3 600 звёзд на GitHub.

Внешние бенчмарки показывают снижение объёма ответов на 63% (с 465 до 170 слов) и 17% экономии на общих затратах.

Нюанс: сам CLAUDE.md добавляет input-токены к каждому сообщению. Anthropic рекомендуют держать его до 200 строк.

Встроенная команда Claude Code. Автокомпакт срабатывает на 95% заполнения контекста - это слишком поздно. К этому моменту модель уже работает с раздутым окном.

Лучшая практика: запускать /compact вручную на 60% и указывать, что сохранить. Например: "/compact Keep: текущая архитектура, решение использовать Redis, нерешённая ошибка в middleware.ts"

Это одна команда, которая может сэкономить 30-50% контекста за сессию.

19 900 звёзд на GitHub. Это уже не мем.

RTK - бинарник на Rust, который перехватывает вывод shell-команд и сжимает его ДО попадания в контекст Claude. Работает как прокси: git status, ls, тесты - всё проходит через фильтр.

Цифры из 30-минутного бенчмарка:

ls/tree: минус 80% (2 000 -> 400 токенов)
Чтение файлов: минус 70% (40 000 -> 12 000)
Вывод тестов: минус 90% (25 000 -> 2 500)
Git-операции: минус 80-92%
Итого за сессию: 118 000 -> 23 900 токенов

Это работает, потому что сжимает input-токены - а именно они составляют основную часть расходов.

Официально поддерживаемая техника. Идея: не все задачи требуют самой мощной модели.

Установите CLAUDE_CODE_SUBAGENT_MODEL=haiku - и простые задачи (поиск файлов, чтение документации, проверка типов) пойдут через Haiku по $0.25 за миллион токенов вместо Opus.

Экономия - до 92% на субагентных задачах. Паттерн: Opus для архитектуры, Sonnet для реализации, Haiku для рутины.

По умолчанию Claude тратит до 32 000 токенов на "размышления" перед каждым ответом. Эти токены тарифицируются как output - самые дорогие.

Большинству задач хватает 8 000. Установите MAX_THINKING_TOKENS=8000 или используйте команду /effort для снижения. Минус 70% на скрытых затратах.

CLI-инструмент, который парсит логи Claude Code и показывает реальный расход по дням, сессиям, моделям. Запускается одной командой: npx ccusage@latest.

Без него все остальные оптимизации - вслепую.

Если выбирать три вещи:

/compact на 60% - бесплатно, встроено, работает сразу
RTK - максимальная экономия на input-токенах
Model routing - официальный способ снизить стоимость субагентов

Caveman Mode - отличный мем и неплохой бонус сверху. Но основная экономия - в сжатии входных данных, а не выходных.

Какие техники используете вы? Или пока не смотрите на расход токенов?

#ClaudeCode #AI #DevTools #Разработка #Оптимизация

Как сократить расход токенов в Claude Code: от мемов до инженерии

Почему это стало проблемой

Caveman Mode - шутка, которая экономит 65% выходных токенов

Token-efficient CLAUDE.md - 17% экономии без усилий

/compact - простое действие, которое меняет всё

RTK (Rust Token Killer) - серьёзная инженерия

Model routing - Opus думает, Haiku бегает

Thinking budget - скрытый пожиратель бюджета

ccusage - нельзя оптимизировать то, что не измеряешь

Что из этого использовать