Kimi K2.6 за ночь выучила Zig и переписала свой инференс
15 токенов в секунду. 193 токена в секунду. 12.9x ускорения. 12 часов работы, 14 итераций, 4000+ вызовов инструментов. Язык программирования, на котором модель раньше не писала. Результат: на 20% быстрее популярного продукта (LM Studio).
Это не рекламный пост Moonshot AI. Это публичный лог ночного запуска Kimi K2.6, модели китайской лаборатории Moonshot, которая сидит сейчас на третьей строчке Artificial Analysis после Claude Opus 4.7 и GPT-5.4. Подробности выложили 22 апреля.
Задача была простая: "запусти себя локально и оцени скорость". Модель действительно запустилась: скачала LM Studio, провела бенчмарк, получила 15 токенов/сек. Оценила: "медленно". И вот здесь начинается странность.
Обычный AI-агент в такой ситуации делает что? Пишет отчёт. "Скорость 15 токенов/сек, для улучшения нужно X, Y, Z". Готово, можно закрыть задачу. Человек на этом месте проверил бы GitHub-issues LM Studio, попробовал другой runtime (llama.cpp, vLLM), может быть покопался в настройках batch size. Нормальный workflow.
Kimi K2.6 выбрала другой путь. Решила написать свой inference runtime. С нуля. На языке Zig, который в её training data был, но не доминировал. За 12 часов непрерывной работы модель прогнала 14 итераций кода: первая версия компилилась и выдавала мусор, пятая работала но медленнее LM Studio, десятая обгоняла на 5%, четырнадцатая давала 193 токена/сек, на 20% быстрее эталона.
Количество tool calls, 4000+. Это не один запрос, это непрерывная работа агента с файловой системой, компилятором, бенчмарками. Каждый вызов, это маленькое решение: "собрать, проверить, исправить, попробовать снова".
Что в этом странного
Три пункта, которые меняют разговор про "AI-агенты":
Выбор задачи. Модели не просили написать runtime. Её попросили замерить скорость. Переход от "замерь" к "напиши свой рантайм" модель сделала сама. Это уже не tool use, это выбор цели в пределах мета-задачи. Прецедент.
Выбор инструмента. Zig, не Python. Не C (который был бы очевидным). Не Rust (который модно). Zig: нишевый, быстрый, с удобной cross-compilation. Модель обосновала выбор в логе: "для inference нужна точность работы с памятью, Zig даёт её без сборщика мусора, Rust медленнее компилится, C менее безопасен". Обоснование содержательное, не клише.
Самооценка качества. После каждой итерации модель сама бенчмаркала результат против LM Studio и принимала решение: двигаться дальше или откатить. Критерий успеха (токенов/сек на MacBook Pro с M3 Max), модель сформулировала сама, на основе задачи. Не было человека, который говорил "стоп, ты идёшь в тупик".
Что говорит скептик
Я честно попробую разобрать это без эйфории.
Первое. Это ОДИН задокументированный эпизод из блога производителя. Не независимое воспроизведение, не peer-review. Moonshot заинтересован показать модель в лучшем свете. Возможно, параметры задачи были тщательно подобраны, чтобы эпизод сработал.
Второе. Zig у модели в training data был. Это не "язык которого модель не знает", это "язык, на котором модель мало писала". Разница важная. Если бы эксперимент провели на Brainfuck или Malbolge, было бы другое доказательство.
Третье. "На 20% быстрее LM Studio", это на конкретном железе (M3 Max), с конкретной моделью (K2.6 quantized), в конкретных условиях. На других моделях разница может быть обратной.
Четвёртое. 12 часов работы и 4000 tool calls, это много compute. В пересчёте на стоимость API, ночь такой работы стоит десятки долларов. Для сравнения, нанять senior-инженера написать runtime на Zig, дороже, да. Но компилинг самой модели тоже не бесплатный.
Всё вышеперечисленное честно. Но и после вычета всех скидок остаётся вопрос: что ВСЁ ЖЕ произошло?
Почему это важнее чем кажется
Три промышленные революции делал человек. Паровая машина не переизобретала сама себя. Электричество не модернизировало сеть без инженера. Компьютерная революция требовала программистов на каждом витке.
А вот сейчас мы смотрим, как инструмент участвует в своём собственном улучшении. Не в первый раз, конечно: AutoML, NAS, RLHF, всё это варианты самооптимизации. Но там были жёстко заданные рамки: "оптимизируй архитектуру на этом датасете под эту метрику". Модель не выбирала ни задачу, ни метрику.
Эпизод Kimi K2.6 показывает другое. Модель сама выбрала задачу ("мой inference медленный"), сама выбрала инструмент ("напишу свой на Zig"), сама оценила результат ("на 20% быстрее"). Это не обязательно первый такой случай в истории AI. Это ПЕРВЫЙ ХОРОШО ЗАДОКУМЕНТИРОВАННЫЙ случай с такими метриками на frontier-модели.
Дальше будет много. Первый, мы просто зафиксировали.
Что с этим делать тем, кто не в AI-исследованиях
Если вы думали, что "agentic" это маркетинговое слово поверх chain-of-thought, пересмотрите. Поведение, которое мы видим у Kimi, не эквивалентно prompt chaining. Оно включает в себя реальное принятие решений о целях в контексте задачи, реальный выбор инструментов, реальную оценку собственной работы.
Для конкурентов Claude/OpenAI. $0.90 за миллион output токенов у Kimi K2.6. $25 у Claude Opus 4.7. Разница в 28 раз. Если ваш use case не требует frontier-reasoning, экономическая логика к Kimi уже сейчас. Через год выбор только увеличится.
Для решений об инвестициях в AI. Скорость изменения экосистемы такая, что архитектура, которую вы выбираете сегодня, через 6 месяцев окажется устаревшей. Закладывайте гибкость в контракты с вендорами. Per-seat pricing умирает (писал про это отдельно), архитектурная жёсткость умирает следом.
Для всех остальных. Этот эпизод не значит "AGI завтра" и не значит "все программисты остались без работы". Это один конкретный случай, в конкретных условиях, с ограничениями, которые я перечислил выше. Но он сдвигает окно того, ЧТО ВООБЩЕ ВОЗМОЖНО. На полмесяца назад такой эксперимент звучал бы фантастикой. Сегодня это задокументированный факт с репродуцируемой методологией.
А это само по себе повод пересмотреть, что вы думали про AI-агентов пять дней назад.
Больше разборов AI для бизнеса - в Telegram: Telegram