DeepSeek V4: Китайский «убийца» Claude и GPT?

Утечка бенчмарков показывает 83.7% на SWE-bench — лучший результат в мире для кодинга

Китайская AI-лаборатория DeepSeek снова готовится потрясти индустрию. Утечка внутренних бенчмарков грядущей модели V4 показывает результаты, которые могут сделать её лучшей в мире для генерации кода. Стоит ли OpenAI и Anthropic готовиться к шоку?

В середине февраля 2026 года в сеть попали внутренние бенчмарки DeepSeek V4 — новой флагманской модели китайской AI-лаборатории. Информация появилась на Reddit и в Twitter, после чего была подхвачена ведущими технологическими изданиями, включая The Information. Утечка содержит детальные результаты тестирования модели на ключевых бенчмарках для программирования, которые вызвали настоящий переполох в сообществе разработчиков и инвесторов.

Согласно утечке, DeepSeek V4 демонстрирует впечатляющие результаты: 83.7% на SWE-bench Verified — бенчмарке, который считается «золотым стандартом» для оценки способности моделей решать реальные задачи из индустрии программного обеспечения. Для сравнения, предыдущий лидер Claude Opus 4.5 показывал результат 80.9%, что до сих пор считалось недостижимым для конкурентов. Кроме того, модель якобы достигает 90% на HumanEval — классическом тесте на генерацию кода, превосходя показатели Claude (88%) и GPT-4.

Особого внимания заслуживает контекстное окно модели: по информации из источников, DeepSeek V4 поддерживает более 1 миллиона токенов контекста. Это позволяет модели работать с целыми репозиториями кода, понимать архитектурные зависимости и предлагать рефакторинг, который компилируется с первого раза. В условиях, когда большинство моделей теряют нить рассуждения на длинных промптах, такое преимущество может стать решающим.

Чтобы понять масштаб потенциального прорыва, важно взглянуть на сравнительные показатели лидеров рынка. Индустрия AI-кодинга переживает настоящий бум: по данным аналитических агентств, рынок инструментов для генерации кода вырос на 340% за последние два года, а более 70% разработчиков уже используют AI-ассистенты в повседневной работе.

* — данные по утечке, не подтверждены официально

Разрыв в 2.8 процентных пункта на SWE-bench может показаться небольшим, но в контексте этого бенчмарка он означает качественный скачок. SWE-bench Verified тестирует модели на реальных GitHub-issues из популярных open-source проектов: модель должна понять проблему, найти нужные файлы, написать код и пройти тесты. Каждый дополнительный процент на этом бенчмарке отражает способность модели решать задачи, которые раньше требовали вмешательства человека.

Важно понимать контекст: источники с прямым доступом к проекту сообщили The Information, что внутренние бенчмарки V4 показывают превосходство над сериями Claude и GPT «особенно на экстремально длинных промптах с кодом». Это ключевой инсайт, который объясняет фокус DeepSeek на контекстном окне в 1 миллион токенов — модель позиционируется как инструмент для работы с целыми репозиториями, а не отдельными функциями.

12 января 2026 года DeepSeek опубликовал исследовательскую статью, которая может объяснить феноменальные результаты V4. Речь идёт об архитектуре Engram — условном модуле памяти, который отделяет контекст от собственно памяти модели.

Название отсылает к нейробиологии: энграмма — это физическое следствие памяти в мозге, гипотетический механизм хранения воспоминаний.

Технически Engram реализует концепцию «условной памяти через масштабируемый lookup». Вместо того чтобы хранить всю информацию в параметрах модели, Engram использует внешние таблицы поиска, которые активируются в зависимости от контекста. Это позволяет достигать постоянного времени доступа к знаниям независимо от объёма памяти и кардинально снижает вычислительные затраты при обработке длинных промптов.

DeepSeek V4: Китайский «убийца» Claude и GPT?

Если утечка соответствует действительности, индустрия стоит на пороге очередного перелома. DeepSeek V4 может стать первым случаем, когда китайская модель не просто догоняет западные аналоги, а объективно превосходит их в критически важной нише — генерации кода. Это имеет серьёзные последствия для всех участников рынка, от разработчиков до инвесторов и регуляторов.

При таком развитии событий DeepSeek V4 официально подтверждает leaked-результаты в течение февраля 2026 года. Модель выходит как open-source под MIT-лицензией, API предлагается по демпинговым ценам. Последствия: массовая миграция разработчиков на DeepSeek, падение доходов OpenAI и Anthropic в сегменте кодинга, пересмотр инвестиционных тезисов в пользу «эффективности» против «масштаба». Акции западных AI-компаний могут упасть на 10-20% в краткосрочной перспективе.

Бенчмарки оказываются оптимистичными или сфальсифицированными. В реальных задачах V4 показывает результаты на уровне V3 или незначительно лучше. Это классический сценарий «overfitting to benchmarks», когда модель специально оптимизируется под конкретные тесты без реального улучшения качества. Последствия: временная реабилитация западных конкурентов, рост скептицизма к китайским разработкам, но и усиление внимания к архитектуре Engram как потенциально перспективной.

Модель технически успешна, но сталкивается с регуляторными барьерами. США вводят ограничения на использование DeepSeek для правительственных подрядчиков, европейские компании опасаются вопросов конфиденциальности данных, сама модель подвергается цензуре на «чувствительные» темы. В этом случае V4 завоёвывает рынки Азии, Латинской Америки и Африки, но остаётся нишевым продуктом на Западе. Индустрия фрагментируется на «западный» и «китайский» AI-лагеря.

Для разработчиков и компаний, использующих AI для кодинга, текущая ситуация требует взвешенного подхода. С одной стороны, DeepSeek V3 уже доступен и предлагает конкурентоспособное качество по демпинговым ценам. С другой — V4 обещает качественный скачок, и имеет смысл дождаться официального релиза, прежде чем делать долгосрочные инвестиции в миграцию. Рекомендуется начать эксперименты с текущими моделями DeepSeek для понимания экосистемы, но отложить стратегические решения до релиза.

Для инвесторов ключевой вопрос — готовность портфелей к новому «DeepSeek-шоку». Акции Nvidia, Microsoft и других бенефициаров AI-бума уязвимы к демонстрации того, что эффективные модели могут создаваться за миллионы, а не миллиарды долларов. Однако важно помнить, что DeepSeek не отменяет бизнес-модели западных компаний — они могут адаптироваться через снижение цен, улучшение качества или фокус на enterprise-сегменте, где вопросы безопасности и compliance играют ключевую роль.

Для предпринимателей и стартапов появление «coding-first» модели с million-token контекстом открывает новые возможности. Становятся реалистичными продукты, которые раньше были невозможны: AI-ассистенты для рефакторинга целых монорепозиториев, автоматическая генерация документации для legacy-кода, системы миграции между технологическими стеками. Рынок AI-инструментов для разработчиков может вырасти ещё в несколько раз на фоне появления таких возможностей.

Независимо от того, подтвердятся ли бенчмарки DeepSeek V4, одно очевидно: правила игры в AI меняются. Китайская лаборатория демонстрирует, что для прорыва не нужны десятки миллиардов долларов и армии инженеров — достаточно умной архитектуры и фокуса на конкретной проблеме. Engram — это не просто техническая инновация, а сигнал о том, что следующий этап AI-гонки будет разворачиваться вокруг эффективности, а не масштаба.

Для западных конкурентов это тревожный звонок. OpenAI, Anthropic и Google привыкли доминировать благодаря доступу к вычислительным ресурсам и таланту. DeepSeek показывает, что эти преимущества временны: при правильной архитектуре можно достичь сравнимых результатов с существенно меньшими инвестициями. Вопрос теперь не в том, «догонит ли Китай», а в том, как быстро западные компании адаптируются к новой реальности ценовой войны.

Февраль 2026 года обещает быть горячим. Релиз DeepSeek V4 приурочен к Китайскому Новому году — символичный выбор для компании, которая стремится показать: AI-будущее не принадлежит одной стране или компании. Глобальная гонка продолжается,

и ставки становятся всё выше. Один вопрос остаётся открытым: готова ли индустрия к тому, что лучшая модель для кодинга будет китайской и open-source?

Подпишись на мой Telegram, чтобы не пропустить эксклюзивные материалы.

DeepSeek V4: Китайский «убийца» Claude и GPT?

Что произошло: факты утечки

Сравнение с конкурентами: действительно ли V4 так хорош?

Engram: секретное оружие DeepSeek

Что это значит для индустрии: сценарии развития

Сценарий 1: Подтверждение бенчмарков (вероятность 60%)

Сценарий 2: Разочарование в реальных тестах (вероятность 25%)

Сценарий 3: Геополитические ограничения (вероятность 15%)

Стоит ли ждать? Практические рекомендации

Выводы: новые правила игры