DeepSeek V4 дропнул цену топовых моделей. Что это значит для бизнеса в России
4 апреля китайская лаборатория DeepSeek выложила в открытый доступ две модели - V4-Pro и V4-Flash. Цены на API упали в десятки раз по сравнению с Claude Opus. Контекст 1 миллион токенов стал дефолтом, а не премиум-фичей. Apache 2.0, веса на Hugging Face. Разбираем по шагам, что произошло и что теперь делать предпринимателю.
Что именно выложили
DeepSeek V4 - это два варианта одной архитектуры.
V4-Pro содержит 1.6 триллиона параметров, из которых на каждый токен активируются 49 миллиардов. Mixture of Experts с разреженностью 1.56%. На SWE-Bench Verified модель показывает 80.6% решённых задач. Для сравнения: Claude Opus 4.5 на том же бенчмарке - 80.9%. Две десятых процента разницы. При этом по общим знаниям V4-Pro проигрывает Gemini 3.1 Pro, на более строгом SWE-Bench Pro уступает китайским Kimi K2.6 и GLM-5.1. Картина не «лучший в мире», а «впервые вровень с топом по самому частотному бенчмарку».
V4-Flash - 284 миллиарда параметров, 13 миллиардов активных. Отстаёт от Pro на считанные проценты на большинстве задач, стоит кратно меньше.
Цены API:
- Flash: $0.14 на вход, $0.28 на выход за миллион токенов. Ровно столько же стоила DeepSeek V2 два года назад.
- Pro: $1.74 / $3.48.
- Claude Opus 4.7 для сравнения: $5 / $25.
- GPT-5.5 (вчерашний релиз OpenAI): $5 / $30.
- GPT-5.5 Pro: $30 / $180.
Между Flash и Opus разница 35 раз на входе и 89 раз на выходе. Для задачи с большим выходом счёт отличается примерно в 60-80 раз.
Почему это не маркетинг
Три причины доверять цифрам.
Первая. Simon Willison, один из самых строгих независимых ревьюеров AI-моделей в англоязычной экосистеме, уже опубликовал разбор утром 24 апреля. Вердикт: модель работает на заявленном уровне, архитектура сжатого контекста - прорывная.
Вторая. DeepSeek - не стартап-однодневка. Компания системно выпускает модели с января 2023 года. V1, V2, V3 прошли независимую валидацию. V4 - логичный следующий шаг.
Третья. Open-weights под Apache 2.0. Веса в открытом доступе, любой может скачать и проверить. Модели, которые не подтверждаются в независимых тестах, в open-source экосистеме теряют репутацию за недели. DeepSeek идёт на этот риск сознательно.
Что за архитектура
Две ключевые вещи.
Compressed Sparse Attention и Heavily Compressed Attention - гибридный механизм внимания. На контексте в миллион токенов модель использует 27% вычислений и 10% памяти KV-кэша по сравнению с прошлой V3.2. Это техническая причина, по которой миллион токенов стал дефолтом, а не премиум-опцией. Архитектурно, не маркетингово.
Mixture of Experts с высокой разреженностью. Из 1.6 триллиона параметров на каждый токен работают 49 миллиардов. Ёмкость гигантской сети, вычислительная нагрузка средней. Вторая причина низкой цены.
Война цен, пятое подтверждение за пять дней
Происходящее - не случайность. За последние 5 дней рынок четырежды показал одно движение:
20 апреля. Goldman Sachs публикует отчёт: AI-компании массово уходят с per-seat на usage-based pricing. OpenAI, Anthropic, Salesforce, ServiceNow - все мигрировали или тестируют.
21 апреля. Salesforce Agentforce 2.1 и ServiceNow в один день вводят success-fee layer поверх usage-based.
23 апреля утром. Simon Willison измеряет: новый токенайзер Opus 4.7 съедает на 46% больше токенов за тот же системный промпт. Цена формально не менялась, счёт за ту же задачу вырос на 46%.
23 апреля вечером. OpenAI анонсирует GPT-5.5. Качество выросло (Terminal-Bench 82.7% против 69.4% у Opus 4.7). Цена API тоже выросла: вход был $2.50, стал $5. Выход был $15, стал $30. Ровно в два раза.
24 апреля. DeepSeek V4 показывает, что можно иначе.
Пять сигналов за пять дней про одно: индустрия AI перешла от войны моделями к войне ценами. Качество растёт медленнее, чем цена. Кто держит качество и экономит - выигрывает.
Что это значит для бизнеса в России
Первое и главное: стоимость задачи, не стоимость модели.
Большинство собственников считают AI в подписках: «$20 в месяц за ChatGPT Plus» или «$200 за корпоративный план». Это как считать бензин в заправках, а не в рублях за километр.
Формула реальной экономики:
Стоимость задачи = (входные токены × цена входа) + (выходные токены × цена выхода) + 30% overhead на повторы и ошибки
Пример. Задача «саммари встречи 1.5 часа» - примерно 25 500 токенов на входе, 1 500 на выходе.
Через Opus 4.7: (25 500 × $5 + 1 500 × $25) × 1.3, всё на миллион = $0.21. Через V4-Flash: (25 500 × $0.14 + 1 500 × $0.28) × 1.3 = $0.005.
Разница - 40 раз. Если отдел продаж делает 200 саммари в месяц, через Opus это $42, через Flash - $1. В год $504 против $12.
Второе. Задачи, от которых вы отказывались, окупаются на первой неделе.
Массовая сортировка лидов по транскриптам звонков, автоматические протоколы всех встреч, разбор годовой переписки с клиентами на предмет скрытых болей, персонализированные еженедельные письма каждому клиенту. Всё, что раньше не помещалось в бюджет API, теперь влезает в бюджет средней компании.
Третье. Миллион токенов контекста по дефолту убивает RAG в простых сценариях.
Раньше для работы с большими корпоративными документами (регламенты, базы знаний, истории переписки) нужно было строить Retrieval-Augmented Generation. Отдельный инженерный проект: векторная база, chunking, калибровка. Недели работы, десятки тысяч рублей на инфраструктуру.
С миллионом токенов весь регламент (300-500 страниц, 150-250 тысяч токенов), полная история переписки с клиентом за два года (50-100 тысяч), кодовая база отдела (50-200 тысяч) - всё входит в один запрос. Архитектура упрощается радикально. Для SMB (10-200 сотрудников) это снимает большой барьер на вход в автоматизацию.
Практический чек-лист на эту неделю
Шаг 1. Посчитать реальную стоимость AI-задач в вашем бизнесе.
Выпишите 5 самых частых сценариев. Для каждого: токены на входе, токены на выходе, частота в месяц. Правило для оценки: 1 страница текста ≈ 500 токенов, 1 час транскрипта встречи ≈ 15 000 токенов. Умножьте, получите месячный бюджет по задаче.
Шаг 2. Подобрать модель под задачу.
Сложная агентная работа с многошаговой трассировкой, где ошибка на одном шаге катит весь результат - фронтир. Claude Opus 4.7 или GPT-5.5 Pro.
Массовая рутина, где важна стоимость на миллион операций - open-source. DeepSeek V4-Flash за $0.14 / $0.28 или Qwen 3.6.
Промежуточная зона - Sonnet, Haiku, GPT-5.4 mini или DeepSeek V4-Pro.
Шаг 3. Перелить 2-3 самые частые задачи на V4-Flash через OpenRouter или напрямую.
OpenRouter даёт переключение провайдеров через один base_url, код не меняется. API DeepSeek совместим с OpenAI SDK и Anthropic SDK.
Шаг 4. Прогнать 20 реальных задач через оба пути.
Не синтетических, именно ваши ежедневные. Сравнить качество ответа по 5-балльной шкале, время ответа, стоимость. По моим замерам на 50 типовых задачах за последние два дня: 70% показывают сопоставимое качество, 20% - небольшой проигрыш V4-Flash (оправданный экономикой), 10% - заметный проигрыш, лучше оставить на фронтире.
Шаг 5. Обновить позиционирование перед клиентами.
Если вы продаёте AI-услугу, не повышайте цену клиенту, даже когда Anthropic или OpenAI поднимут свою. Зафиксируйте позицию: «мы выбираем модель под задачу клиента, а не под бренд. Вы платите за результат». Это ваше конкурентное окно на ближайшие 2-3 квартала.
Риски
Три честных предупреждения.
Геополитика. DeepSeek - китайская лаборатория, API идёт через китайскую инфраструктуру. Для чувствительных к санкциям контуров это вопрос для юриста. Для внутренних процессов российского бизнеса - стандартный риск.
Независимая валидация. Цифры бенчмарков - внутренние замеры DeepSeek плюс первые ревью от Simon Willison. Нужно 7-14 дней для более широкой проверки. Пока - осторожный оптимизм, не слепое доверие.
Эффект новизны. Первые две недели после релиза любая модель выглядит лучше, чем есть. Стройте стек так, чтобы откат занимал час, не месяц.
Итог
DeepSeek V4 - первый случай, когда открытая модель показывает качество на уровне фронтира и цену на порядок ниже одновременно. Не все задачи переведутся. Но 30-50% типовых AI-задач среднего бизнеса - точно. Те, кто посчитает и переведёт первыми, получат конкурентное преимущество в деньгах.
Вопрос не «использовать ли DeepSeek V4». Вопрос - в каком виде это войдёт в ваш AI-стек на следующей неделе.
Больше разборов AI для бизнеса - в Telegram: Telegram