Claude Opus 4.7: заплатил за сеньора, получил джуна с хорошим резюме

Вчера Anthropic выкатил Claude Opus 4.7. Бенчмарки — огонь: SWE-bench 87.6%, CursorBench 70%, зрение улучшили в три раза. Блогеры строчат обзоры, Cursor раздаёт скидку 50%.

Я потестировал на реальных задачах. Пришлось откатиться на 4.6. Точнее — попытаться откатиться.

Claude Opus 4.7: заплатил за сеньора, получил джуна с хорошим резюме

Это впечатления первого дня. Возможно, я ещё не нашёл подход к модели. Но проблемы слишком системные, чтобы списать на «не распробовал».

Кодинг: верстает вместо того, чтобы думать

Задача: создать новый раздел каталога на сайте. ТЗ описывает бизнес-требования — тип карточек, поведение при клике, визуальное оформление, навигацию.

Opus 4.6: изучает проект, лезет в базу данных, анализирует существующую структуру, создаёт сущности с нужными свойствами, настраивает компоненты — и только потом садится за шаблон. Как senior-разработчик, который сначала разбирается в платформе.

Opus 4.7: сразу верстает. С текстами-рыбой. С косяками в разметке. Без единого обращения к архитектуре проекта. Как стажёр, которому сказали «сделай страничку» — он открыл HTML-файл и начал набивать div-ы.

Effort стоял на max. Та самая настройка, за которую платишь $25 за миллион output-токенов.

Anthropic сами предупреждают в документации: на max модель «склонна к overthinking с убывающей отдачей». Но в моём случае никакого overthinking не было. Было underthinking — модель просто не стала разбираться в задаче.

Тексты: пишет, но не думает

С текстами — та же деградация, только менее заметная на первый взгляд.

Opus 4.6 при написании статьи работал как редактор с мозгом. В Extended Thinking видно цепочку: «Это утверждение нужно проверить», «Здесь аудитория технически грамотная — упрощу без потери смысла», «Этот абзац повторяет предыдущий, перестрою». Он сомневался, проверял факты, предлагал альтернативные структуры.

Opus 4.7 выдаёт текст. Формально отвечающий на запрос. Без проверки фактов, без сомнений в формулировках, без размышлений о подаче. Результат как у копирайтера с биржи фриланса: слова стоят, смысл размазан, глубины нет. Для экспертной статьи на Habr — непригодно. Для рекламного лендинга — тоже непригодно, потому что даже лендинг требует понимания продукта.

Вишенка: откатиться нельзя

Окей, 4.7 не зашёл — откатимся на 4.6. Звучит логично?

В Claude Code через Remote Control (удалённое управление агентом) — это квест. Команда /model claude-opus-4-6 возвращает: «/model isn't available over Remote Control». Ладно, пропишем в конфиге:

"model": "claude-opus-4-6[1m]",
"effortLevel": "high"

Но стоит написать одно сообщение через remote-control и модель перескочит на 4.7.

Совпадение? В прошлый раз, перед релизом 4.7, пользователи массово жаловались на деградацию 4.6. Старший директор AMD написал на GitHub: «Claude деградировал до уровня, на котором ему нельзя доверять сложную инженерию». Anthropic отрицали перенаправление ресурсов на Mythos. Теперь к жалобам на деградацию добавляется принудительное обновление, от которого технически сложно отказаться. Паттерн просматривается.

Почему так вышло

Оптимизация под бенчмарки ценой самостоятельного мышления. SWE-bench, CursorBench, GPQA Diamond — все эти тесты работают с формализованными задачами, где контекст явный и полный. Anthropic прямо пишут: «Opus 4.7 интерпретирует промпты более буквально». Позиционируют как улучшение.

На практике «буквально» значит: модель перестала понимать контекст. Opus 4.6 получал бизнес-задачу и сам выстраивал техническую цепочку — изучить проект, декомпозировать, реализовать. Opus 4.7 получает ту же задачу и делает ровно то, что написано. Написано «создать раздел с карточками» — верстает карточки. Про базу данных в ТЗ ни слова — значит, базы не существует.

Бенчмарки выросли, а способность работать как senior — упала. Потому что бенчмарки измеряют точность выполнения явных инструкций. А ценность senior-разработчика — в понимании неявных.

Расход токенов ниже — потому что работы меньше. Забавная деталь: 4.7 на тех же задачах тратит меньше токенов, чем 4.6. Не потому что стал эффективнее — потому что пропускает шаги. Не лезет в базу, не изучает архитектуру, не проверяет факты. Меньше работы = меньше токенов = иллюзия экономии.

CTO Hex подтверждает: «Low-effort Opus 4.7 примерно равен medium-effort Opus 4.6». Звучит как комплимент. Переверните: базовый уровень мышления 4.7 ниже. Разницу компенсируют effort levels — то есть дополнительные токены на размышления. Платишь больше токенов за то, чтобы модель думала на уровне, на котором 4.6 думала по умолчанию.

Зачем нужен Opus, если нужно писать инструкции как для Sonnet?

За Opus платят не за скорость — Sonnet быстрее. Не за цену — Sonnet дешевле ($3/$15 против $5/$25). Платят за самостоятельное мышление: способность понять задачу, декомпозировать, принять архитектурные решения, проверить себя.

Anthropic рекомендуют: для 4.7 расписывайте пошаговые инструкции, указывайте явно, что нужно изучить проект, напоминайте, что факты нужно проверять. Окей. Но если я расписал пошаговый план — я уже сделал 70% интеллектуальной работы. Оставшиеся 30% — набить код по шагам — Sonnet за $3 сделает не хуже.

Anthropic создали модель, которая блестяще выполняет детализированные инструкции. Но для выполнения детализированных инструкций Sonnet и существует.

Итого

По бенчмаркам Opus 4.7 — лучшая публично доступная модель на рынке. На реальных задачах — непригодна как флагман. Не потому что плохая, а потому что потеряла то, за что платили: самостоятельное понимание контекста.

Мой текущий стек: Opus 4.6 для проектов, где нужно думать. Sonnet 4.6 для рутины. Opus 4.7 — на паузе до первых патчей или до момента, когда я пойму, как из неё вытащить то, что 4.6 давал из коробки.

И отдельный вопрос к Anthropic: если флагманскую модель обновляют принудительно и откатиться технически сложно — это апгрейд или принуждение?

3
Начать дискуссию