Claude Opus 4.7: заплатил за сеньора, получил джуна с хорошим резюме

Вчера Anthropic выкатил Claude Opus 4.7. Бенчмарки — огонь: SWE-bench 87.6%, CursorBench 70%, зрение улучшили в три раза. Блогеры строчат обзоры, Cursor раздаёт скидку 50%.

Я потестировал на реальных задачах. Пришлось откатиться на 4.6. Точнее — попытаться откатиться.

Claude Opus 4.7: заплатил за сеньора, получил джуна с хорошим резюме

Это впечатления первого дня. Возможно, я ещё не нашёл подход к модели. Но проблемы слишком системные, чтобы списать на «не распробовал».

Задача: создать новый раздел каталога на сайте. ТЗ описывает бизнес-требования — тип карточек, поведение при клике, визуальное оформление, навигацию.

Opus 4.6: изучает проект, лезет в базу данных, анализирует существующую структуру, создаёт сущности с нужными свойствами, настраивает компоненты — и только потом садится за шаблон. Как senior-разработчик, который сначала разбирается в платформе.

Opus 4.7: сразу верстает. С текстами-рыбой. С косяками в разметке. Без единого обращения к архитектуре проекта. Как стажёр, которому сказали «сделай страничку» — он открыл HTML-файл и начал набивать div-ы.

Effort стоял на max. Та самая настройка, за которую платишь $25 за миллион output-токенов.

Anthropic сами предупреждают в документации: на max модель «склонна к overthinking с убывающей отдачей». Но в моём случае никакого overthinking не было. Было underthinking — модель просто не стала разбираться в задаче.

С текстами — та же деградация, только менее заметная на первый взгляд.

Opus 4.6 при написании статьи работал как редактор с мозгом. В Extended Thinking видно цепочку: «Это утверждение нужно проверить», «Здесь аудитория технически грамотная — упрощу без потери смысла», «Этот абзац повторяет предыдущий, перестрою». Он сомневался, проверял факты, предлагал альтернативные структуры.

Opus 4.7 выдаёт текст. Формально отвечающий на запрос. Без проверки фактов, без сомнений в формулировках, без размышлений о подаче. Результат как у копирайтера с биржи фриланса: слова стоят, смысл размазан, глубины нет. Для экспертной статьи на Habr — непригодно. Для рекламного лендинга — тоже непригодно, потому что даже лендинг требует понимания продукта.

Окей, 4.7 не зашёл — откатимся на 4.6. Звучит логично?

В Claude Code через Remote Control (удалённое управление агентом) — это квест. Команда /model claude-opus-4-6 возвращает: «/model isn't available over Remote Control». Ладно, пропишем в конфиге:

"model": "claude-opus-4-6[1m]",
"effortLevel": "high"

Но стоит написать одно сообщение через remote-control и модель перескочит на 4.7.

Совпадение? В прошлый раз, перед релизом 4.7, пользователи массово жаловались на деградацию 4.6. Старший директор AMD написал на GitHub: «Claude деградировал до уровня, на котором ему нельзя доверять сложную инженерию». Anthropic отрицали перенаправление ресурсов на Mythos. Теперь к жалобам на деградацию добавляется принудительное обновление, от которого технически сложно отказаться. Паттерн просматривается.

Оптимизация под бенчмарки ценой самостоятельного мышления. SWE-bench, CursorBench, GPQA Diamond — все эти тесты работают с формализованными задачами, где контекст явный и полный. Anthropic прямо пишут: «Opus 4.7 интерпретирует промпты более буквально». Позиционируют как улучшение.

На практике «буквально» значит: модель перестала понимать контекст. Opus 4.6 получал бизнес-задачу и сам выстраивал техническую цепочку — изучить проект, декомпозировать, реализовать. Opus 4.7 получает ту же задачу и делает ровно то, что написано. Написано «создать раздел с карточками» — верстает карточки. Про базу данных в ТЗ ни слова — значит, базы не существует.

Бенчмарки выросли, а способность работать как senior — упала. Потому что бенчмарки измеряют точность выполнения явных инструкций. А ценность senior-разработчика — в понимании неявных.

Расход токенов ниже — потому что работы меньше. Забавная деталь: 4.7 на тех же задачах тратит меньше токенов, чем 4.6. Не потому что стал эффективнее — потому что пропускает шаги. Не лезет в базу, не изучает архитектуру, не проверяет факты. Меньше работы = меньше токенов = иллюзия экономии.

CTO Hex подтверждает: «Low-effort Opus 4.7 примерно равен medium-effort Opus 4.6». Звучит как комплимент. Переверните: базовый уровень мышления 4.7 ниже. Разницу компенсируют effort levels — то есть дополнительные токены на размышления. Платишь больше токенов за то, чтобы модель думала на уровне, на котором 4.6 думала по умолчанию.

За Opus платят не за скорость — Sonnet быстрее. Не за цену — Sonnet дешевле ($3/$15 против $5/$25). Платят за самостоятельное мышление: способность понять задачу, декомпозировать, принять архитектурные решения, проверить себя.

Anthropic рекомендуют: для 4.7 расписывайте пошаговые инструкции, указывайте явно, что нужно изучить проект, напоминайте, что факты нужно проверять. Окей. Но если я расписал пошаговый план — я уже сделал 70% интеллектуальной работы. Оставшиеся 30% — набить код по шагам — Sonnet за $3 сделает не хуже.

Anthropic создали модель, которая блестяще выполняет детализированные инструкции. Но для выполнения детализированных инструкций Sonnet и существует.

По бенчмаркам Opus 4.7 — лучшая публично доступная модель на рынке. На реальных задачах — непригодна как флагман. Не потому что плохая, а потому что потеряла то, за что платили: самостоятельное понимание контекста.

Мой текущий стек: Opus 4.6 для проектов, где нужно думать. Sonnet 4.6 для рутины. Opus 4.7 — на паузе до первых патчей или до момента, когда я пойму, как из неё вытащить то, что 4.6 давал из коробки.

И отдельный вопрос к Anthropic: если флагманскую модель обновляют принудительно и откатиться технически сложно — это апгрейд или принуждение?

Claude Opus 4.7: заплатил за сеньора, получил джуна с хорошим резюме

Кодинг: верстает вместо того, чтобы думать

Тексты: пишет, но не думает

Вишенка: откатиться нельзя

Почему так вышло

Зачем нужен Opus, если нужно писать инструкции как для Sonnet?

Итого