Benchmark: статьи и новости по теме

09.08.2025

Независимая оценка возможностей GPT-5

Не успела выйти новая модель, как независимые «оценщики» ИИ моделей METR оперативно проверили ее. Расскажу к каким выводам они пришли

GPT-5 способен автономно работать над задачами примерно до 2 часов 15 минут. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmetr.github.io%2Fautonomy-evals-guide%2Fgpt-5-report%2F&postId=2147480" rel="nofollow noreferrer noopener" target="_blank">Источник</a>

Виктор Н. (FractalAgents Ai)

04.09.2025

Стартовал RRNCB – первый продуктовый бенчмарк для оценки RAG-решений

Аватар Машина 20го августа запустила RRNCB – Russian RAG Normative – Corporate Benchmark - первый российский открытый бенчмарк для оценки ИИ продуктов и RAG-решений при работе с нормативной, правовой и технической документацией компаний. Бенчмарк позволит прозрачно сравнивать ИИ сервисы, которые "отвечают по тексту"

Machine learning

03.07.2025

ИИ-ассистенты пока не способны улучшить код, написанный человеком.

Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.