Не успела выйти новая модель, как независимые «оценщики» ИИ моделей METR оперативно проверили ее. Расскажу к каким выводам они пришли
Не успела выйти новая модель, как независимые «оценщики» ИИ моделей METR оперативно проверили ее. Расскажу к каким выводам они пришли
Аватар Машина 20го августа запустила RRNCB – Russian RAG Normative – Corporate Benchmark - первый российский открытый бенчмарк для оценки ИИ продуктов и RAG-решений при работе с нормативной, правовой и технической документацией компаний. Бенчмарк позволит прозрачно сравнивать ИИ сервисы, которые "отвечают по тексту"
Пока одни восхищаются способностью ИИ писать код по текстовому описанию, в компании Марка Цукерберга решили устроить ему настоящее испытание на профессионализм и создали «The Automated LLM Speedrunning Benchmark» — полигон, где нейросетям предлагается не просто написать что-то с нуля, а воспроизвести и улучшить уже существующий код.