Итоги тестирования российских LLM (Алиса AI и ГигаЧАТ) на реальных бизнес-задачах:
Мы завершили прогон региональных моделей — Алисы AI (Яндекс), базового GigaChat и GigaChat Аналитик (Сбер) — через 7 прикладных бенчмарков. Цель эксперимента — проверить способность алгоритмов забирать рутину: строить стратегии, защищать маржу и писать письма ЛПР.
Техническими арбитрами в процессе тестирования выступали Gemini и ChatGPT, но итоговые выводы и выставленные оценки — исключительно мой субъективный взгляд.
Итоговые результаты эксперимента
- Алиса AI (Яндекс) — 29 баллов
- Тест №1 (SWOT-анализ): 5 баллов, Тест №2 (Холодные письма): 3 балла, Тест №3 (Конкурентная разведка): 3 балла Тест №4 (Market Insight): 3 балла Тест №5 (Regional Expansion): 5 баллов Тест №6 (NPS & Methodology): 5 баллов Тест №7 (LTV Strategy): 5 баллов
- GigaChat Аналитик / Агент (Сбер) — 21 балл Тест №1 (SWOT-анализ): 3 балла Тест №2 (Холодные письма): 5 баллов Тест №3 (Конкурентная разведка): 1 балл Тест №4 (Market Insight): 3 балла Тест №5 (Regional Expansion): 3 балла Тест №6 (NPS & Methodology): 3 балла Тест №7 (LTV Strategy): 3 балла
- GigaChat (базовая версия) — 7 баллов Тест №1 (SWOT-анализ): 1 балл Тест №2 (Холодные письма): 1 балл Тест №3 (Конкурентная разведка): 1 балл Тест №4 (Market Insight): 1 балл Тест №5 (Regional Expansion): 1 балл Тест №6 (NPS & Methodology): 1 балл Тест №7 (LTV Strategy): 1 балл
Субъективный вердикт:
Российские LLM пригодны для решения бизнес-задач с учетом оговорок. Для региональных игроков рынка уровень вполне достойный.
Меня искренне удивила Алиса AI. На первый взгляд вся концепция ориентирована на домохозяек и массового потребителя (оживи картинку, объедини), но в реальных бизнес-задачах она показала для региональной модели очень достойный результат.
Минусы Яндекса(довольно жирные): можно подгрузить только один файл (хорошо хоть объем нормальный — 100 Мб). Почему не упростить пользователям задачу и не дать возможность грузить хотя бы 5 файлов по 20 Мб? Главное разочарование — нельзя грузить Excel. Документы приходится сливать в один текст для достижения результата.
Базовый GigaChat, который казался фаворитом на первый взгляд, результатами разочаровал. Но ситуацию сильно исправил режим агента (Аналитик, ставший третьим участником), который я рекомендую вообще не отключать. Он может съедать несколько файлов сразу (хотя Excel всё равно только один) и способен переваривать сложную методологию.
Но если наши модели будут находиться не в условиях конкурентной среды — вряд ли мы увидим их дальнейший прогресс. Громкие заявления про опережение западных аналогов скорее вредят восприятию этих продуктов, создавая вокруг них негатив и отторжение со стороны пользователей.
Подробнее результаты каждого из тестов можно изучить в моем Telegram-канале