Оценка LLM: комплексные оценщики и фреймворки оценки

Оценка LLM: комплексные оценщики и фреймворки оценки

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности крупных языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

[Разбор] У Langfuse 10-20 минут лага в UI. Почему я оставил свой трейсер в продакшене

На прошлой неделе закрыл задачу: интеграция Langfuse в свой опен-сорсный агентный фреймворк Tuplet. Через два дня после деплоя понял, что без встроенного трейсера работать невозможно.

[Разбор] У Langfuse 10-20 минут лага в UI. Почему я оставил свой трейсер в продакшене