Офлайн метрики, или как не провалить собес на AI-продакта

Нет-нет, да общаюсь с продактами, и вижу повторяющийся анти-паттерн мышления, особенно у мощных динозавров с огромным опытом.

Так что сегодня узнаем, как вырастить шансы успешного интервью на позицию Product Manager в AI продукте, и опередить 90% «классических» продактов из 2017.

А заодно — как измерять качество выдачи, тупость ответов, красоту картинок, и зачем это делать.

—

Итак, перед нами продакт с 10-летним стажем, который крайне хорош в продуктовых метриках — DAU, MAU, Retention, NPS, CAC, Churn, LTV. Знает связь между ними, логику применения.

На собесе получает вопрос о том, как измерить качество выдачи поиска мест в рубрике «Бары».

Он накидывает несколько идей — можно смотреть номер карточки, на которую нажал пользователь. Замерить долю людей, дошедших до звонка в Бар. Посмотреть их удержание.

Люди в зуме доброжелательно слушают, кивают и не перезванивают. Пепе, вотафа?

Дело в том, что продакт оперирует только онлайн-метриками — привязанными к поведению пользователей, часто даже в real time, именно поэтому они и онлайн.

То есть, для такого продукта, как гречка, онлайн-метрики — сколько гречки люди покупают, как часто её варят, как много и быстро съедают, а сколько каши не съедается вообще.

Но о качестве самой гречки говорят другие метрики — насколько крупны её зёрна, много ли чёрненьких несъедобных штучек, как пахнет, насколько рассыпчата, ну и так далее.

Онлайн-метрика — насколько люди любят гречку.

Офлайн-метрика — насколько гречка хороша.

Замерить офлайн-метрики в рубрике Бары можно вообще без пользователей. Мы сами так делаем в Neko, когда замеряем качество генеративки.

Возвращаясь к оценке Баров, собираем запросы, на которые хочет отвечать продукт — вот как люди задают, с ошибками, сокращениями, на языке аудитории. Добавляем гео, время, платформу.

Дальше собираем критерии оценки выдачи — информативность фоток, тип компаний в списке, их меню, цены, время работы, расстояние пешком и на автобусе, ну и т.д.

Пишем инструкцию, как поставить каждой выдаче оценку.

Прокачиваем сервис — задаём ему все запросы, а ответы отдаём на разметку людям, которые шарят за бары в нужных городах. Получаем чиселку качества, заносим на график.

Загружаем туда же выдачу конкурентов, получаем их чиселку, принимаем решения, какие срезы на самом деле надо качать.

Где же взять много людей, шарящих за бары? Ну сори, ты же продакт, придумай.

Кстати, современные LLM-ки — это почти бесплатные эксперты по всему, от баров в Иваново до композиции кадра. Это открывает новую страницу в развитии Product Management.

Если команда умеет строить продукт, опираясь на LLM-разметки, то проект может перевернуть продуктовую категорию, победить всех конкурентов даже небольшим ресурсом.

И если продакт понимает, какие 99% разметок делать нейронкой, а какой самый важный 1% — людьми, это самый желанный и высокооплачиваемый сотрудник на этаже.

А вы как измеряете качество своих сервисов? Есть продакты в чяте?