На кого похожи языковые модели

Разработчики пытаются делать так, чтобы языковые модели вели себя как люди. Но люди-то все разные, так под кого они подстраиваются?

Мы тут время от времени поднимаем эту тему и уже говорили, например, о том, что «среднестатистический человек» в тренировочных данных для ИИ – это человек какой-нибудь богатой западной демократии, просто потому что таких данных больше.

Но и это ещё не всё. Авторы статьи «Whose Opinions Do Language Models Reflect?» («Чьи мнения отражают большие языковые модели?») взяли 60 демографических групп только в США и выяснили, что модели отражают мнения и предпочтения довольно узкой группы людей. Это статья 2023 года, но с тех пор не было глобальных изменений в том, где и как собираются данные, так что, думаю, картина актуальна и в году 2026.

Да, модели можно выдать любую роль, и она будет отвечать так, как в её тренировочных данных отвечал заданный человек. Но если данных о любителях кофе было больше, чем о любителях чая, в ответах всё равно проявится искажение. ИИ-королева Великобритании не будет звучать убедительно.

Мне очень нравится эта работа с точки зрения подхода. Авторы принимают во внимание, что человеческие взгляды и ценности субъективны, а также отдельно оговаривают то, что не рассматривают модели как субъектов, которые могут иметь собственное мнение. Получилось очень взвешенно, особенно на контрасте с некоторыми другими статьями, которые мы разбирали здесь недавно.

Они взяли исследование, которое проводил американский центр Pew Research с 2017 по 2021 год. В анкетах были вопросы про ношение оружия, чтение новостей, влияние СМИ на общество, доверие к науке и так далее – авторы отобрали те, по которым у представителей разных групп респондентов было больше всего расхождений. Группы выделялись на основании региона проживания, пола и возраста, уровня образования, расовой принадлежности и ещё семи признаков. То есть, например, «белые мужчины из западной части США в возрасте 65 лет и старше» или «женщины латиноамериканского происхождения в возрасте от 30 до 49 лет, исповедующие Ислам» и так далее.

Вопросы были с выбором одного из нескольких вариантов ответа в стиле «Полностью согласен», «Согласен», «Равнодушен», «Не согласен», «Совершенно не согласен», «Отказываюсь отвечать». В зависимости от вопроса ответы разные, но отражают разную степень согласия / уверенности / обеспокоенности и так далее плюс отказ от ответа.

Соответственно, были вот эти вопросы, варианты ответов и записанные ответы людей. Авторы взяли девять языковых моделей и прогнали через них те же вопросы, немного адаптированные под нужный формат входа, но с сохранением смысла. Модели, правда, взяли только у OpenAI и AI21 Labs (j1-Grande, j1-Jumbo, если вам это о чём-нибудь говорит). Размер взяли разный, но хотелось бы, конечно, больше разнообразия в плане поставщиков и режима доступа: открытые, с открытыми весами, коммерческие. Отметим это ограничение.

Полученные от моделей ответы сравнили с тем, что давали люди.

Авторы поставили перед собой три вопроса:

1. Насколько языковые модели представляют мнения американского общества или определённых демографических групп?

2. Можно ли с помощью промпта заставить модель убедительно симулировать ответы представителя конкретной группы?

3. Сохраняют ли модели «приверженность» определённым взглядам, отвечая на все вопросы?

Ответы сводятся примерно вот к чему:

- языковые модели OpenAI, которые были дообучены с использованием обратной связи от человека, представляют взгляды богатых и образованных людей либеральных взглядов*;

- модели, которые были обучены только на данных из Интернета без дополнительной доработки, больше похожи на людей с невысоким доходом, которые считают себя протестантами или католиками и имеют умеренные политические взгляды**;

- меньше всего модели отражают взгляды людей старше 65 лет, очень религиозных людей и вдов или вдовцов;

- у разных моделей немного разные искажения;

- если задать модели конкретную роль, она будет получше отражать взгляды, характерные для этой роли;

- но улучшение, как выражаются авторы, «скромное», то есть, модели всё равно скатываются в режим «по умолчанию»;

- скорее всего, потому что им не хватает данных, чтобы убедительно отыграть заданную роль;

- модели не придерживаются единственной точки зрения постоянно: по одним вопросам занимают более либеральную позицию, по другим – более консервативную.

Что ИИ имитирует людей, по которым больше данных? Это не новость.

Статья и не про новость – она про то, как можно потестировать модели. То, что они отражают взгляды определённой группы людей само по себе не хорошо и не плохо, но это стоит учитывать, когда вы используете их в своих задачах. Например, если вы с их помощью собираете информацию о чём-нибудь, знайте, что результат может подаваться с определённым искажением. Опять же, как и где угодно в СМИ, просто многие люди могли ожидать от ИИ большей объективности. Ничто не объективно в этом мире.

И стоит ещё учитывать, что работа очень узкая и сфокусирована на американцах. И на очень ограниченном наборе моделей. Если взять какую-нибудь Qwen и сравнить с россиянами или китайцами, можно получить нечто совершенно другое.

Вообще нет никаких универсальных «человеческих ценностей», которые можно было бы вложить в ИИ. Авторы указывают на это и ещё ряд ограничений своего исследования в отдельной главе статьи. Они на самом деле подошли к работе добросовестно, прям приятно было читать.

Давайте вынесем отсюда конкретный вывод: когда вы работаете с языковыми моделями, полезно давать им роль. Включать в эту роль демографические характеристики, если это применимо к вашей работе, или некий предшествующий опыт. Например, я иногда так делаю:

Мне хочется написать пост, полезный для конкретной аудитории, и я прошу GPT покритиковать мой готовый текст с позиции представителя этой аудитории. Да, драматизирую. Это для верности. Покороче ещё бывает вот так:

Обычно критика получается дельная и правда помогает мне увидеть свои слабые места. Далеко не всё потом идёт в работу, но многое оказывается полезно.

Вот пример поста, отработанного с критикой. А этот пост, который вы читаете, я через критику не прогоняла. Посты разные по содержанию, но можно сравнить стиль: вам какой вариант ближе?

---

#llm #ai #ии #языковыемодели

---

*Речь идёт о «либеральных взглядах» в американском понимании, которое отличается от европейского и постсоветского. Не буду изображать из себя специалиста в американской политике, но, насколько я могу понять, у них «либеральные взгляды» – это нечто близкое к нашему социализму. Но здесь вы мне сильно не доверяйте: у них в политике сам чёрт ногу сломит, а я даже не чёрт. Если вдруг вы специалист, поправьте меня в комментариях, пожалуйста.

**То есть, находятся где-то между либералами и консерваторами.

На кого похожи языковые модели

Что сделали авторы

Что получилось

Что это значит

Заключение