Как учить ИИ-агентов социальному взаимодействию открытом мире – то есть, в реальном мире, а не в экспериментальной песочнице

У себя на LinkedIn я выложила пост про то, что большинство современных работ, которые исследуют взаимодействие между ИИ-агентами, пока не слишком надёжные. Я переведу этот текст на русский язык попозже, но, если коротко, вот в чём дело:

многие хотели бы использовать ИИ-агентов, чтобы симулировать процессы в человеческом обществе и так проверять разные социальные теории;
но для этого нужно делать ИИ-агентов достаточно разнообразными, давать им взаимодействовать друг с другом в условиях, близким к реальным, и не подталкивать их к определённому поведению с помощью инструкций.

Это всё не так просто, как кажется, поэтому сегодняшняя статья будет как раз в тему – «An Efficient Open World Environment for Multi-Agent Social Learning» («Эффективная среда в формате открытого мира для социального обучения множеств агентов»).

Попробуем понять, правда ли среда эффективная и насколько их открытый мир похож на наш реальный.

#ai #aiagent #ии #ииагент #обучение

Исследователи опять взяли MineCraft и ИИ-агентов – на этот раз чтобы посмотреть, будут ли ИИ-агенты обучаться друг у друга.

Оказалось, социальное обучение сложнее и многомернее, но эксперимент всё равно вышел интересным.

Социальное обучение – это обучение посредством наблюдения за другими агентами.

Когда мы говорим о социальном обучении в широком смысле, в роли агентов выступают не обязательно ИИ-агенты, но и люди: мы учимся, наблюдая друг за другом, и ИИ-агенты тоже могут учиться, наблюдая за нами.

Один из ключевых компонентов социального обучения – использование инструментов: один агент создаёт инструмент, другие им пользуются и приобретают новые навыки быстрее, потому что им не нужно изобретать этот инструмент заново.

По поводу переизобретения инструментов и социального обучения сейчас будет лирическое отступление.

Я адепт академического образования.

Я закончила бакалавриат, потом магистратуру, а теперь кошу глазом в сторону следующей ступени образования – надо только определиться с темой диссертации.

И когда кто-нибудь говорит: «Ну всё, высшее образование теперь не нужно: у нас же есть ИИ!» – я очень тяжело вздыхаю. Потому что высшее образование – и образование вообще, если уж на то пошло, – это не только и не столько приобретение набора конкретных навыков. Образование – хорошее фундаментальное академическое образование – знакомит нас с опытом других людей, и это очень важно.

Ты можешь быть сколь угодно гениален и изобретателен, но какой в этом смысл, если ты будешь изобретать по кругу велосипед, не зная, что его изобрели до тебя?

Образование позволяет нам не начинать свой путь с нуля, а встать на плечи предыдущих поколений и двигаться дальше – туда, куда они не дошли. И в мире с ИИ это ещё более важно. Потому что в мире с ИИ ещё более важно иметь критическое мышление, уметь работать с информацией, знать, какие факторы влияют на принятие решений, и много чего ещё.

Я уж не говорю о том, что в процессе получения образования мы знакомимся с новыми людьми, учимся решать конфликты и брать на себя руководство проектами, планировать своё время, поддерживать мотивацию. Разбираемся в том, что нам нравится, а что нет, в конце концов.

Да, конечно, образование должно меняться и идти в ногу со временем. Но наличие печатных книг не отменило необходимость использовать память, а наличие ИИ не отменит необходимость использовать все остальные когнитивные функции.

Вот эта среда для обучения, которую предлагают авторы, в том числе позволяет оценить, насколько ИИ-агенты умеют использовать инструменты, созданные другими агентами. Соответственно, насколько развитие одного агента поддерживает и ускоряет развитие остальных.

Кроме того, они изучали, как ИИ-агенты балансируют сотрудничество и соревнование в процессе взаимодействия.

В качестве открытой среды использовали игру MineCraft – это очень популярный выбор для такого рода исследований:

там большое игровое пространство;
объекты, которые приносят бонусные очки, разбросаны по этому пространству, и их надо искать;
игрокам доступны разнообразные инструменты и действия;
там есть враги, с которыми нужно сражаться;
возможно, исследователи просто любят играть в MineCraft в рабочее время.

В эксперименте ИИ-агенты активно использовали инструменты, созданные другими ИИ-агентами, чтобы быстрее набрать дополнительные очки за выполнение заданий. Однако они, похоже, не слишком успешно обучались, наблюдая друг за другом.

Авторы статьи сравнили обучение в двух ситуациях:

в игре присутствует заранее обученный агент, который умеет создавать сложные инструменты, а остальные агенты – новички;
все агенты в игре – новички.

Существенной разницы не заметили. Разница была между ситуациями «на поле один агент» и «на поле несколько агентов», и поэтому авторы предполагают, что дело в совместном использовании инструментов.

Чтобы сравнить результаты в ситуации сотрудничества и соревнования, авторы давали агентам дополнительные очки за определённые действия. Например, проверяя, что будет в соревновательной среде, они добавляли бонусное очко за нападение на другого агента и отнимали половину очка, если агент становился жертвой нападения сам. В итоге агенты просто держались друг от друга подальше.

Авторы решили, что для обучения полезно агентам держаться вместе, чтобы наблюдать друг за другом, и стали давать бонус за сокращение расстояния между агентом и его соседом. Агенты стали ходить друг за другом, но обучение всё равно не заладилось.

Эксперимент вышел интересный, хоть и не привёл к громким результатам. На мой взгляд, он выполнен очень разумно, и его можно масштабировать, чтобы протестировать другие сценарии (например, не все агенты против всех, а две группы агентов соревнуются друг с другом – подтолкнёт ли это их к более активному сотрудничеству внутри группы?)

Такие статьи читать всегда интересно. Если вам тоже интересно, загляните ко мне в телеграм*, там статей больше.

---

*Пока не признан экстремистским и не запрещён :)

Как учить ИИ-агентов социальному взаимодействию открытом мире – то есть, в реальном мире, а не в экспериментальной песочнице

Краткое содержание

Полное погружение

Лирическое отступление

Лирическое отступление закончено, возвращаемся к ИИ-агентам и открытому миру

Результаты эксперимента

Заключение