Как учить ИИ-агентов социальному взаимодействию открытом мире – то есть, в реальном мире, а не в экспериментальной песочнице
У себя на LinkedIn я выложила пост про то, что большинство современных работ, которые исследуют взаимодействие между ИИ-агентами, пока не слишком надёжные. Я переведу этот текст на русский язык попозже, но, если коротко, вот в чём дело:
- многие хотели бы использовать ИИ-агентов, чтобы симулировать процессы в человеческом обществе и так проверять разные социальные теории;
- но для этого нужно делать ИИ-агентов достаточно разнообразными, давать им взаимодействовать друг с другом в условиях, близким к реальным, и не подталкивать их к определённому поведению с помощью инструкций.
Это всё не так просто, как кажется, поэтому сегодняшняя статья будет как раз в тему – «An Efficient Open World Environment for Multi-Agent Social Learning» («Эффективная среда в формате открытого мира для социального обучения множеств агентов»).
Попробуем понять, правда ли среда эффективная и насколько их открытый мир похож на наш реальный.
Краткое содержание
Исследователи опять взяли MineCraft и ИИ-агентов – на этот раз чтобы посмотреть, будут ли ИИ-агенты обучаться друг у друга.
Оказалось, социальное обучение сложнее и многомернее, но эксперимент всё равно вышел интересным.
Полное погружение
Социальное обучение – это обучение посредством наблюдения за другими агентами.
Когда мы говорим о социальном обучении в широком смысле, в роли агентов выступают не обязательно ИИ-агенты, но и люди: мы учимся, наблюдая друг за другом, и ИИ-агенты тоже могут учиться, наблюдая за нами.
Один из ключевых компонентов социального обучения – использование инструментов: один агент создаёт инструмент, другие им пользуются и приобретают новые навыки быстрее, потому что им не нужно изобретать этот инструмент заново.
По поводу переизобретения инструментов и социального обучения сейчас будет лирическое отступление.
Лирическое отступление
Я адепт академического образования.
Я закончила бакалавриат, потом магистратуру, а теперь кошу глазом в сторону следующей ступени образования – надо только определиться с темой диссертации.
И когда кто-нибудь говорит: «Ну всё, высшее образование теперь не нужно: у нас же есть ИИ!» – я очень тяжело вздыхаю. Потому что высшее образование – и образование вообще, если уж на то пошло, – это не только и не столько приобретение набора конкретных навыков. Образование – хорошее фундаментальное академическое образование – знакомит нас с опытом других людей, и это очень важно.
Ты можешь быть сколь угодно гениален и изобретателен, но какой в этом смысл, если ты будешь изобретать по кругу велосипед, не зная, что его изобрели до тебя?
Образование позволяет нам не начинать свой путь с нуля, а встать на плечи предыдущих поколений и двигаться дальше – туда, куда они не дошли. И в мире с ИИ это ещё более важно. Потому что в мире с ИИ ещё более важно иметь критическое мышление, уметь работать с информацией, знать, какие факторы влияют на принятие решений, и много чего ещё.
Я уж не говорю о том, что в процессе получения образования мы знакомимся с новыми людьми, учимся решать конфликты и брать на себя руководство проектами, планировать своё время, поддерживать мотивацию. Разбираемся в том, что нам нравится, а что нет, в конце концов.
Да, конечно, образование должно меняться и идти в ногу со временем. Но наличие печатных книг не отменило необходимость использовать память, а наличие ИИ не отменит необходимость использовать все остальные когнитивные функции.
Лирическое отступление закончено, возвращаемся к ИИ-агентам и открытому миру
Вот эта среда для обучения, которую предлагают авторы, в том числе позволяет оценить, насколько ИИ-агенты умеют использовать инструменты, созданные другими агентами. Соответственно, насколько развитие одного агента поддерживает и ускоряет развитие остальных.
Кроме того, они изучали, как ИИ-агенты балансируют сотрудничество и соревнование в процессе взаимодействия.
В качестве открытой среды использовали игру MineCraft – это очень популярный выбор для такого рода исследований:
- там большое игровое пространство;
- объекты, которые приносят бонусные очки, разбросаны по этому пространству, и их надо искать;
- игрокам доступны разнообразные инструменты и действия;
- там есть враги, с которыми нужно сражаться;
- возможно, исследователи просто любят играть в MineCraft в рабочее время.
Результаты эксперимента
В эксперименте ИИ-агенты активно использовали инструменты, созданные другими ИИ-агентами, чтобы быстрее набрать дополнительные очки за выполнение заданий. Однако они, похоже, не слишком успешно обучались, наблюдая друг за другом.
Авторы статьи сравнили обучение в двух ситуациях:
- в игре присутствует заранее обученный агент, который умеет создавать сложные инструменты, а остальные агенты – новички;
- все агенты в игре – новички.
Существенной разницы не заметили. Разница была между ситуациями «на поле один агент» и «на поле несколько агентов», и поэтому авторы предполагают, что дело в совместном использовании инструментов.
Чтобы сравнить результаты в ситуации сотрудничества и соревнования, авторы давали агентам дополнительные очки за определённые действия. Например, проверяя, что будет в соревновательной среде, они добавляли бонусное очко за нападение на другого агента и отнимали половину очка, если агент становился жертвой нападения сам. В итоге агенты просто держались друг от друга подальше.
Авторы решили, что для обучения полезно агентам держаться вместе, чтобы наблюдать друг за другом, и стали давать бонус за сокращение расстояния между агентом и его соседом. Агенты стали ходить друг за другом, но обучение всё равно не заладилось.
Заключение
Эксперимент вышел интересный, хоть и не привёл к громким результатам. На мой взгляд, он выполнен очень разумно, и его можно масштабировать, чтобы протестировать другие сценарии (например, не все агенты против всех, а две группы агентов соревнуются друг с другом – подтолкнёт ли это их к более активному сотрудничеству внутри группы?)
Такие статьи читать всегда интересно. Если вам тоже интересно, загляните ко мне в телеграм*, там статей больше.
---
*Пока не признан экстремистским и не запрещён :)