«Anon_user42 с новостного форума — это Дж. Чен в LinkedIn»: исследователи проверили, как нейросети «деанонят» пользователей по публикациям
Точность их предположений описали как высокую.
У одного и того же пользователя может быть несколько аккаунтов — профессиональный LinkedIn, аноним на киносайте и фейк на форуме. Новое исследование Швейцарской высшей технической школы Цюриха и Anthropic показало, что с помощью ИИ деанонимизацию таких профилей можно масштабировать.
ИИ-агент учёных смог установить личность пользователей в выборке в 68% случаев, а доля верных совпадений среди всех сделанных им предположений достигала 90%. Для этого он:
- Создавал языковые эмбеддинги — цифровые представления текста, которые отражают особенности стиля письма, любимые речевые обороты, случайные биографические детали.
- Искал эти признаки в других профилях из подготовленного учёными набора.
- Выбирал наиболее вероятную пару «автор — профиль».
Одна такая «атака» — попытка найти подходящего пользователя — обходилась в $1-4 (80-321 рубль по курсу ЦБ на 14 марта 2026 года здесь и далее). А общие расходы на эксперимент составили меньше $2000 (примерно 160,5 тысячи рублей).
Это совсем другая экономика. Снижение ценового порога даёт широкому кругу людей и возможность и стимул попытаться нарушить анонимность в интернете.
Эксперимент №1: от комментариев на Hacker News до профиля в LinkedIn
Исследователи взяли 338 профилей на Hacker News, чьи владельцы указали ссылку на свой LinkedIn, и обезличили их — удалили имена, ссылки и логины из истории публикаций и комментариев. ИИ-агенту дали задачу соотнести анонимизированные аккаунты с реальными страницами в LinkedIn.
Агент правильно сопоставил 226 из 338 профилей (67%). 90% от всех его предположений оказались верными. В 86 случаях он воздержался от догадок, в 25 — ошибся. (226, 86 и 25 в сумме дают 337, но авторы уточнений про это не дают.)
Работало это так:
- Исследователи генерировали эмбеддинги с помощью Gemini, а совпадения по ним искали с помощью поискового инструмента Facebook* AI Similarity Search.
- Grok 4.1 Fast проводила первичный анализ совпадений
- ChatGPT-5.2 выбирала из списка кандидатов профиль с самым высоким уровнем совпадения по совокупности признаков.
Авторы напомнили про другое похожее исследование. В 2006 году Netflix объявил о соревновании Netflix Prize: сервис обещал $1 млн команде, которая повысит точность алгоритма рекомендаций по метрике RMSE — она показывает средний размер ошибки прогноза. Персональные данные из датасета удалили.
В 2009 году исследователи Арвинд Нараянан и Виталий Шматиков с помощью математического алгоритма попытались сопоставить обезличенные профили из той базы с публичными аккаунтами на IMDb, сравнив оценки фильмам и дату выставления. Но верный пользователь оказывался на первом месте в списке наиболее подходящих кандидатов лишь в 5,1% случаев.
Учёные из Цюриха также упомянули экспериментальную систему из четырёх ИИ-агентов AutoProfiler от команды учёных из Университета Пердью и Alibaba Group. Они искали подсказки о личности человека в публичных профилях LinkedIn, а потом анализировали совпадения c анонимными аккаунтами на Reddit.
Исследователи писали, что система сопоставила речевые «подсказки» в LinkedIn и Reddit с точностью 85-92%. Но первоначальную выборку LinkedIn-аккаунтов они собирали вручную, фильтруя пользователей по локации, компании и образованию.
Новизна в нашем исследовании — это сквозная автоматизация. То, для чего раньше был нужен внимательный исследователь, готовый терпеливо просматривать посты в поисках мелких зацепок, теперь проще сделать и легче масштабировать.
Эксперимент №2: определить профили в Reddit по комментариям о кино
Если Нараянан и Шматиков сопоставляли пользовательские оценки фильмов между Netflix и IMDb, то учёные из Цюриха попросили агента сопоставить между собой два анонимных профиля одного и того же человека по его высказываниям в разных киносообществах Reddit: один — в r/movies, другой — в более узких тематических сабреддитах.
Датасет состоял из комментариев и публикаций за 2024 год из веток r/movies, r/horror, r/MovieSuggestions, r/Letterboxd, r/TrueFilm и r/MovieDetails. Всего в выборку вошли 9781 профиль Reddit.
Если пользователи обсуждали только один фильм, агент мог связать лишь 3,1% таких профилей по комментариям с 90%-ной точностью и 1,2% с 99%-ной точностью.
Если человек обсуждал пять-девять фильмов, нейросеть находила его второй анонимный аккаунт в среднем в 8,4% случаев, и примерно 90% предположений оказывались верными. Если же пользователь писал как минимум о десяти одинаковых фильмах в разных сабреддитах, модель могла найти до 48,1% таких людей при сохранении 90%-ной точности.
Вывод, по словам авторов, такой: чем больше пользователь пишет в интернете, тем проще его идентифицировать.
Эксперимент №3: «вычислить» учёного
В отдельном эксперименте Anthropic предоставила транскрипты интервью с учёными, в которых те рассказывали, как используют нейросети в работе. ИИ-агент пытался найти публичные профили специалистов — тоже по семантическим и речевым подсказкам.
Он корректно идентифицировал девять учёных из 33. Авторы сравнили результаты с похожим, но выполненным вручную экспериментом. В нём исследователю удалось сопоставить шесть публикаций из 25 транскриптов.
Прогнозы и риски
Исследователи из Цюриха пишут, что сознательно не тестировали систему на действительно анонимных аккаунтах — из-за этических соображений. По той же причине они не публикуют технические подробности работы агента и не сообщают, проверяли ли его в не описанных в статье экспериментах.
Из-за этого остаётся открытым вопрос, хорошо ли система работает на реальных анонимах, отмечает The Verge. Но авторы предупреждают, что полагаться на то, что анонимный аккаунт не удастся рассекретить, больше нельзя: в открытом доступе появляется всё больше данных, а нейросети становятся мощнее.
Они признают, что публикация может подтолкнуть злоумышленников к атакам — публичному раскрытию чужих личных данных в интернете, преследованию, травле. Подобных агентов также могут использовать для «корпоративной слежки» и сбора подробных профилей для «гипертаргетированной» рекламы. Но авторы подчёркивают, что лишь описывают уже известные риски.
Профессор компьютерных наук Университетского колледжа Лондона Питер Бентли сказал The Guardian, что со временем такие разработки начнут монетизировать — и именно это тревожит его больше всего.
Проблема в том, что нейросети могут ошибочно связать некий анонимный аккаунт с реальным профилем в сети. И человека могут обвинить в том, чего он никогда не делал.
Ещё одну проблему обозначил профессор Марк Хуарес, преподаватель кибербезопасности в Эдинбургском университете. По его словам, ИИ-агенты смогут использовать публичные данные не только из соцсетей: в их «поиск» могут попасть больничные записи, списки зачислений в учебные заведения и другие отчёты и публикации.
По словам Саймона Лермена, ИИ-разработчикам стоит следить за тем, как применяются их инструменты, и внедрять защитные механизмы, чтобы их не использовали для деанонимизации. А соцсети, добавил он, могли бы жёстче ограничивать массовый сбор данных.
*Meta, владеющая Facebook, признана в России экстремистской организацией и запрещена.