Карпати, один из самых влиятельных людей в мире AI, собрал второй мозг на LLM

Карпати показывает одну из самых простых архитектур ИИ, которая реально работает.
Карпати показывает одну из самых простых архитектур ИИ, которая реально работает.

Андрей Карпати , один из самых влиятельных людей в мире AI, поделился подходом, который может изменить то, как мы работаем с информацией. Он перестал тратить токены LLM на написание кода и переключился на нечто более интересное: построение персональных баз знаний с помощью языковых моделей.

Идея простая, но мощная. Карпати собирает сырые данные из разных источников - статьи, научные работы, репозитории, датасеты, изображения - в директорию raw/.

Затем LLM инкрементально «компилирует» из этого вики коллекцию .md файлов с четкой структурой директорий. Модель сама создает саммари, обратные ссылки, категоризирует данные по концептам, пишет статьи для каждого из них и связывает все между собой.

Для конвертации веб-статей в .md файлы он использует расширение Obsidian Web Clipper, а все связанные изображения скачивает локально, чтобы LLM мог к ним обращаться. В качестве IDE выступает Obsidian, через него Карпати просматривает сырые данные, скомпилированную вики и визуализации. Важный момент: LLM пишет и поддерживает все данные вики самостоятельно, человек почти не трогает это руками.

Самое интересное начинается, когда вики вырастает до приличного размера. У Карпати на одном из исследовательских проектов накопилось около 100 статей и примерно 400 тысяч слов. На такой базе можно задавать LLM-агенту сложные вопросы, и он сам находит ответы, исследуя вики. Карпати думал, что придется строить навороченный RAG, но оказалось, что LLM отлично справляется с автоматическим ведением индексных файлов и кратких саммари всех документов.

Вместо текстовых ответов в терминале Карпати просит модель рендерить результаты в markdown-файлы, слайд-шоу в формате Marp или matplotlib-изображения — все это отображается прямо в Obsidian. Часто он «складывает» результаты обратно в вики, так что его собственные исследования и запросы постоянно обогащают базу знаний.

Показываю как профессионально работать с Claude и другими ИИ у себя в телеге!

Еще один крутой прием - LLM-«линтинг» вики. Модель прогоняет проверки здоровья базы, находит противоречивые данные, заполняет пробелы через веб-поиск, обнаруживает интересные связи для новых статей и постепенно повышает целостность данных.

Следующий логичный шаг — синтетическая генерация данных и файнтюнинг, чтобы LLM «знала» данные в своих весах, а не только через контекстное окно. Карпати считает, что здесь есть место для нового крутого продукта, а не просто набора скриптов. И с этим сложно не согласиться.

Еще пишу про ИИ в Мах.

26
15
4
1
1
44 комментария