Карпати, один из самых влиятельных людей в мире AI, собрал второй мозг на LLM

Карпати показывает одну из самых простых архитектур ИИ, которая реально работает.

Андрей Карпати , один из самых влиятельных людей в мире AI, поделился подходом, который может изменить то, как мы работаем с информацией. Он перестал тратить токены LLM на написание кода и переключился на нечто более интересное: построение персональных баз знаний с помощью языковых моделей.

Идея простая, но мощная. Карпати собирает сырые данные из разных источников - статьи, научные работы, репозитории, датасеты, изображения - в директорию raw/.

Затем LLM инкрементально «компилирует» из этого вики коллекцию .md файлов с четкой структурой директорий. Модель сама создает саммари, обратные ссылки, категоризирует данные по концептам, пишет статьи для каждого из них и связывает все между собой.

Для конвертации веб-статей в .md файлы он использует расширение Obsidian Web Clipper, а все связанные изображения скачивает локально, чтобы LLM мог к ним обращаться. В качестве IDE выступает Obsidian, через него Карпати просматривает сырые данные, скомпилированную вики и визуализации. Важный момент: LLM пишет и поддерживает все данные вики самостоятельно, человек почти не трогает это руками.

Самое интересное начинается, когда вики вырастает до приличного размера. У Карпати на одном из исследовательских проектов накопилось около 100 статей и примерно 400 тысяч слов. На такой базе можно задавать LLM-агенту сложные вопросы, и он сам находит ответы, исследуя вики. Карпати думал, что придется строить навороченный RAG, но оказалось, что LLM отлично справляется с автоматическим ведением индексных файлов и кратких саммари всех документов.

Вместо текстовых ответов в терминале Карпати просит модель рендерить результаты в markdown-файлы, слайд-шоу в формате Marp или matplotlib-изображения — все это отображается прямо в Obsidian. Часто он «складывает» результаты обратно в вики, так что его собственные исследования и запросы постоянно обогащают базу знаний.

Показываю как профессионально работать с Claude и другими ИИ у себя в телеге!

Еще один крутой прием - LLM-«линтинг» вики. Модель прогоняет проверки здоровья базы, находит противоречивые данные, заполняет пробелы через веб-поиск, обнаруживает интересные связи для новых статей и постепенно повышает целостность данных.

Следующий логичный шаг — синтетическая генерация данных и файнтюнинг, чтобы LLM «знала» данные в своих весах, а не только через контекстное окно. Карпати считает, что здесь есть место для нового крутого продукта, а не просто набора скриптов. И с этим сложно не согласиться.

Еще пишу про ИИ в Мах.

x.com

https://x.com/karpathy/status/2039805659525644595