Карпати, один из самых влиятельных людей в мире AI, собрал второй мозг на LLM
Андрей Карпати , один из самых влиятельных людей в мире AI, поделился подходом, который может изменить то, как мы работаем с информацией. Он перестал тратить токены LLM на написание кода и переключился на нечто более интересное: построение персональных баз знаний с помощью языковых моделей.
Идея простая, но мощная. Карпати собирает сырые данные из разных источников - статьи, научные работы, репозитории, датасеты, изображения - в директорию raw/.
Затем LLM инкрементально «компилирует» из этого вики коллекцию .md файлов с четкой структурой директорий. Модель сама создает саммари, обратные ссылки, категоризирует данные по концептам, пишет статьи для каждого из них и связывает все между собой.
Для конвертации веб-статей в .md файлы он использует расширение Obsidian Web Clipper, а все связанные изображения скачивает локально, чтобы LLM мог к ним обращаться. В качестве IDE выступает Obsidian, через него Карпати просматривает сырые данные, скомпилированную вики и визуализации. Важный момент: LLM пишет и поддерживает все данные вики самостоятельно, человек почти не трогает это руками.
Самое интересное начинается, когда вики вырастает до приличного размера. У Карпати на одном из исследовательских проектов накопилось около 100 статей и примерно 400 тысяч слов. На такой базе можно задавать LLM-агенту сложные вопросы, и он сам находит ответы, исследуя вики. Карпати думал, что придется строить навороченный RAG, но оказалось, что LLM отлично справляется с автоматическим ведением индексных файлов и кратких саммари всех документов.
Вместо текстовых ответов в терминале Карпати просит модель рендерить результаты в markdown-файлы, слайд-шоу в формате Marp или matplotlib-изображения — все это отображается прямо в Obsidian. Часто он «складывает» результаты обратно в вики, так что его собственные исследования и запросы постоянно обогащают базу знаний.
Показываю как профессионально работать с Claude и другими ИИ у себя в телеге!
Еще один крутой прием - LLM-«линтинг» вики. Модель прогоняет проверки здоровья базы, находит противоречивые данные, заполняет пробелы через веб-поиск, обнаруживает интересные связи для новых статей и постепенно повышает целостность данных.
Следующий логичный шаг — синтетическая генерация данных и файнтюнинг, чтобы LLM «знала» данные в своих весах, а не только через контекстное окно. Карпати считает, что здесь есть место для нового крутого продукта, а не просто набора скриптов. И с этим сложно не согласиться.
Еще пишу про ИИ в Мах.