Machine learning Interview

⚡️ Карпати собрал второй мозг на LLM

Андрей Карпаты, один из самых влиятельных людей в мире AI, поделился подходом, который может изменить то, как мы работаем с информацией. Он перестал тратить токены LLM на написание кода и переключился на нечто более интересное: построение персональных баз знаний с помощью языковых моделей.

Идея простая, но мощная. Карпаты собирает сырые данные из разных источников (статьи, научные работы, репозитории, датасеты, изображения) в директорию raw/.

Затем LLM инкрементально “компилирует” из этого вики – коллекцию .md файлов с четкой структурой директорий. Модель сама создает саммари, обратные ссылки, категоризирует данные по концептам, пишет статьи для каждого из них и связывает все между собой. Для конвертации веб-статей в .md файлы он использует расширение Obsidian Web Clipper, а все связанные изображения скачивает локально, чтобы LLM мог к ним обращаться.

В качестве IDE выступает Obsidian. Через него Карпаты просматривает сырые данные, скомпилированную вики и визуализации. Важный момент: LLM пишет и поддерживает все данные вики самостоятельно, человек почти не трогает это руками. Плюс Obsidian-плагины вроде Marp позволяют рендерить данные в других форматах, например в слайды.

Еще один крутой прием - LLM-«линтинг» вики. Модель прогоняет проверки здоровья базы, находит противоречивые данные, заполняет пробелы через веб-поиск, обнаруживает интересные связи для новых статей и постепенно повышает целостность данных.

Следующий логичный шаг - синтетическая генерация данных и файнтюнинг, чтобы LLM «знала» данные в своих весах, а не только через контекстное окно. Карпати считает, что здесь есть место для нового крутого продукта, а не просто набора скриптов. И с этим сложно не согласиться.

https://uproger.com/karpati-sobral-vtoroj-mozg-na-llm/

🐍 полезные ресурсы 🚀Max

@machinelearning_interview

❤33🔥23🙉6👍5🤣5

4.75K viewsedited 07:26