Forwarded from Machinelearning
CocoIndex выпустила первую стабильную версию своего движка для построения данных под агентов длительного действия - тех, которые обслуживают RAG, графы знаний, память и контекст в продакшн-системах.
CocoIndex - специализированный опенсорсный инкрементальный ETL-движок (Extract, Transform, Load) для создания ИИ-систем. Он используется для автоматизации обработки данных и их мгновенной индексации в векторные базы или графы знаний.
Инструмент любят за его способность обновлять информацию в реальном времени: как только исходные данные меняются, CocoIndex точечно пересчитывает только нужные части индекса, избавляя от необходимости полной и дорогостоящей переиндексации всей базы.
Весь пайплайн теперь описывается обычными асинхронными функциями Python, которые вызывают друг друга. Движок продолжает отслеживать изменения и материализовать целевые состояния, но делает это за нативным Python-API, а не за отдельной системой типов.
Авторы вдохновлялись тезисом Джеффа Дина и Билла Далли с GTC 2026: агенты работают примерно в 50 раз быстрее человека, но опираются на инструменты, рассчитанные на человеческий темп.
Ночные пересборки индексов в этой логике становятся проблемой - нужен движок, который синхронизирует производные данные с источником инкрементально, переобрабатывая только изменившиеся чанки и перезаписывая только изменившиеся строки.
Вся горячая логика по детекции и применению изменений живёт там. На уровне Python декоратор подключает функцию к отслеживанию изменений, а отдельный флаг кеширует её результат по хешу аргументов и кода: правка хелпера инвалидирует только тех вызывающих, кто реально от него зависит.
Разработчик декларирует, как должна выглядеть таблица, граф или директория, а CocoIndex сам выполняет create/alter/drop для контейнеров и insert/update/delete для содержимого, включая удаление осиротевших объектов при изменении схемы. Если перестать декларировать сущность, она исчезает из таргета.
Контракт работает одинаково для Postgres, LanceDB, Neo4j, Kafka, S3 и обычных файлов на диске.
Примеры пайплайнов, от эмбеддингов кода в LanceDB и обработки PDF до сборки графа знаний из разговоров, лежат в репозитории на GitHub.
@ai_machinelearning_big_data
#AI #ML #ETL #RAG #Agents #СocoIndex
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥4😱1