Dealer.AI
14.8K subscribers
688 photos
46 videos
17 files
724 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Dealer.AI pinned «MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC. Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест…»
Forwarded from Pavel Zloi
Пару недель назад, Александр @dealerAI подробно рассказывал у себя на канале о проекте MemAgent, если в двух словах, то это проект запускающий специально науськанную на работу с файловой систему модель, для того чтобы на оной организовать Obsidian-подобное хранилище памяти, в виде эдаких заметок.

Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile

Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile

К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
13
Схема обучения ModernVBERT
Схема REALM
Схема FROMAGE
👍4
ModernVBERT, как fromage только для энкодера.

На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.🎩

В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.

Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером. Прям как мы с мерджингом.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).

REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.

В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.

Обучение идет по схеме: претрен на чисто текстовой задачке (опускаем, т.к. ModernBERT уже обучен), далее допретрен (они зовут это выравнивание) на картиносах, далее contrastive tuning уже на ретривал задачу.

В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU. 🌿
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227
Онлайн конференция по использованию AI в разработке

Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.

Спикеры: тех лиды, руководители разработки, CTO и AI head.

Когда: 14 октября, 14:30 14:00 (мск)

О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.

Посмотреть детали и зарегистрироваться.

Upd. Будьте внимательны, обновлено время начала.
19🔥7👍3😁1
Дядя не пропал, просто много дел. Но вот вам мем на ночь.
👍30😁23🤔2😐2🫡1
Мама любит Mamba и Сережа тоже (с) Тихий "релиз" Mamba3 на ICLR2026.

Если хотите понять, про что Mamba и все эти RWKV, какие модели уже были и оценить перспективу – читайте тут, тут и тут.

Утечка тут, чирикают тут. Хвалебные отзывы по каналам смотреть не тут. 💳

Мое мнение такое, уже несколько лет мы видим развитие SSM, RWKV моделей. Основной пойнт - это линейность от размера входного сиквенса, в отличии от механизмов внимания в трансформерах. При этом, мы наследуем и проблемы, аля затухание или взрыв градиента, что влияет на механизм "памяти" внутри архитектуры. Отсюда мы и получаем пляски с разными микстами rnn+transformer в виде указанных выше моделей семейств ssm, rwkv.

Причем можно проследить несколько направлений:

1. Работа с механизмом внутренней "памяти" в лице специальных блоков внутри архитектуры.

2. Работа с сложностью от длины контекста. Микстят блоки ssm с блоками трансформера, где-то последовательно, где-то параллельно.

3. Оптимизация работы всей этой доброты на GPU. Т.к. в отличии от RNN-like, трансформеры параллеляться хорошо.

Кстати знаю, что в бигтехах стажерам дают RWKV делать для тюна автокомплит и пр. Штуки для умной клавы, вместо lstm, разумеется. И это работает on-device хорошо, как и сказано в Mamba3 в качестве перспективы.

4. Работа над стабильностью самой архитектуры, чтобы исключить проблемы RNN. Все эти плавности/насыщения весов и сходимость оттуда же.

В итоге, задается вопрос: А за что мы платим линейной сложностью от длины контекста и памятью в рамках него же, и стабильностью архитектуры?

Также мы уже видели публично аналоги от Qwen3 next, от ребят из Nvidia и пр., стало ли это смертью трансформера? Поживем, увидим, пока все еще не становилось. Но динамика развития архитектур данного семейства хорошая, может даже кому-то лучше заложиться на знание и представление о таких архитектурах. А каким-то rnd командам и на собственные исследования и разработки, чтобы потом внезапно не оказаться в догоняющих.

Всем добра, увидимся. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🤔4❤‍🔥32😁1😐1
В одном из чатиков про AI:

"ААААААААААААААААА!!!

МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он...

Пойду повинюсь. А то кошкожены лишат...
"(С)

Занавес 💳💳💳

UPD.
Вот и вайбкодь после этого.

Кстати, а кто по-вашему виноват в том, что в коде порожденном copilot'ом, курсором и т. п. допущена ошибка и она попала в проект?)

Пишите в комментариях. Это вчера мы на конфе не успели обсудить в рамках панельки.
👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
😁40😐31
Dealer.AI pinned a photo
Dealer.AI
В этот день, помимо ДР 💃 админа, мы еще приготовили и вам подарок соревнование по памяти для LLM. 🥳 Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые…
Вспомнить все: трек памяти для LLM на AIJ contest 2025.

Приоткрыли завесу тайны, что за соревнование, дали пару советов и кое-что пошерили для вас.

Лайк на Хабре, участие в соревке и ваши мысли, приветствуются ;)

Пост: https://habr.com/ru/companies/sberbank/articles/957292/

P.S. И как вовремя qwen.chat.ai выпустили свой вариант ассистента с памятью. Хороший обзор у коллеги по цеху.
🔥139👍2
REGEN – новый подход к рекомендациям на основе диалогового взаимодействия.

Традиционные рекомендательные системы сосредоточены на предсказании следующего товара, который может понравиться пользователю, но не способны вести естественный диалог, понимать отзывы на естественном языке или объяснять причины рекомендаций. Существующие архитектуры и наборы данных не позволяли изучать эти новые возможности, теперь же есть REGEN от Google (Reviews Enhanced with GEnerative Narratives).

Работа поделена на два важных аспекта:

1. Датасет для измерения качества подобных взаимодействий юзера, рекомендательной системы и диалогового интерфейса.

2. Предложены и протестированны две архитектуры рекомендаций: FLARE - на базе коллаборативной фильтрации; и LUMEN - на базе LM (Gemma LLM), учитывающей, как интеракции user-item, так и текстовые взаимодействия. Люмен заявили впервые именно в статье REGEN.

Начнём с данных. Созданный набор данных REGEN был собран не совсем с нуля – исследователи дополнили общедоступный Amazon Product Reviews dataset, синтезировав с помощью LLM Gemini 1.5 Flash два ключевых элемента:
1. Критика: Примеры того, как пользователь может выразить предпочтение или критику в диалоге (например, "Я бы предпочел черную ручку, а вы предлагаете мне красную").
2. Нарративы: Разнообразные текстовые пояснения, такие как причины для покупки, отзывы о продуктух или предпочтения пользователя.

Архитектуры моделей. Как уже упоминалось, были предложены и протестированы два подхода:

1. Гибридная система FLARE. Классическая модель аля SASRec предсказывает следующий товар, а легковесная языковая модель Gemma 2B генерирует нарратив на основе этого предсказания.

2. Единая модель LUMEN. Одна большая языковая модель обучается для совместного выполнения задач: обработки критики, генерации рекомендации и создания нарратива в рамках единого процесса. Модель учится e2e "решать", когда выдать ID товара, а когда продолжить генерировать текст.

Дизайн эксперимента и метрики.
Эксперименты были построены вокруг предложенной авторами статьи задачи – совместной генеративной рекомендации товаров. Модели получали историю покупок и, опционально, текстовую критику, после чего должны были порекомендовать следующий товар и сгенерировать о нем контекстуальный нарратив.

Для оценки использовались два типа метрик:

- Метрики точности рекомендаций. Основной метрикой был Recall@10 – насколько часто желаемый товар оказывается в топ-10 предсказаний.
- Метрики качества текста. Для оценки сгенерированных нарративов использовались BLEU, ROUGE и семантическое сходство cosine similarly (используют Gecko эмбы).

В итоге, включение пользовательской обратной связи в модели улучшало Recall@10 для обеих архитектур. Разумеется, для модели на базе e2e подхода LUMEN качество согласованности было лучше, ввиду исполнения LM как базы архитектуры. Однако и последовательное использование FLARE, как next item prediction+LM также улучшало метрики. Для подробного изучения показателей бенчей советую заглянуть в статью.

В целом, основная идея авторов создать новый подход на основе не только исторических интеракций юзера с товарами, но и посредством воздействия естественного языка в виде обратной связи (отзывов, критики и пр.). Это же позволяет перевести рекомендации и поиск в "живой формат" диалогового взаимодействия, возможностью уточнения и обратной связи. Представьте, вам не понравились рекомендации, вы просто пишите: "неплохо, но я бы хотел видеть тут <целевой объект>". А система тут же реагирует на это в виде обновления пула.
В целом, мы уже видим на примере Perplexity и OpenAI переход в диалоговое взаимодействие с их решениями, как наиболее нативное и удобное. Теперь очередь рекомендательных систем.
11👍6🔥5🤯2👌1
Писал уже, что рано или поздно оно будет, ну и вот.

Upd. Даже в посте про Regen об этом говорил. Теперь жду интерактивные рекомендашки. Интерактивный поиск с чат окном уже есть.

Ток оно не работает ни на чем кроме mac...челы на Интел маках тоже со...вершенно не у дел пока.

https://openai.com/index/introducing-chatgpt-atlas/

Experiences for Windows, iOS, and Android are coming soon



Upd. А я одинь заметил тонкий троллинг Google? Atlas это одна из их статей про long context и память) А еще вот такое!!!
😁18🤣61
Dealer.AI pinned Deleted message
Буду в СПБ в Субботу 👇👇👇
💅3❤‍🔥21