Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
715 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Dealer.AI
Mem-agent еще одна концепция памяти 🧠 В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним…
Мода на файловую память, теперь и код-агенты anthropic.

Вышло agentic SDK от антропика и там нашлось несколько интересных вещей про контекст и память.

Это уже практичное и модное решение, которое в разной форме мы наблюдали у manus и memagent.

Основные позиции – не засоряем контекст и кладем все в файловую систему ОС. Также для поиска НЕ используем без нужды семантику или даже bm25, оставаясь на grep/tail и прочих способах поиска встроенными инструментами вашей ОС. Да это не исключает проблемы больших файлов, где grep может быть не эффективен, но скорее всего, подобно идее с чанкованием, для памяти создается иерархическая память на "малых" файлах.

В итоге, центре всего стоит тезис: зачем нам семантика, когда можно взять поиск в ОС и агента для чтения и записи? Но, думаю, без семантики не обойтись, особенно, когда у нас много зависит от контекста, да еще и синонимов до кучи. Однако, быстренько найти нужный нейм файла, пойдет, а если не вышло (пустой поиск), уже можно полнотекстом и семантикой искать имя, тем самым балансировать между скоростью и надежностью/сложностью поиска. Особенно для файлов сотни мб или гб. Тут кстати и может помочь аналог чанкования, в виде иерархии файлов, на которые заранее бьём большие. Далее, берем файлик и читаем агентом, переносим из файла релевантное в контекст.
В любом случае, такое решение в итоге завязывает вас на эффективный контекст и конечно свойство роутинга, ризонинга и поиска по контексту. Крч хорошая llm вам нужна, которая у антропика есть. Но есть ли она у вас?)
🔥175🤔1
🤖 OpenAI Pulse — круто, но вот мое непопулярное мнение

Вчера наблюдал реакцию коллег и знакомых на новую функцию OpenAI — ChatGPT Pulse.
Кто-то: «вау, какие персоналки!»
Кто-то: «ну всё, конец рексису».

Реальность, как всегда, сложнее.

Что такое Pulse — простыми словами
Pulse — это новый мобильный интерфейс для Pro-пользователей: ночью ассистент выполняет асинхронный сбор информации и утром выдаёт персональные обновления.

Контекст берётся из:
✍️ памяти и истории чатов
✍️вашего фидбэка
✍️подключённых сервисов (календарь и пр.)

Карточки обновляются каждый день. Фокус не «забирать утро», а напоминать о важном.

Моё мнение как пользователя
Функция выглядит полезной и понятной широкой аудитории. Стратегически это логичный шаг: инвесторы и рынок ожидают масштабируемых продуктовых решений, которые простым людям решают повседневные задачи.

Однако говорить о «Feels AGI» преждевременно пока оно не способна выполнять бытовые действия — помыть посуду, заказать такси, комплексно спланировать ужин и автоматически закупить продукты — о чем вообще речь?

Моё мнение как специалиста по персонализации

Персонализация — это эволюция, а не революция. OpenAI постепенно шла к этому: папки → memory → агенты → персонализация чатов → доступ к календарю и внешним данным.

Pulse
логично вписывается в этот путь и легко монетизируется. Бренд Сэма Альтмана создаёт сильный эффект «презентации»: любая новая функция вызывает широкий интерес и как же это похоже на 🍎 яблоко.

Подобные решения уже давно появлялись у других игроков — Perplexity, Яндекс (Нейропоиск и интеграции в экосистему), Google. Я до сих пор не видел ни одной успешной интеграции, где бы такой интерфейс полностью заменил рекомендательные системы.

Я уверен, что у меня есть четкое объяснение — Поиск ≠ рекомендации

Поиск помогает, когда ВЫ знаете, что ищете. Рекомендательные системы угадывают, когда вы сами не знаете, что хотите.

Конец рексису? Серьёзно? Тогда и «будильник» можно назвать убийцей Spotify.

MADE IN @danyatyping
Please open Telegram to view this post
VIEW IN TELEGRAM
👍137💯4
MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC.

Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест для оценки работы LLM с внешними системами через MCP. Статья интересна тем, что подобно атомарным измерениям RAG систем (поиск, реранкинг, ответ LLM), показывает как можно измерить качество агентов с вызовом тулов. Как мы знаем, зачастую агенты с тулами ввиду своей нелинейности и недетерминированности сложно измеряются на качество в каждом действии, тк на одну и ту же задачу в разном контексте может быть разное количество действий. А таких бенчей нам и не хватало.

🎯 Постановка задачи

Авторы статьи отмечают, что существующие тесты для MCP остаются ограниченными: они фокусируются на задачах, связанных в основном с чтением информации, либо на задачах с небольшой глубиной взаимодействия. В результате, они не отражают комплексность и реалистичность рабочих процессов из реального мира. Это создает трудности в оценке истинной производительности современных моделей и агентов, а также их способностей к ризонигу, планированию, обработке длинного контекста и использованию инструментов. Цель состоит в том, чтобы получить такой комплексный бенчмарк.

💡 Идея подхода

В качестве решения предлагается бенчмарк MCPMark, который оценивает использование MCP более реалистично и комплексно. Его ключевые особенности:

Реалистичные задачи: 127 высококачественных задач, созданных совместно экспертами и AI-агентами. Если уже не реалистичные, ну хотя бы приближенные к реальным.

Сложные взаимодействия. Задачи требуют разнообразных операций Create, Read, Update, Delete (CRUD) в пяти различных средах: Notion, GitHub, Filesystem, PostgreSQL и Playwright.
Программная проверка подобно награде в GRPO с компиляцией кода. Каждая задача включает скрипт программы для автоматической верификации результата, что делает оценку более объективной.
Создание контекста разработки. Каждая задача начинается с тщательно подобранного начального состояния (например, шаблон базы данных или репозиторий GitHub с историей) и создается в рамках pipeline, сочетающего исследование, усложнение задачи, верификацию и действие.

🧪 Дизайн метрик

Для оценки моделей был создан MCPMark-Agent – минималистичный и универсальный фреймворк, который выполняет модели в стандартном tool-calling loop. Это обеспечивает честное и последовательное сравнение различных LLM.

Основные метрики, использованные в исследовании:

pass@1 процент задач, успешно решенных моделью с первой попытки.

pass^4 более строгая метрика, отражающая процент задач, которые модель стабильно решает в каждом из четырех запусков. Авторы подчеркивают, что эта метрика лучше отражает реальные условия, где надежность критически важна.
Среднее количество ходов и вызовов инструментов на задачу. Эти метрики показывают сложность задач и эффективность модели.

🔢 Результаты оценки моделей

Ниже приведены примеры результатов оценки современных LLM, которые демонстрируют сложность бенчмарка:

•gpt-5-medium (OpenAI) имеет 52.56%, 33.86% метрики pass@1 и pass^4 соответственно.

•claude-sonnet-4 (Anthropic) <30%, <15% соответственно

•o3 (OpenAI) < 30%, < 15% соответственно.

В среднем, для решения одной задачи LLM требовалось 16.2 шагов выполнения и 17.4 вызова инструментов, что существенно превышает показатели в предыдущих бенчмарках.

🤔 Почему это важно

Исследование имеет несколько важных следствий для области AI-агентов:
1. Создание более реалистичной и надежной оценки. MCPMark предлагает гораздо более строгий и приближенный к реальности тест для агентов, чем предыдущие усилия.
2. Выявление слабых мест в работе систем агентов с тулами. Результаты ясно показывают, что даже самые передовые модели сегодня с трудом справляются со сложными, многошаговыми рабочими процессами. Большой разрыв между pass@1 и pass^4 указывает на это.

Надеюсь такой бенчмарк покажет пример как можно измерять агентов не только e2e и мы увидим еще больше атомарных бенчей.
🔥126👍1
Dealer.AI pinned «Галлюцинации, как недостаток энтропии для генерации токенов. Ща будет сложное миясо 😈 осторожно длинопост. Свежая и очень интересная статья, которая может связать концептуальное понимание глюков через недостаток знаний (в обывательском смысле) и недостаток…»
Dealer.AI pinned a file
GRPO на самом деле DPO и это многое упрощает 😱

Не буду приводить доказательства, вся зубодробительная математика тут. Скажу лишь, что GRPO было развитием PPO от команды DeepSeek при создании R семейства. Данный метод также исследует политику на разных траекториях, только сводит все в группы. Т.к. это ppo-like подход мы наследуем все те же проблемы стабилизации и настройки алгоритма, мало у кого кроме таких топ игроков он завелся для LLM предсказуемо. Поэтому модификация в виде dpo like (оч подробно писал тут про это) нам дает более простой, стабильный и надёжный вариант RLHF чисто на уровне sft.

Поэтому данная статья считаю оч важна и упростит жизнь AI-engineer при обучении моделек. Модификацию к dpo-like лосса GRPO приложу на скринах ниже.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1🔥1👌1🦄1
Dealer.AI pinned «MCP benchmark, как способ атомарного измерения качества работы агентов и интеграции с FC/TC. Сегодня расскажу о статье "MCPMark: A Benchmark for Stress-Testing Realistic and Comprehensive MCP Use". Это исследование представляет собой новый эталонный тест…»
Forwarded from Pavel Zloi
Пару недель назад, Александр @dealerAI подробно рассказывал у себя на канале о проекте MemAgent, если в двух словах, то это проект запускающий специально науськанную на работу с файловой систему модель, для того чтобы на оной организовать Obsidian-подобное хранилище памяти, в виде эдаких заметок.

Меня данная возможность очень впечатлила, стал пробовать для локальной разработки, оказалось решение состоит из двух компонентов:
- хитрой LLM driaforall/mem-agent основанной на qwen3 4b, скрипты обучения модели тут (в репе будут еще и логи обучения 14b модели, но веса почему-то не выложили)
- обёртки firstbatchxyz/mem-agent-mcp для непосредственной работы с файловой системой в формате простенького MCP-сервера, к сожалению без Dockerfile

Ну и сами понимаете, пришлось ручками упаковывать всё в Docker-образ, по итогу у меня получились:
- отдельно docker-compose.yaml для запуска LLM-модельки на GPU-сервере с vLLM
- сам Dockerfile чтобы упаковать mem-agent
- и дополнительный docker-compose.yaml чтобы управлять сборкой Dockerfile

К слову сказать моделька отжирает 9Гб даже при bnb-квантизации до int4 с контекстом 4000 токена, так что вероятно в будущем я её конвертирую в GGUF.
13
Схема обучения ModernVBERT
Схема REALM
Схема FROMAGE
👍4
ModernVBERT, как fromage только для энкодера.

На днях ребята из моей группы эмбеддеров прислали статью про новый multimodal embedder. Очень изящный и красивый подход, мое увожение.🎩

В общем, как получают vlm без омнимодальности? Берут decoder выделяют ему спец токены под image projection, в которой кормят эмбы с картиночного бэкбона: clip, siglip, resnet и т.п. че хотите. Это живет вместе с текстовыми токенами, далее уже учатся генерить контекстно тексты, с опорой на мультимодальную информацию. Также можно кормить и аудио эмбы и видео и т.п. Такое придумали пару лет назад ребята из fromage, там правда еще присыпали темами с двухголовостью (token prediction + еще image retrieval), но это произвело фурор и дало ОГРОМНЫЙ вклад в создание последующих VLM и т.п.

Но в ModernVBERT челики красиво еще повернули эту темку. Тип, а че мы ток можем с декодерами так жить? Вигвам, будем пробовать с энкодером. Прям как мы с мерджингом.
Далее гипотеза: "а что если вкинем тоже самое в энкодер, ток на этапе MLM и тип у нас будет картинос эмб помогать помимо текстового контекста демаскировать токен (см. схему ниже)?" Собрали, обучили и получилось. Причем этот подход совмещает в себе два рабочих: первый, конечно же вышеуказанный fromage, а второй это REALM (картинка тоже будет снизу).

REALM - это RAG только не на этапе инференса, а на этапе MLM претрена, тут мы кидаем подсказки с БД в контекст энкодера для улучшения качества демаскирования токена. И тоже вполне себе рабочий подход.

В итоге микст дает:
1. Использование спец токенов для картиночных эмбов во общем внимании с текстовым контекстом.
2. Учит эти представления помогать для лучшего демаскирования токенов в MLM таске e2e.

Обучение идет по схеме: претрен на чисто текстовой задачке (опускаем, т.к. ModernBERT уже обучен), далее допретрен (они зовут это выравнивание) на картиносах, далее contrastive tuning уже на ретривал задачу.

В завершении, получается турбо-хомяк до 300м параметров, с прекрасными свойствами мультимодального поиска и возможностью запускать модельку на CPU. 🌿
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥227
Онлайн конференция по использованию AI в разработке

Мои товарищи решили сделать онлайн AIDev конфу, и конечно, позвали меня поучаствовать, а я приглашаю Вас. Будет без буллщита и воды. Только личный опыт от действующих инженеров и их менеджеров.

Спикеры: тех лиды, руководители разработки, CTO и AI head.

Когда: 14 октября, 14:30 14:00 (мск)

О чем: 6 докладов про эффективное использование AI инструментов в разработке для разного уровня подготовки от начинающих инженеров до авторов собственных тулов, от индивидуальных контрибьюторов до руководителей команд и департаментов.

Посмотреть детали и зарегистрироваться.

Upd. Будьте внимательны, обновлено время начала.
19🔥7👍3😁1
Дядя не пропал, просто много дел. Но вот вам мем на ночь.
👍30😁23🤔2😐2🫡1
Мама любит Mamba и Сережа тоже (с) Тихий "релиз" Mamba3 на ICLR2026.

Если хотите понять, про что Mamba и все эти RWKV, какие модели уже были и оценить перспективу – читайте тут, тут и тут.

Утечка тут, чирикают тут. Хвалебные отзывы по каналам смотреть не тут. 💳

Мое мнение такое, уже несколько лет мы видим развитие SSM, RWKV моделей. Основной пойнт - это линейность от размера входного сиквенса, в отличии от механизмов внимания в трансформерах. При этом, мы наследуем и проблемы, аля затухание или взрыв градиента, что влияет на механизм "памяти" внутри архитектуры. Отсюда мы и получаем пляски с разными микстами rnn+transformer в виде указанных выше моделей семейств ssm, rwkv.

Причем можно проследить несколько направлений:

1. Работа с механизмом внутренней "памяти" в лице специальных блоков внутри архитектуры.

2. Работа с сложностью от длины контекста. Микстят блоки ssm с блоками трансформера, где-то последовательно, где-то параллельно.

3. Оптимизация работы всей этой доброты на GPU. Т.к. в отличии от RNN-like, трансформеры параллеляться хорошо.

Кстати знаю, что в бигтехах стажерам дают RWKV делать для тюна автокомплит и пр. Штуки для умной клавы, вместо lstm, разумеется. И это работает on-device хорошо, как и сказано в Mamba3 в качестве перспективы.

4. Работа над стабильностью самой архитектуры, чтобы исключить проблемы RNN. Все эти плавности/насыщения весов и сходимость оттуда же.

В итоге, задается вопрос: А за что мы платим линейной сложностью от длины контекста и памятью в рамках него же, и стабильностью архитектуры?

Также мы уже видели публично аналоги от Qwen3 next, от ребят из Nvidia и пр., стало ли это смертью трансформера? Поживем, увидим, пока все еще не становилось. Но динамика развития архитектур данного семейства хорошая, может даже кому-то лучше заложиться на знание и представление о таких архитектурах. А каким-то rnd командам и на собственные исследования и разработки, чтобы потом внезапно не оказаться в догоняющих.

Всем добра, увидимся. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🤔4❤‍🔥32😁1😐1
В одном из чатиков про AI:

"ААААААААААААААААА!!!

МногоУважаемый Господин Qwen, только что, обвинил меня в ошибке при реализации кода, которую, допустил он...

Пойду повинюсь. А то кошкожены лишат...
"(С)

Занавес 💳💳💳

UPD.
Вот и вайбкодь после этого.

Кстати, а кто по-вашему виноват в том, что в коде порожденном copilot'ом, курсором и т. п. допущена ошибка и она попала в проект?)

Пишите в комментариях. Это вчера мы на конфе не успели обсудить в рамках панельки.
👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
😁40😐31
Dealer.AI pinned a photo