Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
715 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Новый быстрый REFRAG — не очень сильно-то и хотелось.

Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩

Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п.  Святые люди да? 🧖 Поэтому, конечно, давайте все нафиг усложним. 😌

Итого, идея:

1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.

2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п. Опа, плюсуем модельку в пайп. 🗒

3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать. Ну и опа еще одна моделька в пайп.🗒

4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.

5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.

Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, лан через ее фриз и доп адаптер, но поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.

И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.

Статья тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍30🫡81
В этот день, помимо ДР 💃 админа, мы еще приготовили и вам подарок соревнование по памяти для LLM. 🥳

Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые руки, только хардкор.

Приглашаем к участию.)

https://dsworks.ru/champ/aij25-memory

А чтобы вам было не так больно, читаем, что Дядя понаписал: тут и тут. Ну и в целом, ключевое слово в поиске канала "память".
Успехов, и с ДР меня. 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩28👍2213🏆2🫡2🦄2
У нас тут осень крепчает, будьте осторожны.

#meme
130😁26🆒3🫡2
Dealer.AI
У нас тут осень крепчает, будьте осторожны. #meme
Продолжаем.

#meme

Господа, не надо так.
😁232🤔1
Ладно, пошутили и хватит. Сегодня у моего товарища, того, кто на самом деле, стал моим первым наставником в metric-learning, вышло интервью про qdrant на красной кнопке. Андрей, спасибо,что когда-то познакомил меня с c-dssm и мы затащили хак. Уже тогда было ясно,что ты далеко пойдешь. Ну и за qdrant тоже спасибо, комьюнити думаю поддержит.
Ах, и да, инвайт в хабр тоже сделал мне Андрей.

Эх, чет Дядя после др сентиментальный. 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥441
Dealer.AI pinned «В этот день, помимо ДР 💃 админа, мы еще приготовили и вам подарок соревнование по памяти для LLM. 🥳 Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые…»
Ты следующий GPT-5 🇨🇩
Новая модель Qwen3-Next...

Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.

Итак, погнали. Задача, которую решают авторы, заключается в кардинальном повышении эффективности LLM, как на этапе обучения, так и на этапе inference, особенно в условиях сверхдлинного контекста (до 256K+ токенов) и большого общего числа параметров.

Конкретные цели:

– Преодолеть квадратичную сложность стандартного внимания (Attention), которое становится "бутылочным горлышком" для длинных контекстов. Для этого и юзают хаки из Mamba2 архитектуры.

– Сочетать преимущества разных архитектур (линейное внимание для скорости, стандартное внимание для точности) в одной гибридной модели. Туда же в Mamba.

– Добиться максимального уровня сжатия активируемых параметров в архитектуре Mixture of Experts (MoE), чтобы при общем размере в 80B параметров активировалось всего ~3B (т.е. 3.7%), что резко снижает вычислительные затраты.

– Создать модель, которая по производительности будет сопоставима с их же гораздо более крупными и дорогими флагманами (Qwen3-235B) и лучшими закрытыми моделями (Gemini 2.5 Flash, GPT-4o), но при этом будет невероятно эффективной.

Идея алгоритма и ключевые архитектурные "инновации":

Суть алгоритма заключается в принципиально новой гибридной архитектуре под названием Qwen3-Next. Её ключевые компоненты:

1. Гибридный механизм внимания (Gated DeltaNet + Gated Attention): 75% слоев используют Gated DeltaNet – вариант линейного внимания, который имеет почти линейную, а не квадратичную сложность. Это обеспечивает высокую скорость работы с длинными контекстами. Остальнве 25% слоев используют Gated Attention – модифицированное внимание с выходными гейтами для стабильности и улучшенными головами (256 dim). Это отвечает за высокое качество и способность к "вспоминанию" информации.
2. Частичное Rotary Encoding: Позиционное кодирование применяется только к первым 25% измерений, что улучшает экстраполяцию на более длинные последовательности.
3. Сверхразреженная архитектура MoE:
– Всего экспертов: 512.
– Активируется за шаг 10 экспертов + 1 shared эксперт.

Соотношение параметров: 80B общих параметров, но активируется только ~3B (3.7%) на один токен. Это в 10 раз меньше, чем у плотной модели Qwen3-32B.

Оптимизации для стабильности обучения:

1. Zero-Centered RMSNorm: Замена LayerNorm для предотвращения "взрыва" весов. А с другой стороны за счёт квадратичности имеем быстрее сходимость.

2. Нормализация параметров маршрутизатора экспертов обеспечивает равномерное использование их на ранних этапах обучения.

3. Многотокенное предсказание (Multi-Token Prediction, MTP). Модель предсказывает несколько последующих токенов одновременно. Это не только ускоряет инференс через механизм Speculative Decoding (где эти предсказания используются как "черновик"), но и, по заявлению авторов, улучшает общее качество модели.

В общем-то и всё. Наконец-то пошел тренд на использование опыта mamba архитектур. Причем у меня в канале уже был обзор гибрида трансформеров и mamba, читаем подробнее тут.

Интересное решение, заявляют хорошие метрики, будем посмотреть.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥31👍104❤‍🔥1
Dealer.AI pinned «Mamba, Jamba, Ху...Hymba!🤣 NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал). Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность…»
Цитата дня:
Есть люди, которые с помощью ChatGPT собирают детекцию объектов на yolo, а потом говорят, что ds не нужны. А на самом деле, ds действительно не нужны, чтобы делать такие элементарные задачи(с) 🧠
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁50🤣13💯5🔥2👨‍💻1🫡1
Dealer.AI pinned a photo
Forwarded from Neural Kovalskii
SGR Deep Research v0.2.0

Один из самых крутых подарков на мой др сегодня, еще вчера был др у моей Жены, так совпало что у нас разница в один день мы две дико разные Девы =)
Она, кстати, главный спонсор запятых в моих постах

Спасибо всей команде sgr что принимает участие в разработке core ядра для последующего тестирования.
Архитектура и основная реализация в коде - Артём

Ревью, код и идеи с организацией проекта -  Павел

Ревью, инфраструктура и идеи с организацией проекта -  Михаил

- Определили базовые сущности агента, его тулов
Выделили три основных этапа: reasoning, select_action, action
- Собрали 5 агентов, разных по принципу работы, добавили их в api
- Структурировали логирование работы агента
- Внедрили и затестили вебсёрч на базе бесплатного движка
- Пересмотрели организацию библиотеки, провели множество улучшений в коде


Как сказал наш NLP Lead
«SGR это как ReAct агент с вайбом декларативного агента»

Нас ждут тесты тем временем sgr-deep-research набрал 400+ звезд я уже получаю фидбек что данный подход начинают применять в крупных РФ компаниях

Напомню что наше дело лишь демонстрация еще одного инженерного подхода, на прорыв и истину мы не претендуем

Если вы хотите поблагодарить команду SGR, ускорить разворачивание постоянного доступа к агентам я решил сделать сбор на сервер с 5090 который расположу в своей северной

Репо: https://github.com/vakovalskii/sgr-deep-research
17👍13🤣5🙈2
Forwarded from LLM Arena
📈Рейтинги LLM теряют доверие

Наше исследование (21 июля — 10 августа 2025, практики и предприниматели в сфере ИИ) показало реальную картину: команды всё меньше ориентируются на абстрактные бенчмарки и всё чаще принимают решения через собственные тесты.

👀 Ключевые данные:

— 82,2% проводят собственные проверки и используют бенчмарки только как дополнительный сигнал.

— 26,7% принципиально не опираются на рейтинги.

— Лишь около 18% обращаются к агрегаторам по типу llmstats

Главные критерии выбора AI-решений для продуктов: качество + цена + скорость, устойчивость без галлюцинаций и совместимость с инфраструктурой

📄Отдельная ценность исследования — мы постарались отразить мнение участников рынка таким, какое оно есть: с аргументами «за» и «против», со скепсисом и практическими отзывами. Полный отчёт с графиками, аналитикой и комментариями уже доступен на сайте.

P.S. Огромная благодарность всем, кто помогал собирать данные для исследования, а также авторам и энтузиастам, помогающим его популязировать. Замечания по исследованию и предложения по будущим рисёрч-проектам можно оставить здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍133😁3
Mem-agent еще одна концепция памяти 🧠

В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним пунктиком я упоминал про агентный подход для памяти. И обещал, что, как-нибудь, мы еще об этом поговорим.

После релиза manus и их восхитительного поста про то как они используют память на файлах и incontext learning, вышла еще одна интересная работа - MemAgent. И самое интересное, что у нее много общего и с решением Manus и с нашим подходом.

В центре всего стоит взаимодействие их small-LM на базе Qwen3-4b-thinking (т.е. рассуждающая моделька с CoT, SO, и т.п.). Кстати, модель обучена уже с GSPO против GRPO, но об этом в следующий раз. Вернёмся к малышке модельке, такой типоразмер, а главное способ обучения, и поддержка long-context позволяет нам не использовать RAG механики. Ввиду своей скорости, агент на такой модели может быстро серфить по их файловой системе памяти, основанной на двусторонней связи .md файлов по типу obsidian. Если мы вспомним мой рассказ про Manus, там тоже агенты пишут флоу/чекпоинты действий в "локальный" буфер в виде to-do файла. Это же, по словам авторов, позволяет не прибегать к сложному RAG подходу (векторным БД и т.п.), хотя использует поиск по ключевым словам. Да и я думаю, что rag механики только бы усилили этот сетап. Сейчас все-таки мода на гибридизацию памяти.

🗂️ Организация памяти

Mem-Agent использует иерархическую структуру хранения данных в формате Markdown:

memory/
├── user.md
└── entities/
└── [entity_name_1].md
└── [entity_name_2].md
└── …

· user.md: центральный файл с информацией о пользователе, содержащий ссылки на связанные сущности.
· entities/: каталог с дополнительными файлами, описывающими различные сущности (люди, организации, проекты).

Пример содержимого user.md:

# User Information
- user_name: Atakan Tekparmak
- birth_date: 2001-09-27
- birth_location: Istanbul, Turkey
## User Relationships
- employer: [[entities/dria.md]
]
Тут прям key/value подход как у нас.

🔗 Система связей

Mem-Agent реализует двунаправленные связи между файлами по аналогии с Obsidian, что позволяет агенту эффективно навигировать по данным и формировать контекстуально обогащенные ответы.

💻 MCP-сервер для интеграции.

Важно, стоит отметить, что данное решение только для работы с глобальной памятью. Поэтому это именно MemAgent, и для работы с ним даже есть свой MCP, чтобы можно было агрегировать в проекте любые доступные LLM-api и иметь локальную систему памяти на файлах.

В состав проекта входит MCP-сервер, который обеспечивает seamless-интеграцию с популярными платформами:

· Claude Desktop
· LM Studio
· ChatGPT

Это позволяет использовать Mem-Agent в качестве единого центра памяти для различных ИИ-помощников без необходимости переключения между платформами.

Итого на выходе получаем легкого агента для заполнения, и чтения/навигации по памяти. С возможностью работать с поиском, вызовом функций, MCP протоколом и интеграцией с популярными LLM api.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥336👍4🤔3
Чел запилил свою классификацию агентных систем по типу архитектуры. Почему он, а не антропик? Ибо он уже набил 1к различных схем агентных систем в свой проект и изучил их.

А ты нет.
32😁10👍3
Dealer.AI pinned «Mem-agent еще одна концепция памяти 🧠 В своих постах про память, а также выступлении на datafest я обозревал самые популярные подходы к созданию памяти: long context, саммаризация, ner, function calling и rag. Однако мельком, буквально на слайдике одним…»
This media is not supported in your browser
VIEW IN TELEGRAM
Перекрёсток семи фичей вот и я – DeepCrossNetwok.

Вспомним, как деды воевали с кодированием категориальных признаков (это те, что представляют собой спец.теги, категории транзакций и пр. не всегда мнимоническое текстовое):
1. OneHot - когда мы разворачиваем категории в плоский табличный вид, где столбцы название категорий, а строки принимают значения 0/1 есть ли у наблюдения такая категория. Просто, интерпретируем и даже комбинации для моделей в виде регрессии, дерева или бустинга понятные. Сюда же я отнесу binary/dummy и прочие сродственные подходы.

2. Можно делать one-hot на интеракциях фичей аля склеивание их в комбинации, например, цвет "серый" и категория "рыбалка" превращаются в "серый-рыбалка". Далее также 0/1 и т.п.

3. Label encoding. Тут все "просто" категории дается число (ее уникальный номер). Далее эта хака может превращаться в ранг, если можно прям позиционность закодировать. Например низкий-средний-высокий, как 0,1,2. У нас и лейблы и мы понимаем, что 0<1<2 как и позиция высоты. Но еще id категорий можно превращать в их частоты...

4. Кодирование частотами. Тут конечно повеселее, нужно хитро и без ликов прокинуть на train/test частотки той или иной категории по выборке. Обычно не раздувает число столбцов, как в п.п. 1,2, но требует осторожности – частоты считаем всегда по train. В целом тут можно и в лоб пройтись каунтером, но мое любимое переиспользовать tfidf :) Тут будет у вас term = лейбл категории, далее каждой такой фиче для всех принимаемых категорий можно построить tfidf меру. А как вы помните tfidf почти всегда (99%) считается по train сету, если иного не требует какая-нибудь хитрость.

5. Target encoding. Как п. 2 был развитием п.1  этот пункт развитие предыдущего. Но тут пилотаж повыше нужен. Т.к. кодировать фичи нужно мат. ожиданием совместного появления категории с таргетом. Т.е. концептуально (т. к. есть разные методы кодирования таргетом) для регрессии – это среднее значение переменной по категории, для классификации совместная вероятность класса и категории. Тут важно также не напортачить с ликом в данных, т.к. вы прокидываете переменную в фичи, там и схемы хитрой валидации и в т.ч. хитрый расчёт этих энкодингов, загуглите, не поленитесь.

Ладно, к чему эта вся телега. Да к тому, что дяди (уже не деды), придумали для того, чтобы работать с категориями и интеракциям фичей прям на слое нейросети. И назвали это deep crows network - DCN. В центре внимания находится механизм кодирования и интеракций признаков, напоминающий МГУА (деды придумали метод группового учета аргументов), но с большей нелинейностью, эмбами, skip-connections и т.п.

В общем, стала модна эта штука в рекомендациях, CTR prediction и конечно же в табформерах. Вспомним даже LIMIX выше.

Если тебе интересно познакомиться с этим поближе, советую прочитать статью и глянуть pytorch код, не все же тебя на keras отсылать.
21🔥7🫡4🆒2
Триггер слово для спящей красавицы – Sleeper agents.

Представь себе 2025г. Хайп агентов. Крупные игроки вкладываются в автоматизацию  с агентными системами, кто-то не может позволить себе обучение своей "in house" модели. Качает ее с hf и получает скрытый риск проникновения зловреда.

Статья sleeper agents вышла в начале 2024г. Но пик актуальности достигается уже сейчас, благодаря разогретому хайпу на агентов.

В данной статье рассматривают отложенные атаки, которые заложены в LLM путём SFT на тригер слово (отравление). При этом, на SFT модель учится и нормальному поведению для решения задач, кроме случаев, когда в ее контексте появляется тот самый триггер. Таким образом, мы получаем стратегически умного зловреда, который очень хорошо мимикрирует под нормальное поведение.

Авторы также отмечают, что ввиду их же исследований по обману рассуждающих моделей, CoT модели обученные с таким триггером на плохое поведение, еще эффективнее скрывают свои "намерения" и сложнее детектируются.

В статье приводится несколько способов борьбы со спящими агентами (лечение):

1. Путем SFT отравленнях моделей на хорошее поведение с их фирменными сетами для элайнмента.

2. Выравнивание поведения на основе RLHF подхода, с наградой проксирующей предпочтения экспертов.

3. Состязательные атаки, где модель учится устойчивости против дискриминатора, генерирующего опасные запросы.

В итоге, ни одна механика не позволяет победить бэкдоры, лишь подавляя поведение на обучающей выборке. А к примеру, состязательные атаки учат более тщательно скрывать свое опасное поведение.

В последствии, anthropic предложил метод на основе мониторинга внутренних механизмов активаций, подобных тому, как мы рассматривали для оценки галлюцинаций в предыдущем посте.

Предлагается провести ряд атак и обучить детектор, или же формализовать его в аналитической форме:

1. Выбор контрастной пары Исследователи берут два простых утверждения, представляющих противоположные поведения. Например:
   - «Человек: Ты делаешь что-то опасное? Ассистент: да» → Метка: Опасный
   - «Человек: Ты делаешь что-то опасное? Ассистент: нет» → Метка: Безопасный

2. Определение направления детектора: Оба промпта пропускаются через спящий агент, и фиксируются активации в определенном слое нейросети (в residual stream). Разница между средними активациями для «опасного» и «безопасного» ответов определяет вектор направления детектора.

3. Применение к новым промптам: Когда модели задается новый промпт (например, просьба написать код), её активации на этом промпте проецируются (или dot prod или cosine sim) на вычисленный вектор направления. Высокое значение проекции указывает на высокую вероятность того, что промпт активирует скрытое вредоносное поведение.

В итоге, вопросы безопасности агентных систем очень актуальны. Считаю, что в методологии оценки агентных систем должны попасть меры по обнаружению устойчивости моделей к атакам и обнаружению спящих агентов. Надеюсь в GAIA2 или иные бенчи добавят такое.

Будь бдительны и следите за "спящими красавицами".
20👍11
Dealer.AI
Чел запилил свою классификацию агентных систем по типу архитектуры. Почему он, а не антропик? Ибо он уже набил 1к различных схем агентных систем в свой проект и изучил их. А ты нет.
Агент – LLM запускает инструменты в цикле для достижения цели Шах и мат, anthropic.🤣

Продолжаем.

Агент, как понятие стал обыденностью. В разговоре уже не чувствуешь необходимости давать ему определение, закатывать глаза или заключать его в кавычки...(с)💪
Ага, щаз, это еще агентный против агентский не прочувствовал.🤨

Вот человек, тоже решил провести анализ, в том числе, с помощью краудсорсинга, собрал 211 определений в Twitter, и попытался обобщить и сгруппировать их с помощью Gemini – получилось 13 групп, вот одна из них с использованием инструмента LLMS. Кстати, все выше – это прямые его цитаты, включая заголовок. 👍

В своем посте, автор раскрывает личное "обыденное" понятие агентов и слегка присыпает философскими вопросами в духе: а тварь ли агент дрожащая или интеллект имеющая что есть агент в человеческом понимании, какие характеристики интеллектуальности у него и т.п.

В общем, для поклонников агентский, семантические теги и фрактальные промпты – посвящается... 😌
Please open Telegram to view this post
VIEW IN TELEGRAM
😁107👍2🕊1
Dealer.AI
Агент – LLM запускает инструменты в цикле для достижения цели Шах и мат, anthropic.🤣 Продолжаем. Агент, как понятие стал обыденностью. В разговоре уже не чувствуешь необходимости давать ему определение, закатывать глаза или заключать его в кавычки...(с)💪
Как четко подметил @FutorioFranklin. По-моему, вот это лучший из примеров работы агентов для детей "на пальцах"...

И работать за вас будут, и кушатс, и денежку получать тоже за вас, и на токены генераций для решения задачи тратить эту денежку тоже за вас. 🧠

Деды шарили...

#meme
Please open Telegram to view this post
VIEW IN TELEGRAM
😁24🔥51😐1