Dealer.AI
14.4K subscribers
672 photos
44 videos
16 files
700 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30💯12😈4🫡3🤓2👾1
Забавное рядом. Мемы про AI обретают реальность.

Google запрещает сотрудникам использовать для разработки свою же IDE Antigravity.

А недавно, чел с реддит рассказал, что их Antigravity агент случайно удалил весь его диск, пока пытался исправить баг. 😦

Логтрейс прилагается:
«Я просматривал журналы с предыдущего шага и с ужасом увидел, что команда, которую я выполнил для очистки кэша проекта - это rmdir, и по всей видимости, ошибочно указала на корень вашего диска D:, а не на конкретную папку проекта. Мне очень, очень жаль.» 😢

Парам-парам-пам-пам. 🤣

Upd. Нет лучше способа екнуть багу, екнув среду в которой он возник, нет среды нет бага, rl такой rl 🧠

Мемы обретают реальность)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2311🤗7🤓1🆒1
202512 deepseek paper.pdf
885.8 KB
DeepSeek3.2 техрепорт, где инкремент?

Ребята после поста новостей одной строкой попросили дать оценку тому, что нового завезли. В общем, тех.репорт в закрепе, зашёл на чирики даже, почитал и ща вам расскажу.

Что нового завезли в DeepSeek:
1. Усиление deep sparse attention. В целом, DSA не ново, даже в gpt-oss также использует global attention+sliding window. Это даёт вам сложность операций внимания не O(n^2), а O(n*w), где w размер окна в swa. Эти свойства были усилены специальным механизмом "выбора" на какие токены атендится global части в этом окне и таким образом, w стало в среднем падать от слайда к слайду. Что такое global часть?  Это внимание от Q0 до Qn, по отношению к KV0, на картинке ниже приложу. Крч даёт это те же O(n*<w>) ток теперь w<<n. А для выбора топ-К аттендов делается селектор, на картинке зелёный. Он как раз помещается на KV для роутинга.

2. Усиление MLA. Multi latent head attention это способ ускорить и уменьшить в памяти хранение qkv матриц.  Это получаем при помощи пожатия qkv в ещё меньший размер в Х раз. Также, чтобы не размыть информацию от изначального сигнала, прокинуть RoPE механизм туда. Однако, тк у нас на выходе и входе эмб изначального сайза, там стоит блок расширения. Это была база MHA. А теперь туда добавили как раз таки вместо старого DSA, DSA с топК селектором прям в латенты. И все это ускорило ещё сильнее модель.

3. Изменение RL лосса. А почему? Да потому, что в лоссе была посажена бомба, в прямом смысле, совершающая градиентый взрыв. Чтобы исправить это был внесён корректирующий коэффициент из твитта выше.
В чем заключается исправление?
Исправление касается оценки дивергенции KL в алгоритме GRPO. В оригинальном GRPO KL-регуляризация оценивалась с систематической ошибкой. Когда токены имели значительно более низкую вероятность под текущей политикой πθ, по сравнению со старой, политикой πold, градиент оригинального лосса назначал непропорционально большие веса для максимизации правдоподобия этих токенов - отсюда и взрыв.
Это приводило к:
1. Шумным градиентным обновлениям.
2. Нестабильной динамике обучения.
3. Деградации качества сэмплов на последующих итерациях.
Решением стало"Unbiased KL Estimate". Исправление заключается в перевзвешивании KL-члена с тем же самым коэффициентом важности (importance ratio), что и используется для основной функции потерь. Это делает градиент KL-ошибки несмещенным.
Фух... Жоско? Но это все.

В общем, такие мутки, гульки.
Please open Telegram to view this post
VIEW IN TELEGRAM
213🔥7🤯4👍1🤔1
Dealer.AI
MLA+DSA router
DSA схема у Себастьяна Рашки лучше всего изображена
🔥6
Dealer.AI
DSA схема у Себастьяна Рашки лучше всего изображена
#meme для привлечения внимания 🧠 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4
Dealer.AI pinned a file
Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.

После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅

В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы. Казалось бы уже 2025г заканчивается и все давно научились.💪

Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.

Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).

1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.

+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.

- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.

2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры. Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:

- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!

И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.

Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.

Этот пункт самый жирный, тк именно здесь есть разные хаки.

+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.

- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.

3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.

+ Не надо тюнить самому модель, а ток промпт.

- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1311👍3
Защитники, продолжение...

4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.

+ Вдалбливаем тюном по LLM нужное поведения.

- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.

4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ,  контекст-запрос-ответ.  Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.

+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.

- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.


В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.

Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾

👇👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
122🔥5👍4❤‍🔥1
Dealer.AI pinned a photo
⚡️ Вышла GPT-5.2!

после релиза Gemini 3 я очень ждала что же ответит OpenAI 😺

У Сэма Альтмана есть забавный паттерн - они часто ждут пока кто-то из конкурентов выкатит крупный релиз, и только потом выпускают свое, а вот смотрите у нас ЛУЧШЕ 😁

И вот - OpenAI начали раскатывать GPT-5.2 (у меня уже доступно)

В релизе нет генерации изображений (которую я кстати очень жду!), это максимально прагматичный апгрейд для реальной работы, GPT-5.2 сильно прокачали именно под professional knowledge work - таблицы, презентации, документы, код, длинный контекст, многошаговые задачи end-to-end. Интересно попробовать, потому что 5.1 из моих черновиков фин модель собрать увы не смогла 😡

По бенчмаркам выглядит сильно: на GDPval (бенчмарк Google для работы с документами) показывает 94.2% против 89.7% у Gemini 3, на CodeForces рейтинг вырос на 15%, на multi-step reasoning прирост около 20% 🧠

кто уже попробовал, делитесь впечатлениями в комментах ⌨️

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥7
Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно.

Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача.

Авторы показали, что линейности нет🚬, и все зависит от ресурса, условий задачи и размера популяции. 💪

Прям нелинейная динамика scaling мультиагентных систем, получается. А значит системы агентов, можно рассматривать по аналогии с моделью нелинейной динамики популяций, т.е. оно может "жить" по закону популяции и приходить к коллапсу через размеры системы и прочие параметры 🧠

Кстати, авторы вывели закон масштабирования МАС и провели хорошую абляцию с разными моделями от лидеров рынка под капотом. Уважаемо. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍8🔥5🤔1
Dealer.AI pinned Deleted message
This media is not supported in your browser
VIEW IN TELEGRAM
А Дядя напоминает. 📦

Что год подходит к концу и это время подвести ИИтоги 2025 в хорошей компании.

А чтобы это было интересно, насыщенно и интерактивно, мы решили сделать специальное мероприятие 23 декабря. Там я буду рассказывать про то, что нового подарил нам год в AI science: DeepSeek moment, Reasoning и RL, context learning, память и агенты.

Помимо меня, ещё будет 8 крутых спикеров, многих из которых вы можете узнать на видеовставке по фото: Head of AI, руководители AI R&D, фаундеры AI-продуктов с $25m funding - короче будет 4,5 часа хорошей такой выжимки для вас - опыт, цифры и инструменты. Организаторы постарались.

Когда?
Дата и время: 23 декабря, 14:00.
Есть платная и бесплатная опции участия. Запись будет для тех кто зарегистрируется.
Где? Детали и регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
👍143
Dealer.AI pinned «Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно. Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача. Авторы показали, что линейности нет🚬, и все зависит от ресурса, условий…»
Тут у ребят: @neural_prosecco, @snimshchikov, @neuraldeep
вышел прикольный враппер для итогов года, решил тоже собрать статку и получить весёлую карточку.

Получилось жОско 📦, пробуйте и Вы. 💅

Не, ну, а че? Не tgstat ж грустный юзать.
Please open Telegram to view this post
VIEW IN TELEGRAM
💅1310🔥8😐4🙉2🏆1
Конец года и #новости #однойстрокой в стиле Google. 🔍

В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор.

Начнём с T5Gemma 2, хотя должно быть gemma3 🧠

Почему? Да ибо ребята элайнят энкодер к Gemma3 декодеру, как преинициализация T5 декодер части. А я напомню, что Т5 это полный трансформер с энкодер-декодер архитектурой.
Помимо этого, ещё интересное, что убрали механизм cross-attention – это когда у вас вложения декодерв после self-attention идут ещё раз в кросс-внимание с контекстом энкодера. Теперь все это зовётся merged attention и, по факту, просто энкодер эмбы закинули в общий блок внимания, НО сохранили у энкодера self-attention с двусторонним механизмом, а у декодер с казуальным. Т.е. после кодирования контекста в энкодере, его эмбы идут напрямую в декодер внимание с казуальной маской, как контекст. Чтобы это все дружно работало ещё сделали tied embedding, т.е. обобщенные / связанные матрицы эмбеддингов для энкодера и декодера, что облегчает вес и увеличивает скорость, а ещё делает нативный обмен информацией между блоками.

Ввиду таких артефактов, легко ложится туда мультимодальная часть в fromage стиле, поэтому моделька ещё и жуёт картинки на равне с текстом. В качестве энкодера для image embs юзают Siglip. До кучи long context 128k и конечно мультияз.

Вижу, что Google продолжает диверсификацию исследований и не кладёт яйца в одну корзину. 🧠 Разрабатывает и декодеры, и полные трансформеры, и диффузии. Про энкодеры вообще молчу. 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
👍168👾3