Dealer.AI
14.8K subscribers
688 photos
46 videos
17 files
724 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Dealer.AI pinned a file
Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.

После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅

В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы. Казалось бы уже 2025г заканчивается и все давно научились.💪

Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.

Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).

1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.

+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.

- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.

2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры. Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:

- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!

И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.

Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.

Этот пункт самый жирный, тк именно здесь есть разные хаки.

+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.

- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.

3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.

+ Не надо тюнить самому модель, а ток промпт.

- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1412👍5
Защитники, продолжение...

4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.

+ Вдалбливаем тюном по LLM нужное поведения.

- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.

4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ,  контекст-запрос-ответ.  Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.

+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.

- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.


В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.

Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾

👇👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
122👍5🔥5❤‍🔥2
Dealer.AI pinned a photo
⚡️ Вышла GPT-5.2!

после релиза Gemini 3 я очень ждала что же ответит OpenAI 😺

У Сэма Альтмана есть забавный паттерн - они часто ждут пока кто-то из конкурентов выкатит крупный релиз, и только потом выпускают свое, а вот смотрите у нас ЛУЧШЕ 😁

И вот - OpenAI начали раскатывать GPT-5.2 (у меня уже доступно)

В релизе нет генерации изображений (которую я кстати очень жду!), это максимально прагматичный апгрейд для реальной работы, GPT-5.2 сильно прокачали именно под professional knowledge work - таблицы, презентации, документы, код, длинный контекст, многошаговые задачи end-to-end. Интересно попробовать, потому что 5.1 из моих черновиков фин модель собрать увы не смогла 😡

По бенчмаркам выглядит сильно: на GDPval (бенчмарк Google для работы с документами) показывает 94.2% против 89.7% у Gemini 3, на CodeForces рейтинг вырос на 15%, на multi-step reasoning прирост около 20% 🧠

кто уже попробовал, делитесь впечатлениями в комментах ⌨️

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥9
Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно.

Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача.

Авторы показали, что линейности нет🚬, и все зависит от ресурса, условий задачи и размера популяции. 💪

Прям нелинейная динамика scaling мультиагентных систем, получается. А значит системы агентов, можно рассматривать по аналогии с моделью нелинейной динамики популяций, т.е. оно может "жить" по закону популяции и приходить к коллапсу через размеры системы и прочие параметры 🧠

Кстати, авторы вывели закон масштабирования МАС и провели хорошую абляцию с разными моделями от лидеров рынка под капотом. Уважаемо. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍9🔥5🤔1
Dealer.AI pinned Deleted message
This media is not supported in your browser
VIEW IN TELEGRAM
А Дядя напоминает. 📦

Что год подходит к концу и это время подвести ИИтоги 2025 в хорошей компании.

А чтобы это было интересно, насыщенно и интерактивно, мы решили сделать специальное мероприятие 23 декабря. Там я буду рассказывать про то, что нового подарил нам год в AI science: DeepSeek moment, Reasoning и RL, context learning, память и агенты.

Помимо меня, ещё будет 8 крутых спикеров, многих из которых вы можете узнать на видеовставке по фото: Head of AI, руководители AI R&D, фаундеры AI-продуктов с $25m funding - короче будет 4,5 часа хорошей такой выжимки для вас - опыт, цифры и инструменты. Организаторы постарались.

Когда?
Дата и время: 23 декабря, 14:00.
Есть платная и бесплатная опции участия. Запись будет для тех кто зарегистрируется.
Где? Детали и регистрация
Please open Telegram to view this post
VIEW IN TELEGRAM
👍164
Dealer.AI pinned «Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно. Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача. Авторы показали, что линейности нет🚬, и все зависит от ресурса, условий…»
Тут у ребят: @neural_prosecco, @snimshchikov, @neuraldeep
вышел прикольный враппер для итогов года, решил тоже собрать статку и получить весёлую карточку.

Получилось жОско 📦, пробуйте и Вы. 💅

Не, ну, а че? Не tgstat ж грустный юзать.
Please open Telegram to view this post
VIEW IN TELEGRAM
💅1412🔥9😐5🙉2🏆1
Конец года и #новости #однойстрокой в стиле Google. 🔍

В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор.

Начнём с T5Gemma 2, хотя должно быть gemma3 🧠

Почему? Да ибо ребята элайнят энкодер к Gemma3 декодеру, как преинициализация T5 декодер части. А я напомню, что Т5 это полный трансформер с энкодер-декодер архитектурой.
Помимо этого, ещё интересное, что убрали механизм cross-attention – это когда у вас вложения декодерв после self-attention идут ещё раз в кросс-внимание с контекстом энкодера. Теперь все это зовётся merged attention и, по факту, просто энкодер эмбы закинули в общий блок внимания, НО сохранили у энкодера self-attention с двусторонним механизмом, а у декодер с казуальным. Т.е. после кодирования контекста в энкодере, его эмбы идут напрямую в декодер внимание с казуальной маской, как контекст. Чтобы это все дружно работало ещё сделали tied embedding, т.е. обобщенные / связанные матрицы эмбеддингов для энкодера и декодера, что облегчает вес и увеличивает скорость, а ещё делает нативный обмен информацией между блоками.

Ввиду таких артефактов, легко ложится туда мультимодальная часть в fromage стиле, поэтому моделька ещё и жуёт картинки на равне с текстом. В качестве энкодера для image embs юзают Siglip. До кучи long context 128k и конечно мультияз.

Вижу, что Google продолжает диверсификацию исследований и не кладёт яйца в одну корзину. 🧠 Разрабатывает и декодеры, и полные трансформеры, и диффузии. Про энкодеры вообще молчу. 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍2012👾3🤔1
Тренды и вызовы GenAI на следующий год. Вангование на НГ.🎄❄️

Всем привет, кто уже режет новогодние салатики и достаёт любимые напитки из погреба. Сегодня Дядя сделает вангование на развитие ИИ в следующем году.

Итак, поехали:

1. Агенты и правило "девяток" . Если 2024 был годом RAG. То в 2025 sexy были агентные системы. Думаю за 2025 уже успели наиграться и сформировать некоторый пулл достоинств и проблем. Думаю в 2026 году, МАС будут решать сугубо прикладные задачи и исправлять свою непредсказуемость и слабую измеримость результата на промежуточных шагах. А именно, будет больше атомарных бенчмарков, а не е2е. Будут решать проблемы "девяток", т.е. работать над предсказуемостью, безопасностью, надёжностью и точностью системы, чтобы стремиться к 99.999(9). К сожалению, сейчас, агенты живут не в "девятках" , а в "семёрках" даже "шестёрках". С учётом требований к безопасности и наследуемостью ошибок – этого недостаточно.

2. RAG и память. В in context learning в лице поиска и LLM намечается путь в авторешения, на подобии autoML. Такие системы становятся уже полноценными  агентами, с возможностью динамически решать задачи, принимать решения по источникам знаний и уровню достоверности как источников, так и генерации. Таким образом, будет AgenticRag, Self-taught RAG и AutoRAG.
В части памяти, прод решения будут все ещё крутится вокруг работы с файловой системой и RAG механиками, вызовом функций и/или саб-агентами. Все новшества уйдут на уровень архитектуры моделей в лице: большего размера эффективного контекста и модулей long/short term памяти внутри сеток. На это указывает и MIRAS Titans, Atlas.

3. Модели и альтернативные архитектуры. Начнём с простого, в открытом комьюнити будет продолжаться тренд на small, base модели по размеру. При этом, они будут все более специализированные: агенты, CoT, доменные (финансы, юр., беза, медицина и т.п.).
Большие игроки все также будут делать микст: размер, хаки для обучения (CoT, RL и тп), данные. Причём в последнем случае, доля синтетики будет расти. Параллельно, будут строиться более сильные пайпы рафинирования и чистки данных, чтобы нарастить качество живых данных. Это позволит учить более эффективные малые модели.
Рядышком будут бежать энтузиасты альтернативных архитектур: SSM, RWKV, Text Diffusion LM и т.п.
Китайцы продолжат удивлять, и думаю следующий DeepSeek, Kimi и Qwen сделают пару релизов, в одном из которых жду MoE схему отсюда. Да и SSM из статьи тоже туда же.

4. Оптимизация эффективности инференса и обучения. Уже сейчас топы мира по ИИ говорят о том, что мы упираемся не в число вычислительных мощностей, а в эффективность и энергопотребление. Таким образом, или мы с единицы шага обучения вытаскиваем больше информации и тратим меньше шагов, или оптимизируем нагрузку на инференсе и скорости обучения, тем самым экономия gpu-часы и, как следствие, число затраченной энергии. Сюда же помогают все эти MoE, линеаризации внимания, спекулятивный декодинг и прочие фишки. Этот тренд останется ИМО и на следующий год.

И да ещё думаю помимо волны спроса на RAM, мы увидим повышенный спрос на источники энергии: нефть, газ, АЭС.

Upd.
5. Продолжение усиления персонализации и тренд на человекоцентричность. Крупные игроки уже заявили о формировании новой фин.модели монетизации: агентные системы, память. Нас ждёт, все больше трансформации рынка рекламы и покупок. А клиенты уже сейчас своим мнением давят на оунеров моделей и голосуют за любимые версии в апи.

Вот такие мысли автостопом по трендам на следующий 2026 год. Вы знаете, что с этим делать - седлать волну. Stay tuned. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
33🔥33👍1911🙈4🤔1👌1
Dealer.AI pinned «Конец года и #новости #однойстрокой в стиле Google. 🔍 В конце года вышли для меня две интересные работы. Сегодня расскажу про одну, а далее выйдет второй обзор. Начнём с T5Gemma 2, хотя должно быть gemma3 🧠 Почему? Да ибо ребята элайнят энкодер к Gemma3…»
This media is not supported in your browser
VIEW IN TELEGRAM
Дорогие друзья, подписчики, поздравляю Вас с наступающим Новым 2026ым годом! Будьте здоровы, как лошадь, свободны, как лошадь, но не загнанной лошадью. Будьте полны идей и сил! Ваш 📦
Please open Telegram to view this post
VIEW IN TELEGRAM
49🔥20💅7❤‍🔥3🤗1
Dealer.AI pinned a video
Сама, Дядя, память и будущее. 🌌

Что может быть общего между Дядей и Самой в ушедшем 2025ом – Память в GenAI, как одна из важных фичей персонализации.

В том году, кажется, Дядя был единственным энтузиастом и адептом памяти для LLM в ру-комьюнити. 💅
До кучи, одна из моих команд работали над этим больше года и на AIJ 2025 можно было даже увидеть: соревнование и стенд, на котором была эта фича. В дополнении, разумеется, куча постов про system design memory в моем канале, как ни в каком ином. Значит, и этот год стоит начать с этого.

Из последнего -18.12.2025 вышло ещё одно интервью Альтмана, где он также как и я, говорит, что "Memory Makes AI Sticky", жирные намёки на развитие фичи в 2026ом. Конкретно там указывается, что в GPT-6, а я надеюсь появится она в 2026-ом, все будет максимально персонализрованно. Модели не просто будут помнить факты, они будут запоминать все полезное о Вас. Далее цитата: «Будущий ChatGPT будет обладать «идеальной, бесконечной памятью», в отличие от людских помощников. Он будет помнить каждое ваше слово, написанный вами документ и скрытые предпочтения, которые вы никогда явно не формулировали. Текущая память хранит базовые факты; версии 2026 года будут персонализировать, используя всю историю вашей жизни».

Мнение от Дяди. 📦
Мне например очень близка эта позиция, и на мой интерес и взгляд создание такой системы лежит не только в архитектуре в лице модулей и long context, но и в инженерии вокруг:  tool call, работа с файлами, vector index, sub agents. Да и продуктоый вопрос должен тут идти вместе с RnD.

Персонализация, память и "липкость" продукта:

Ключевой элемент удержания: Альтман называет персонализацию (личную и для бизнеса) критически важной для "липкости" . Когда модель "узнаёт" пользователя или компанию, это создаёт сильную привязку, сравнимую с выбором "зубной пасты на всю жизнь".

Память как "game-changer": Журналист отмечает, что функция памяти, сохраняющая контекст между сессиями, стала настоящей game-changing фичей. Он привёл пример планирования поездки, которое продолжается неделями.
--------------
Алекс Кантровиц: Интерфейс работает, но, думаю, внутренности изменились. Память действительно стала тем, что меняет правила игры. Уже несколько недель я обсуждаю с ChatGPT предстоящую поездку, требующую много планирования, и теперь я могу просто зайти в новом окне и сказать: "Так, давай продолжим обсуждать эту поездку". И у него есть контекст. Насколько хорошей может стать память?

Сэм Альтман: Я думаю, мы не можем этого представить, потому что человеческий предел... (с)
--------------
Думаю, дальнейшие комментарии излишни...

Помимо памяти, были затронуты вопросы интерфейсов взаимодействовия и агентов. Окно взаимодействовия с пользователем должно уйти от чата, к динамически собираемым под ситуацию и задачу интерфейсам. А агенты будут теми самыми лучшими, чем человек, помощниками. Реальными ИИ-дворецкими или консьержами. Идеальное будущее – автономный агент. Он описывает желаемый сценарий: утром вы даёте агенту список задач и приоритетов, а он работает в фоновом режиме, взаимодействует с другими агентами, принимает решения и беспокоит вас только при необходимости что-то уточнить или верифицировать.

На этом все. Это всего-лишь вырезка из интервью, остальные аспекты: инвестиций, работы с железом и планы на рынке можно почитать в интервью самостоятельно.
Читайте, образовывайтесь, и, главное, stay tuned 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
17👍14🕊3💅3🔥1👾1
Forwarded from commit history
This media is not supported in your browser
VIEW IN TELEGRAM
Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект!

Авторы: @southfreebird, @Olegbalakhnov и @zaringleb.

Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз меньше (0.5B vs 3B в оригинальной работе), которая показывает success rate 94.1% на Libero benchmark (против 94.7% у оригинальной модели).

VLA (Vision-Language-Action) это модель, которая смотрит на картинку, понимает текстовую команду и сразу выдаёт действие для робота, типа «возьми кубик и положи справа».

Вообще порог входа в robotics ML всё ещё достаточно высокий, поэтому у ребят крутая цель: сделать в open-source воспроизводимые рецепты для файнтюна небольших моделей на небольшом количестве демонстраций.

Ссылка на блогпост и модель:
https://robot-learning-collective.github.io/vla-0-smol

Если интересно следить, ребята завели Discord:
https://discord.gg/XcZVY2kxj9

Ну и пишите, если будут вопросы!
25👍10👾3🔥2
commit history
Серега @southfreebird параллельно с работой в Nebius с друзьями сделал крутой open-source проект! Авторы: @southfreebird, @Olegbalakhnov и @zaringleb. Ребята обучили и выложили в open-source VLA-модель на базе VLA-0 от Nvidia, только с backbone в 6 раз…
Ах, да, в своём обзоре трендов забыл про VLA сказать 👍, ещё с того года все на них помешались 🤤, но и конечно на Omnimodal models 🧠.
Please open Telegram to view this post
VIEW IN TELEGRAM
Dealer.AI pinned «Сама, Дядя, память и будущее. 🌌 Что может быть общего между Дядей и Самой в ушедшем 2025ом – Память в GenAI, как одна из важных фичей персонализации. В том году, кажется, Дядя был единственным энтузиастом и адептом памяти для LLM в ру-комьюнити. 💅 До кучи…»