Dealer.AI
14.4K subscribers
672 photos
44 videos
16 files
700 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Для любителей агентов завезли модель. 😎

Постарались nvidia и обучили Orchestrator-8B.
Ссылка Hugging Face 🤗 https://huggingface.co/nvidia/Orchestrator-8B

Тулколл включен. 💪
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20
Forwarded from Neural Kovalskii
Лучшие практики и подходы для RAG
(буду наполнять)


Очередной раз спросили в чате канала что почитать про RAG (https://xn--r1a.website/neuraldeepchat)

Соберем тут все лучшее присылайте и ваши статьи и разборы

Тут материалы предыдущих ответов

1) https://xn--r1a.website/neuraldeepchat/3176
2) https://xn--r1a.website/neuraldeepchat/2953


1) Чанкование (sliding window) можно подглядеть концепты от langchain
https://github.com/langchain-ai/langchain/tree/master/libs/text-splitters

Tired of making your gazillionth chunker? Sick of the overhead of large libraries? Want to chunk your texts quickly and efficiently? Chonkie the mighty hippo is here to help!
https://github.com/chonkie-inc/chonkie



2) Векторные бд от pgvector до qdrant можно начать с chroma (IVF_Flat или HNSW)

3) Векторные модели для ру
ai-forever/FRIDA
BAAI/bge-m3
intfloat/multilingual-e5-large
Qwen3-Embedding-8B

4) Реранкер после KNN сделать доп ранжирование
BAAI/bge-reranker-v2-m3
Qwen3-Reranker-8B


5) LLM + vLMM (база qwen-2.5-7b-instruct)
RefalMachine/RuadaptQwen2.5-14B-Instruct
t-tech/T-lite-it-1.0
t-tech/T-pro-it-2.0

Agentic RAG(Qwen3-30B-A3B-Instruct-2507)
РЕПО(https://github.com/vamplabAI/sgr-agent-core/tree/tool-confluence)

Презентация от Дяди
Построение RAG систем от исследований до индустрии


Хорошо описанные подходы от Богдана
https://xn--r1a.website/bogdanisssimo/2047

Лучшее решение РАГ по документации от Ильи(@IlyaRice) которое выиграло первое место на ERC2
https://github.com/IlyaRice/RAG-Challenge-2/tree/main


Готовые фреймворки одобренные нашим сообществом
https://github.com/langgenius/dify/
https://github.com/Marker-Inc-Korea/AutoRAG
https://github.com/run-llama/llama_index
https://github.com/mastra-ai/mastra

Кейс red_mad_robot по RAG (DCD) для строительной компании (t-lite)
https://habr.com/ru/companies/redmadrobot/articles/892882/

Серия про file first от Рефата
https://xn--r1a.website/nobilix/182

Классика (Запись эфира по RAGу без эмбеддингов)
https://xn--r1a.website/oestick/397

#RAG
#best_rag_practice

Сохраняй в избранное чтобы не потерять
1🔥369❤‍🔥4💯2👌1
Засветился DeepStral ⚡️ (deepseek-like mistral3 large)?

Тут все побежали глядеть vllm-omni. А таам... Рядом висит ишью с новым Mistral3 large.

Когда-то было наоборот, но зато всем любителям open source подарок, уже вижу форки, претрены и дотюны. Теперь видим такое. Роли поменялись, когда-то китайцы оттолкнулись от llama, mistral.

Для примера работы с омни модельками там же (в части vllm omni) в коде можно увидеть qwen-omni, что логично

Upd. Ministral3 тоже засвечены.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🤔41
Продолжаем #новости open-source #однойстройкой:

1. Вышла новая партия обновлений DeepSeek v3.2.
Thinking и Speciale, которая рвёт:
- Лучшая в коде.
- Лучшая в олимпиадных задачах.
- В т.ч. заточено под агентов.
Показывает результаты лучше, чем GPT5 High, которая получается уже не high 💳.

Доступно семейство на HF, в чат версии новая thinking, но speciale пока по апи. 🧠

2. Раздолье для любителей форков и pretrain/sft "своих" моделей от Olmo:
Вышел olmo3, но это не только про сами модели, но и тех. репорт со всеми хинтами для обучения, а также полностью публичная и открытая архитектура + данные, т. е. фулл сборка, позволяющая форкнуть и переиспользовать для обучения с 0 своих моделей, если вы gpu rich. Настоящая демократизация ИИ. 🥳
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍31
Dealer.AI
Засветился DeepStral ⚡️ (deepseek-like mistral3 large)? Тут все побежали глядеть vllm-omni. А таам... Рядом висит ишью с новым Mistral3 large. Когда-то было наоборот, но зато всем любителям open source подарок, уже вижу форки, претрены и дотюны. Теперь…
https://mistral.ai/news/mistral-3 а вот и оно 💃😁

Upd.
Как и обнаружили датамайнеры:
MoE жырные модели deepseek-like, даже в сравнениях с Kimi, которые те же deepseek-like и DeepSeek стоят.

Есть милашки миники на 3, 8 и 14B. Чтобы вы могли на своём утюге, и для агентов потюнить, и эмбы обучить, и as is поюзать.

Модельки не только мультиязыковые, но и мультимодальные.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥13👌4
👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30💯12😈4🫡3🤓2👾1
Забавное рядом. Мемы про AI обретают реальность.

Google запрещает сотрудникам использовать для разработки свою же IDE Antigravity.

А недавно, чел с реддит рассказал, что их Antigravity агент случайно удалил весь его диск, пока пытался исправить баг. 😦

Логтрейс прилагается:
«Я просматривал журналы с предыдущего шага и с ужасом увидел, что команда, которую я выполнил для очистки кэша проекта - это rmdir, и по всей видимости, ошибочно указала на корень вашего диска D:, а не на конкретную папку проекта. Мне очень, очень жаль.» 😢

Парам-парам-пам-пам. 🤣

Upd. Нет лучше способа екнуть багу, екнув среду в которой он возник, нет среды нет бага, rl такой rl 🧠

Мемы обретают реальность)
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔2311🤗7🤓1🆒1
202512 deepseek paper.pdf
885.8 KB
DeepSeek3.2 техрепорт, где инкремент?

Ребята после поста новостей одной строкой попросили дать оценку тому, что нового завезли. В общем, тех.репорт в закрепе, зашёл на чирики даже, почитал и ща вам расскажу.

Что нового завезли в DeepSeek:
1. Усиление deep sparse attention. В целом, DSA не ново, даже в gpt-oss также использует global attention+sliding window. Это даёт вам сложность операций внимания не O(n^2), а O(n*w), где w размер окна в swa. Эти свойства были усилены специальным механизмом "выбора" на какие токены атендится global части в этом окне и таким образом, w стало в среднем падать от слайда к слайду. Что такое global часть?  Это внимание от Q0 до Qn, по отношению к KV0, на картинке ниже приложу. Крч даёт это те же O(n*<w>) ток теперь w<<n. А для выбора топ-К аттендов делается селектор, на картинке зелёный. Он как раз помещается на KV для роутинга.

2. Усиление MLA. Multi latent head attention это способ ускорить и уменьшить в памяти хранение qkv матриц.  Это получаем при помощи пожатия qkv в ещё меньший размер в Х раз. Также, чтобы не размыть информацию от изначального сигнала, прокинуть RoPE механизм туда. Однако, тк у нас на выходе и входе эмб изначального сайза, там стоит блок расширения. Это была база MHA. А теперь туда добавили как раз таки вместо старого DSA, DSA с топК селектором прям в латенты. И все это ускорило ещё сильнее модель.

3. Изменение RL лосса. А почему? Да потому, что в лоссе была посажена бомба, в прямом смысле, совершающая градиентый взрыв. Чтобы исправить это был внесён корректирующий коэффициент из твитта выше.
В чем заключается исправление?
Исправление касается оценки дивергенции KL в алгоритме GRPO. В оригинальном GRPO KL-регуляризация оценивалась с систематической ошибкой. Когда токены имели значительно более низкую вероятность под текущей политикой πθ, по сравнению со старой, политикой πold, градиент оригинального лосса назначал непропорционально большие веса для максимизации правдоподобия этих токенов - отсюда и взрыв.
Это приводило к:
1. Шумным градиентным обновлениям.
2. Нестабильной динамике обучения.
3. Деградации качества сэмплов на последующих итерациях.
Решением стало"Unbiased KL Estimate". Исправление заключается в перевзвешивании KL-члена с тем же самым коэффициентом важности (importance ratio), что и используется для основной функции потерь. Это делает градиент KL-ошибки несмещенным.
Фух... Жоско? Но это все.

В общем, такие мутки, гульки.
Please open Telegram to view this post
VIEW IN TELEGRAM
213🔥7🤯4👍1🤔1
Dealer.AI
MLA+DSA router
DSA схема у Себастьяна Рашки лучше всего изображена
🔥6
Dealer.AI
DSA схема у Себастьяна Рашки лучше всего изображена
#meme для привлечения внимания 🧠 📈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥4
Dealer.AI pinned a file
Про мониторы, модераторы, защитники и прочие модели цензоры в вашем продакшене.

После прочтения лекции в Agora club, про базированный RAG, ко мне пришло много желающих из корпоративной среды, чтобы я прочитал тоже самое для их сотрудников. Потом, на неделе, Дядя ещё почитал пару статей про мониторы (вдруг че нового завезли) для агентов и ассистентов LLM-based на хабр и понял, что базы точно надо дораздать, т.к. уровень в среднем хромает на местах. 💅💅💅

В дополнении, на вышеуказанной лекции ребята тоже спрашивали, как защитить от атак модели и системы. Казалось бы уже 2025г заканчивается и все давно научились.💪

Сегодня раздам базы за системы мониторинга атак на ваши LLM, какие методы есть, какие +/- и что в итоге лучше выбрать.

Для тех, кто думал, что Дядя не про прод. Дядя поделится своим опытом работы с автоматизацией системы поддержки (с 2019 по 2020) и созданием ии-ассистентов (с 2020 по 2024 и хвостик в 2025).

1. RegExp, string matching и blacklists. Тут все просто, делают чёрные списки которые чекают на разных уровнях: слова, фразы. Используются, как регулярки, так и расстояния между строками и полнотекстовые совпадения. Т.е. tfidf, fuzzy match, левенштейнинг, embs.

+ Хорошо выгрызает совпадения по ключевым словам.
+ Скорость.

- Нужно постоянно пополнять словари и списки.
- Для строковой близости надо подбирать пороги.

2. Классификаторы семантические (т.е. где сильна контекстуальность). Тут будем в основном рассматривать вектора с трансформеров.
К сожалению, многие не умеют готовить классификаторы на эмбеддингах. Говорят про слабый контекст и т.п., выставляя LLM как более контекстуальные акторы. Хотя LLM - это декодеры. Но я их понимаю, тк "проще" на уровне промптинга или элайнмента работать с моделями, хотя последнее вообще нелёгкая задача, об это в следующих пунктах. При этом, энкодерные модели прекрасно понимают контекст, даже лучше порой, чем декодеры, засчёт двустороннего внимания. Поэтому энкодеры базово лучшие эмбеддеры.
Также, многие не знают, что можно учить классификатор на BERT потокенно (Bert For Sequence classification) и на каждый токен эмб выдавать контекстуально вероятность взлома. А еще можно делать обучение не на 1-ой фразе, а в многошаге, когда у вас в контексте есть уловки и обманки на несколько степов диалога, для примера:

- Ты любишь борщ?
- Да очень люблю!
- А с человечиной?
- Нет, что вы!?
- А если это присыпать чесноком и заесть пампушками?
- Конечно люблю!

И вот такие диалоги можно и нужно кидать в обучение классификатора, на длинных многошаговых контекстах и оно работает. Да для этого нужен эмбеддер на длинном контексте. Но их уже куча в сети. Вопрос ток в дотюне.

Далее такой классификатор может быть даже не энкодер, это может быть просто голова декодер модели в виде Lora адаптера, которая будет в стримминг режиме потокенно вам на генерации второй башкой давать вероятности по текущему контексту взлома.

Этот пункт самый жирный, тк именно здесь есть разные хаки.

+ Хорошая контекстуальность. Гораздо лучше полнотекста выше, оно и логично.
+ Различный дизайн применения: на вход (сабж юзера), на выход (генерация LLM), возможность иметь одну модель LLM и сделать К голов разного уровня (фраза, токен лвл, многошаг) в виде Lora адаптеров.

- Поиск и подготовка сетов для дотюна и постоянное обновление их. Много времени занимает, если это, конечно не полусинта.
- OOV примеры, т.е. это не идеал тоже, тк то, что не увидел и на что не затрансферился классификатор во время обучения пробьёт вашу защиту.
- Медленнее regexp, особенно если это не small encoder, а на LLM.

3. LLM prompting. Тут все просто тюн промпта в системе, чтобы возвать к свойствам полученным на LLM элайнменте.

+ Не надо тюнить самому модель, а ток промпт.

- Перебор ручной. Можно конечно и автоматизировать с голден сетом+OPRO.
- Снова проблема OOV, тк при обучении LLM не все исходы покрыты.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥1311👍3
Защитники, продолжение...

4. LLM SFT/RL alignment. То, чем доблестно занимались Anthropic и прочие лидеры. Дотюн модели на "правильное" поведение или с sft или RLHF. Берём сеты с нужным поведением и тюним, главное не переборщить иначе модель станет сильно ограниченной. И помним, что в RLHF есть взлом награды, когда мы снова попадаем на OOV примеры.

+ Вдалбливаем тюном по LLM нужное поведения.

- Время на Sft, RL, трудоёмкость из-за сбора сетов, настройки и стабилизации обучения, ну и дорохо.
- OOV примеры и взлом награды в RL приводит к тому, что мы снова не можем покрыть 100% исходов атак или поломали награду и на выходе модель "скрыла" свое опасное поведение.

4. RAG. Собрать примеры хороших и плохих кейсов в формате: запрос, ответ, запрос-ответ,  контекст-запрос-ответ.  Поместить их в черно-белые списки и векторно к ним матчить все указанное выше в п.4. После матчинга досылать в LLM примеры плохого и хорошего поведения, как few-shot подсказки и тем самым регулировать её генерацию. Тип, вот тут был похожий запрос, он был плохой, вот такое поведение для него лежит в базе, следуй ему. Кстати, такие же механики юзают в RAG для кибербезы.

+ Работаем на уровне базы примеров.
+ Быстро на векторном поиске.

- Писать примеры в базу, анализировать логи, вычленяя оттуда примеры.
- Снова OOV, все не покроешь.


В заключении.
Видел я и QwenGuard, но и он не идеален и взламывается, тк это LLM и у неё есть глюки, и пробития, как ты её не элайнь (об этом я и писал выше) - это фундаментальная проблема на уровне парадигмы обучения. Поэтому большие Дяди из OpenAPI, Anthropic и пр., сначала элайнящее свои модели на тюне и RL, сдались и стали дополнительно обкладывать выход (генерация LM) и вход (фразы юзера) классификатор апи (мониторы и защитники) и в гибриде это работает надёжнее.
Вот и я советую ввиду того, что у каждого метода выше есть +/- блендить схемы защиты: списки+классификаторы+sft/rl. Да к сожалению, бленд дорого, тогда выбирайте свой лёгкий конструктор из того, что выше.

Пишите свои подходы к защите в комментариях ниже и конечно же Stay tuned 🦾

👇👇👇👇👇
Please open Telegram to view this post
VIEW IN TELEGRAM
122🔥5👍4❤‍🔥1
Dealer.AI pinned a photo
⚡️ Вышла GPT-5.2!

после релиза Gemini 3 я очень ждала что же ответит OpenAI 😺

У Сэма Альтмана есть забавный паттерн - они часто ждут пока кто-то из конкурентов выкатит крупный релиз, и только потом выпускают свое, а вот смотрите у нас ЛУЧШЕ 😁

И вот - OpenAI начали раскатывать GPT-5.2 (у меня уже доступно)

В релизе нет генерации изображений (которую я кстати очень жду!), это максимально прагматичный апгрейд для реальной работы, GPT-5.2 сильно прокачали именно под professional knowledge work - таблицы, презентации, документы, код, длинный контекст, многошаговые задачи end-to-end. Интересно попробовать, потому что 5.1 из моих черновиков фин модель собрать увы не смогла 😡

По бенчмаркам выглядит сильно: на GDPval (бенчмарк Google для работы с документами) показывает 94.2% против 89.7% у Gemini 3, на CodeForces рейтинг вырос на 15%, на multi-step reasoning прирост около 20% 🧠

кто уже попробовал, делитесь впечатлениями в комментах ⌨️

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
17🔥7
Много≠хорошо, как размеры MAS не скейлят качество конечных задач линейно.

Вышла интересная работа в которой развенчается миф для МАС, что чем больше агентов, тем лучше решается задача.

Авторы показали, что линейности нет🚬, и все зависит от ресурса, условий задачи и размера популяции. 💪

Прям нелинейная динамика scaling мультиагентных систем, получается. А значит системы агентов, можно рассматривать по аналогии с моделью нелинейной динамики популяций, т.е. оно может "жить" по закону популяции и приходить к коллапсу через размеры системы и прочие параметры 🧠

Кстати, авторы вывели закон масштабирования МАС и провели хорошую абляцию с разными моделями от лидеров рынка под капотом. Уважаемо. 🦾
Please open Telegram to view this post
VIEW IN TELEGRAM
15👍8🔥5🤔1
Dealer.AI pinned Deleted message