Dealer.AI

Разработчик из Google поделился кукбуком по созданию ангентов.

У нас было 400 страниц, две ветки проекта, семьдесят пять ампул reasoning step, пять пакетиков кристально чистого SGR, солонка, наполовину наполненная function calling, и целое море разноцветных chat template injection, tool execution и прочих примесей. А также литр persistent context, литр clarification prompts, ящик adaptive planning, пинта чистого structured output, и двенадцать пузырьков report completion. Не то, чтобы всё это было категорически необходимо для запуска пайплайна, но если уж начал собирать Google мануал по созданию ангентов, то к делу надо подходить серьёзно.(с)

——————————————

👍27🔥10❤6😁4🤔3🤩1

5.47K viewsedited 08:38

Dealer.AI

Узнай свой LimiX – новый топовый tabformer для шатания таблиц.

Предыстория..
Дядя тут на днях получил uplift'ом по ~~оралу~~ самооценке и пошел вспоминать базу. Все же и kaggle master, и таблицы когда-то на работе шатал от оттока до временных рядов. Конечно, проштудировал NBA, churn и даже в VBP залез. И тут, мой друг, который на этом собаку съел, да еще и мой тиммейт по кагглу, кинул мне новую статью про сетки на табличках.
Разумеется, думаю, интересно, ведь есть же жизнь за пределами логрега, бустинга и tabformer. Вдруг, что нового придумали.

Статья.
В общем, статья про очередной tabformer супер макс про плюс - LimiX.

Архитектура. Че уж, на дворе 2025 год, трансформеры всему голова. Но это не точно. Поэтому да, тут табформер на той же архитектуре. Представления табличных фичей и таргета превращаются в "токены" с последующим вложением их в эмбы. Что может из себя представлять токен? Если у вас транзакционная база, то последовательность транзакций может быть нарезана окном по времени и представлять собой seq2seq вектора, также можно иметь "сводную" транзакцию со всеми фичами приклеенными по времени и id и получаем тоже вектор фичей. Но тут уже 1 транзакция это вектор из К склееных фичей, а не нарезка транзакций с окном К. А еще эмбеддить очень удобно категориальные фичи без прямого кодирования. Также ранее было модно использовать для создания эмбов категорий DCN сетки.

Претрейн. Обучение представлено в виде мультитаска. Имеется, как задача восстановления замаскированных признаков, ака заставить модель восстановить как будто пропуски в данных, так и задачи регрессии и классификации. Кстати, очень удобна эта тема с маскированием фичей, можно за счёт этого и автоматом фичи от шума и пропусков чистить и связи неявные между ними выучить в блоке внимания. Красиво придумали. Такая вот умная интерполяция, как задача "языкового моделирования" для табличных данных.

Для примера, в классических подходах вы восстанавливаете пропуски в данных при помощи:
1. Банального дропа строк с пропусками, если % их от выборки мал (1-10%).
2. Повторить предыдущее значение (если растянуто во времени) для рядов.
3. Среднее, мода и т.п. способы восстановления в окне.
4. Задача интерполяции - восстановление значений внутри ряда, по имеющимся точкам.
5. Еще более "умное" предсказание пропусков, через смену задачи. Представим, что у вас фича становится целевой переменной, берем фичи без пропусков. Кстати подумайте, можно ли тартег исходный юзать тут как фичу? Ответы пишите в комментариях. Далее учим модель на фичах этих предсказывать фичу-таргет с пропусками. Далее пустые значения мы восполняем такой моделью, как будто бы это тестовый сет. Проделываем так для всех фичей с пропусками. И да для тестового сета можно также восстановить пропуски. Работает ли? Иногда да. Однако, появляется проблема мультиколлениарности, тк каждый пропуск зависит от др фичей, мы ж на них модель сделали и на основе ее предсказали. Да если модель интерполяции не регрессия, мультиколениарность нелинейная, но все же.

Вернемся к статье. Помимо задачи восстановления пропусков в фичах и классик задач регрессии/классификации, есть и задача экстраполяции т.е. генерации продолжения ряда/таргета.
Т. к. это еще и foundation model для табличных данных, то тут также как и у LMок требуется задача претрейна. Для этого авторы научились генерировать синтетику с помощью DAGов в их ETL пайплайнах.

Процесс генерации данных проходит в три этапа: построение DAG, выборка набора данных и адаптация задачи.

На первом этапе создают различные локальные причинно-следственные структуры (LCSS), каждая из которых кодирует различные причинно-следственные зависимости. Затем эти LCSS соединяются между собой в соответствии с предписанной процедурой для формирования полной базы данных. Для построения графа используют как корреляции, так и распределения фичей, наблюдений, таргета и их взаимосвязи. Подробнее читайте в статье.

В итоге, репортят топ метрики, хорошую устойчивость (что очень важно для задач кредитного скоринга и др.), а также отличные возможности к восстановлению выбросов.

🔥8🤔5❤4👍1👌1

4.37K views07:01

Dealer.AI

Архитектура модели.

3.78K views07:02

Dealer.AI

Генерация синты.

3.76K views07:02

Dealer.AI

Эмбы наблюдений после предобучения.

3.33K views07:02

Dealer.AI

Узнай свой LimiX – новый топовый tabformer для шатания таблиц. Предыстория.. Дядя тут на днях получил uplift'ом по оралу самооценке и пошел вспоминать базу. Все же и kaggle master, и таблицы когда-то на работе шатал от оттока до временных рядов. Конечно…

LimiX продолжение...

Помимо метрик показывают красивые эмбы с tsne в сравнение с другими моделями конкурентами.

От себя дополню, что на моей практике и практике некоторых коллег, такие модели стоит заводить в самом конце, как меру последней надежды. Обязательно при наличии больших объемов транзакционрых и др. данных, чтобы не мучаться с синтой. Да и генерализация происходит точно также как у LMок на биг датке. Зачастую, хорошо подготовленный пайп с фичами + бустинг не уступает таким моделям, но значимую долю по Gini в качестве инкремента получить можно, если вы уперлись в потолок с бустингом. А как считать с этого бабки мы знаем.

Всем успехов и хороших выходных. ✌️

Хабр

Цена качества модели: как метрики качества модели машинного обучения влияют на финансовый результат

Описание проблемы При создании любой модели машинного обучения всегда возникает вопрос оптимального соотношения цены и качества. С одной стороны data scientist-ы всегда стараются построить максимально...

👍7🤔3🔥2

3.81K viewsedited 07:05

Dealer.AI

Мнение OpenAI про галлюцинации на пальцах.

Вышел блогпост про видение некоторых причин галлюцинаций от OpenAI.

Основные пункты:

1. Парадигма обучения и методика оценки поощряет неуверенность генераций и стимулирует угадывания. К примеру, модели лучше сгенерировать токены которые дают малую долю качества, чем получить "0" в оценке. А бенчмарки в свою очередь дают оценки не в степени уверенности, а в шкалах верно/не верно.

2. Как следствие нужно изменить и подход к оценкам, так и искать пути решения проблемы в рамках дизайна обучения. Перестать поощрять угадывание, если говорим о тестах. Осторожная работа с подходом к предварительному обучению от лосса, до capacity модели. Тут Дядя предлагает, хотя бы переиспользовать вместо метода максимального правдоподобия его модификацию в виде focal loss. Которая штрафует за неуверенность в ответах. А если уж хочется перейти к 0/1 вон вам RL pretrain или RTD.

3. На 100% победить галлюцинации даже с масштабированием обучения и моделей невозможно. Даже с CoT, даже с test time inference scaling. Спасибо кэп.. Тут хоть не буду каждую лекцию про ИИ об этом говорить, наконец-то просвещение в широкие массы пошло через OpenAI.

4. Остается все еще проблема формализации "я не знаю". Как научить модель самой определять степень уверенности. Кстати, Дядя об этом писал тут.

tldr. Ничего нового не узнал, чисто обзор для среднего юзера/менеджера. По фразе "галлюцинации" в моем канале можно увидеть несколько постов об этом и лучше погрузиться в проблему.

Openai

Why language models hallucinate

OpenAI’s new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, honesty, and safety.

👍16❤4

4.3K viewsedited 13:11

Dealer.AI

5000 строк твоего типичного mood'а.

Syncora.ai выпустила датасет об усталости и выгорании разработчиков. Каждый из 5000 примеров – это один рабочий день. Важно, что датасет синтетический и получен при помощи эмуляций в системе syncora.ai. Это позволяет с одной стороны не думать об утечках,а с другой проводить открытый и свободный анализ.

Датасет призван помочь оценить эмоциональное состояние и нагрузку на разработчика в разных режимах работы. Его можно использовать для hr-аналитики, обучив модели машинного обучения предсказывать состояния выгорания и оттока, а также детектировать спад продуктивности. Дядя бы еще отметил возможность использования этих данных для создания собственной агентной системы эмуляции поведения разработчика в разных режимах работы. Эта агентная система могла бы помочь моделировать разные исходы продуктивности и предупредить выгорание сотрудника в зависимости от состояния среды/рабочих процессов.

Основные фичи датасета в себя включают:

- Часы фокуса (focus_hours) — часы непрерывной глубокой работы.
- Количество встреч в день (meetings_per_day).
- Среднее количество строк кода, написанное за день (lines_of_code).
- Количества коммитов в репозиторий (commits_per_day).
- Процент завершения задач за день (task_completion_rate).
- Уровень эмоционального выгорания (reported_burnout, где 0 означает низкий уровень, 1 — высокий).
- Время, потраченное на отладку (debugging_time).
- Сложность используемого технологического стека (tech_stack_complexity).
- Наличие парного программирования (pair_programming).
- Итоговая оценка эффективности разработчика (productivity_score).

В общем, впечатляет, надеюсь, не окажется синтетическим мусором и будет полезен для энтузиастов. Stay tuned. 🦾

🤖

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - syncora-ai/Synthetic-AI-Developer-Productivity-Dataset: High-fidelity synthetic dataset capturing AI developer productivity…

High-fidelity synthetic dataset capturing AI developer productivity metrics — including focus hours, task completion rates, and burnout indicators. Privacy-safe, ideal for ML and workflow analytics...

❤18🤔6🔥4👍1😁1

4.7K viewsedited 15:13

Dealer.AI

Новый быстрый REFRAG — не очень сильно-то и хотелось.

Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩

Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п. Святые люди да? 🧖

Поэтому, конечно, давайте все нафиг усложним.

😌

Итого, идея:

1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.

2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п. Опа, плюсуем модельку в пайп.

🗒

3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать. Ну и опа еще одна моделька в пайп.

🗒

4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.

5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.

Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, лан через ее фриз и доп адаптер, но поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.

И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.

Статья тут.

Please open Telegram to view this post

VIEW IN TELEGRAM

24👍30🫡8❤1

10.2K viewsedited 17:46

Dealer.AI

Новый быстрый REFRAG — не очень сильно-то и хотелось. Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩 Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная…

😁33

5.26K views17:51

Dealer.AI

В этот день, помимо ДР 💃 админа, мы еще приготовили и вам ~~подарок~~ соревнование по памяти для LLM. 🥳

Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые руки, только хардкор.

Приглашаем к участию.)

https://dsworks.ru/champ/aij25-memory

А чтобы вам было не так больно, читаем, что Дядя понаписал: тут и тут. Ну и в целом, ключевое слово в поиске канала "память".
Успехов, и с ДР меня. 😁

Please open Telegram to view this post

VIEW IN TELEGRAM

dsworks.ru

GigaMemory: global memory for LLM | GitVerse AI Cup

Long-term memory for the language model

🤩28👍22❤13🏆2🫡2🦄2

5.03K viewsedited 09:50

Dealer.AI

У нас тут осень крепчает, будьте осторожны.

#meme

1❤30😁26🆒3🫡2

8.95K viewsedited 08:35

Dealer.AI

У нас тут осень крепчает, будьте осторожны. #meme

Продолжаем.

#meme

Господа, не надо так.

😁23❤2🤔1

4.46K views09:29

Dealer.AI

Ладно, пошутили и хватит. Сегодня у моего товарища, того, кто на самом деле, стал моим первым наставником в metric-learning, вышло интервью про qdrant на красной кнопке. Андрей, спасибо,что когда-то познакомил меня с c-dssm и мы затащили хак. Уже тогда было ясно,что ты далеко пойдешь. Ну и за qdrant тоже спасибо, комьюнити думаю поддержит.
Ах, и да, инвайт в хабр тоже сделал мне Андрей.

Эх, чет Дядя после др сентиментальный. 😢

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥44❤1

5.12K viewsedited 13:47

Dealer.AI

Dealer.AI pinned «В этот день, помимо ДР 💃 админа, мы еще приготовили и вам подарок соревнование по памяти для LLM. 🥳 Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые…»

16:14

Dealer.AI

Ты следующий

GPT-5

🇨🇩

Новая модель Qwen3-Next...

Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже.

Итак, погнали. Задача, которую решают авторы, заключается в кардинальном повышении эффективности LLM, как на этапе обучения, так и на этапе inference, особенно в условиях сверхдлинного контекста (до 256K+ токенов) и большого общего числа параметров.

Конкретные цели:

– Преодолеть квадратичную сложность стандартного внимания (Attention), которое становится "бутылочным горлышком" для длинных контекстов. Для этого и юзают хаки из Mamba2 архитектуры.

– Сочетать преимущества разных архитектур (линейное внимание для скорости, стандартное внимание для точности) в одной гибридной модели. Туда же в Mamba.

– Добиться максимального уровня сжатия активируемых параметров в архитектуре Mixture of Experts (MoE), чтобы при общем размере в 80B параметров активировалось всего ~3B (т.е. 3.7%), что резко снижает вычислительные затраты.

– Создать модель, которая по производительности будет сопоставима с их же гораздо более крупными и дорогими флагманами (Qwen3-235B) и лучшими закрытыми моделями (Gemini 2.5 Flash, GPT-4o), но при этом будет невероятно эффективной.

Идея алгоритма и ключевые архитектурные "инновации":

Суть алгоритма заключается в принципиально новой гибридной архитектуре под названием Qwen3-Next. Её ключевые компоненты:

1. Гибридный механизм внимания (Gated DeltaNet + Gated Attention): 75% слоев используют Gated DeltaNet – вариант линейного внимания, который имеет почти линейную, а не квадратичную сложность. Это обеспечивает высокую скорость работы с длинными контекстами. Остальнве 25% слоев используют Gated Attention – модифицированное внимание с выходными гейтами для стабильности и улучшенными головами (256 dim). Это отвечает за высокое качество и способность к "вспоминанию" информации.
2. Частичное Rotary Encoding: Позиционное кодирование применяется только к первым 25% измерений, что улучшает экстраполяцию на более длинные последовательности.
3. Сверхразреженная архитектура MoE:
– Всего экспертов: 512.
– Активируется за шаг 10 экспертов + 1 shared эксперт.

Соотношение параметров: 80B общих параметров, но активируется только ~3B (3.7%) на один токен. Это в 10 раз меньше, чем у плотной модели Qwen3-32B.

Оптимизации для стабильности обучения:

1. Zero-Centered RMSNorm: Замена LayerNorm для предотвращения "взрыва" весов. А с другой стороны за счёт квадратичности имеем быстрее сходимость.

2. Нормализация параметров маршрутизатора экспертов обеспечивает равномерное использование их на ранних этапах обучения.

3. Многотокенное предсказание (Multi-Token Prediction, MTP). Модель предсказывает несколько последующих токенов одновременно. Это не только ускоряет инференс через механизм Speculative Decoding (где эти предсказания используются как "черновик"), но и, по заявлению авторов, улучшает общее качество модели.

В общем-то и всё. Наконец-то пошел тренд на использование опыта mamba архитектур. Причем у меня в канале уже был обзор гибрида трансформеров и mamba, читаем подробнее тут.

Интересное решение, заявляют хорошие метрики, будем посмотреть.

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥31👍10❤4❤‍🔥1

5.88K viewsedited 19:58

Dealer.AI

Ты следующий GPT-5 🇨🇩 Новая модель Qwen3-Next... Забавно, что в блоге утек обзор, но ссылку почистили и поэтому довольствуемся hf релизом. Однако, спасибо коллегам, они засейвили страничку и приложу ее ниже. Итак, погнали. Задача, которую решают авторы,…

Qwen.mht

3.8 MB

Вот вам сейв)

Открывайте в браузере.

🔥8

5.44K viewsedited 19:58

Dealer.AI

Dealer.AI pinned «Mamba, Jamba, Ху...Hymba!🤣 NVIDIA представило новую гибридную модель Hymba (Химба, а не то,что ты подумал). Как известно, SSM модели имеют свои архитектурные преимущества по отношению к трансформерам. На самом деле одно преимущество - линейная сложность…»

20:03

Dealer.AI

Цитата дня:
Есть люди, которые с помощью ChatGPT собирают детекцию объектов на yolo, а потом говорят, что ds не нужны. А на самом деле, ds действительно не нужны, чтобы делать такие элементарные задачи(с) 🧠

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁50🤣13💯5🔥2👨‍💻1🫡1

5.7K viewsedited 06:12

Dealer.AI

Dealer.AI pinned a photo

09:10

Dealer.AI

Forwarded from Neural Kovalskii

SGR Deep Research v0.2.0

Один из самых крутых подарков на мой др сегодня, еще вчера был др у моей Жены, так совпало что у нас разница в один день мы две дико разные Девы =)
Она, кстати, главный спонсор запятых в моих постах

Спасибо всей команде sgr что принимает участие в разработке core ядра для последующего тестирования.
Архитектура и основная реализация в коде - Артём

Ревью, код и идеи с организацией проекта - Павел

Ревью, инфраструктура и идеи с организацией проекта - Михаил

- Определили базовые сущности агента, его тулов
Выделили три основных этапа: reasoning, select_action, action
- Собрали 5 агентов, разных по принципу работы, добавили их в api
- Структурировали логирование работы агента
- Внедрили и затестили вебсёрч на базе бесплатного движка
- Пересмотрели организацию библиотеки, провели множество улучшений в коде

Как сказал наш NLP Lead
«SGR это как ReAct агент с вайбом декларативного агента»

Нас ждут тесты тем временем sgr-deep-research набрал 400+ звезд я уже получаю фидбек что данный подход начинают применять в крупных РФ компаниях

Напомню что наше дело лишь демонстрация еще одного инженерного подхода, на прорыв и истину мы не претендуем

Если вы хотите поблагодарить команду SGR, ускорить разворачивание постоянного доступа к агентам я решил сделать сбор на сервер с 5090 который расположу в своей северной

Репо: https://github.com/vakovalskii/sgr-deep-research

❤17👍13🤣5🙈2

5.13K views15:10

About

Blog

Apps

Platform