Dealer.AI
14.6K subscribers
684 photos
46 videos
16 files
715 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Челы из unsloth флексят, что у них длиннее 😏

Анслоты завезли flex attention для тюна gpt-oss на длинный контекст. 💪

Вопрос только какой у нее можно получить реально эффективный контекст. Для этого надо прогнать NoLIMA тест. Мы же понимаем разницу между long context и effective long context?)
Please open Telegram to view this post
VIEW IN TELEGRAM
11😁5
В тему моих постов про новую эру монетизации с GenAI, будет вполне полезно ознакомиться и с Customer Journey.👇👇👇
2
Software 3.0 Shopping 3.0 или как AI меняет пользовательское поведение 😆

Какое ключевое применение AI в e-commerce?
3 года назад я бы точно сказала про рекомендации и контекстную рекламу, но сейчас AI двигает рынок глубже, формируя новые подходы и пути пользователя.
Давайте посмотрим 5 разных категорий и что меняется в каждой из них согласно недавней статье a16z:


1️⃣Импульсивные (TikTok finds, fast fashion) 💥

"Hyper-optimized TikTok and IG algorithms steer purchases."

Алгоритмы становятся умнее и точнее.
Здесь все понятно, AI усиливает динамический контент и персонализированную рекламу 😎
Кстати, нтересный факт, что чаще всего такие покупки происходят ночью и с телефона 😁


2️⃣ Рутинные (кофе, шампунь, кошачий корм) 😐

"AI agent tracks prices and buys for you when the time is right."

AI постепенно превращается в закупщика: сам следит за ценой и стоком,
делает заказ, когда пора, и сообщает: "твой ежедневный айс американо уже готовят".
Это хорошо ложится на гросери сторы и регулярные покупки как например доставка еды по подписке 💳


3️⃣ Лайфстайл (одежда, косметика, аксессуары) 😎

“AI researcher finds + suggests SKUs for your needs.”

Это самый хот топик, где мы существуем с Aesty. AI собирает варианты, знает твои вкусы, тип фигуры и
предлагает персональный shortlist не 1000 вариантов, а топ оф зэ топ
Кстати, чем меньше вариантов предлагаем за раз, тем лучше конверсия 🧠


4️⃣ Функциональные (ноутбук, диван, велосипед) 💻

“AI consultant meets with you and recommends what + where to buy.”

Здесь AI работает как доменный эксперт: сравнивает бренды, объясняет разницу,
помогает принять решение и выбрать лучшее под твои задачи 🧗


5️⃣Серьезные, на всю жизнь (дом, образование) 😏

“AI coach helps… and guides you through the decision process.”

Тут конечно же никакой автоматической закупки, по крайней мере пока ты не серийный real estate инвестор.
AI помогает искать, анализировать, сравнивать, но финальное слово остается за человеком.


По мнению a16z 2, 3 и 4 сильнее всего будут меняться благодаря персонализации и более удобному поиску информации 🙌

Го 50 🔥 на этот пост и разберу 4 главных технических изменения, которые должны произойти чтобы мы могли полностью делегировать шоппинг агентам 🤑

@neural_prosecco
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥697👍5
Dealer.AI
Продолжаем про капасити эмбов LMок. Коллеги выложили препринт своей новой статьи. Была у них вот такая работа о том, что замороженные LLM могут восстанавливать тексты определенной длинны из эмбов. И Дядя уже писал об этом в рамках RAG/long context memory…
Google расчехлил исследование про эмбеддеры.

В данном исследовании авторы показывают также как и в моих постах упор в capacity векторов моделей для RAG.

Причем это соотносится с более ранним исследованием. Однако, на нашем опыте нам удавалось иметь пожималку эмба с 1024 до 400 и иметь минимальную просадку на метриках поиска для индекса в 1.1млн документов. Что показывает, что для 512 эмба до 500к можно строить индекс не совсем правда. Нужно еще учитывать не только представимость вектора, но еще и capacity модели. А еще, если мы вспомним matryoshka, когда нарезают эмбед по размерности от M к изначальной длине, при правильном обучении, срез эмба не уменьшает значимо метрики поиска. Иначе бы матрешка просто бы не работала и не была так популярна. Поэтому давайте говорить, не про представимость эмбеда, а еще об эффективности вектора. Видимо, исследование рассматривает весьма неэффективные векторные представления.

Отсюда выводы, просто нужно правильно готовить metric learning и тогда RAG в части поисковой модели будет хорош. На этом все.

Upd. И кстати, у соседей там пишут мол ColBERT работает круто ибо там не один эмб юзают и тип капасити вектора растёт в К векторов это все не так.

ColBERT хорош за счёт того, что совмещает в себе полнотекстовый и полноконтекстный поиск. И задача metric learning стоит как сведение токен эмбов попарно все со всеми у запроса и документов и поэтому это эффективно. Но для поиска всеравно использует mean pooling этих произведений скалярных эмбов. А токены итак связаны между собой и тем более с mean pooling вектором, который и рассматривает статья от гугла.
Т.е. снова мы видим просто хорошую правильную постановку metric learning.
👍239🔥7💅2💯1
Немного расслабимся. #meme дня. Ну как мем, жиза.

Как тебе такое Илон Маск?)

КНР наносит ответный удар 🤣
Please open Telegram to view this post
VIEW IN TELEGRAM
17😁9🦄2
Forwarded from commit history
Привет! 🎁📊🎒

Сделал к началу учебного года — небольшой подарок: открытый датасет 40 млн GitHub‑репозиториев.

Я давно ковыряю данные с GitHub, в том числе во время подготовки свежих задач для SWE-rebench.

И заметил, что полных публичных выгрузок с информацией по репоизториям почти нет: BigQuery даёт ~3 млн и урезанные поля; GitHub API быстро упирается в лимиты. Поэтому cобрал то, чего самому не хватало — делюсь, вдруг ещё кому жизнь упростит. Подробнее про то, как собирал можно прочитать в статье.
Если коротко, то: GH Archive → соединил события и извлёк метаданные репозиториев; срез: с 2015 года по середину июля 2025.

Что внутри
> 40 миллионов репозиториев в full и 1 миллион в sample сабсете для пробы;
> поля: язык, звёзды, форки, лицензия, краткое описание, язык описания, open issues, индекс последнего PR на дату среза, размер, created_at и др.;
> «живые» данные: есть пропуски, категориальные/числовые признаки, даты и короткий текст — удобно для EDA и учебных задач;
> Jupyter‑ноутбук для быстрого старта (базовые графики);

Ссылки.
HuggingFace
GitHub
Статья про сбор

Кому пригодится
Студентам, преподавателям, джунам — для мини‑исследований, визуализаций, поиска/кластеризации. 

P.S.
У меня не очень много знакомых, кто преподает, но будет здорово если перешлете кому-то из ваших знакомых/преподавателей/студентов кому может быть полезно!

Если будут пожелания, то пишите сюда или в лс @ibragim_bad, в свободное время добавлю новые поля, которые могут быть интересны.
31🔥5👍4
У Дяди скоро ДР и вы знаете, что ему подарить.

#meme
🔥29😁9👍7
agent_book ru.pdf
13.1 MB
Разработчик из Google поделился кукбуком по созданию ангентов.

У нас было 400 страниц, две ветки проекта, семьдесят пять ампул reasoning step, пять пакетиков кристально чистого SGR, солонка, наполовину наполненная function calling, и целое море разноцветных chat template injection, tool execution и прочих примесей. А также литр persistent context, литр clarification prompts, ящик adaptive planning, пинта чистого structured output, и двенадцать пузырьков report completion. Не то, чтобы всё это было категорически необходимо для запуска пайплайна, но если уж начал собирать Google мануал по созданию ангентов, то к делу надо подходить серьёзно.(с)

——————————————
👍27🔥106😁4🤔3🤩1
Узнай свой LimiX – новый топовый tabformer для шатания таблиц.

Предыстория..
Дядя тут на днях получил uplift'ом по оралу самооценке и пошел вспоминать базу. Все же и kaggle master, и таблицы когда-то на работе шатал от оттока до временных рядов. Конечно, проштудировал NBA, churn и даже в VBP залез. И тут, мой друг, который на этом собаку съел, да еще и мой тиммейт по кагглу, кинул мне новую статью про сетки на табличках.
Разумеется, думаю, интересно, ведь есть же жизнь за пределами логрега, бустинга и tabformer. Вдруг, что нового придумали.

Статья.
В общем, статья про очередной tabformer супер макс про плюс - LimiX.

Архитектура. Че уж, на дворе 2025 год, трансформеры всему голова. Но это не точно. Поэтому да, тут табформер на той же архитектуре. Представления табличных фичей и таргета превращаются в "токены" с последующим вложением их в эмбы. Что может из себя представлять токен? Если у вас транзакционная база, то последовательность транзакций может быть нарезана окном по времени и представлять собой seq2seq вектора, также можно иметь "сводную" транзакцию со всеми фичами приклеенными по времени и id и получаем тоже вектор фичей. Но тут уже 1 транзакция это вектор из К склееных фичей, а не нарезка транзакций с окном К. А еще эмбеддить очень удобно категориальные фичи без прямого кодирования. Также ранее было модно использовать для создания эмбов категорий DCN сетки.

Претрейн. Обучение представлено в виде мультитаска. Имеется, как задача восстановления замаскированных признаков, ака заставить модель восстановить как будто пропуски в данных, так и задачи регрессии и классификации. Кстати, очень удобна эта тема с маскированием фичей, можно за счёт этого и автоматом фичи от шума и пропусков чистить и связи неявные между ними выучить в блоке внимания. Красиво придумали. Такая вот умная интерполяция, как задача "языкового моделирования" для табличных данных.

Для примера, в классических подходах вы восстанавливаете пропуски в данных при помощи:
1. Банального дропа строк с пропусками, если % их от выборки мал (1-10%).
2. Повторить предыдущее значение (если растянуто во времени) для рядов.
3. Среднее, мода и т.п. способы восстановления в окне.
4. Задача интерполяции - восстановление значений внутри ряда, по имеющимся точкам.
5. Еще более "умное" предсказание пропусков, через смену задачи. Представим, что у вас фича становится целевой переменной, берем фичи без пропусков. Кстати подумайте, можно ли тартег исходный юзать тут как фичу? Ответы пишите в комментариях. Далее учим модель на фичах этих предсказывать фичу-таргет с пропусками. Далее пустые значения мы восполняем такой моделью, как будто бы это тестовый сет. Проделываем так для всех фичей с пропусками. И да для тестового сета можно также восстановить пропуски. Работает ли? Иногда да. Однако, появляется проблема мультиколлениарности, тк каждый пропуск зависит от др фичей, мы ж на них модель сделали и на основе ее предсказали. Да если модель интерполяции не регрессия, мультиколениарность нелинейная, но все же.

Вернемся к статье. Помимо задачи восстановления пропусков в фичах и классик задач регрессии/классификации, есть и задача экстраполяции т.е. генерации продолжения ряда/таргета.
Т. к. это еще и foundation model для табличных данных, то тут также как и у LMок требуется задача претрейна. Для этого авторы научились генерировать синтетику с помощью DAGов в их ETL пайплайнах.

Процесс генерации данных проходит в три этапа: построение DAG, выборка набора данных и адаптация задачи.

На первом этапе создают различные локальные причинно-следственные структуры (LCSS), каждая из которых кодирует различные причинно-следственные зависимости. Затем эти LCSS соединяются между собой в соответствии с предписанной процедурой для формирования полной базы данных. Для построения графа используют как корреляции, так и распределения фичей, наблюдений, таргета и их взаимосвязи. Подробнее читайте в статье.

В итоге, репортят топ метрики, хорошую устойчивость (что очень важно для задач кредитного скоринга и др.), а также отличные возможности к восстановлению выбросов.
🔥8🤔54👍1👌1
Архитектура модели.
Генерация синты.
Эмбы наблюдений после предобучения.
Dealer.AI
Узнай свой LimiX – новый топовый tabformer для шатания таблиц. Предыстория.. Дядя тут на днях получил uplift'ом по оралу самооценке и пошел вспоминать базу. Все же и kaggle master, и таблицы когда-то на работе шатал от оттока до временных рядов. Конечно…
LimiX продолжение...

Помимо метрик показывают красивые эмбы с tsne в сравнение с другими моделями конкурентами.

От себя дополню, что на моей практике и практике некоторых коллег, такие модели стоит заводить в самом конце, как меру последней надежды. Обязательно при наличии больших объемов транзакционрых и др. данных, чтобы не мучаться с синтой. Да и генерализация происходит точно также как у LMок на биг датке. Зачастую, хорошо подготовленный пайп с фичами + бустинг не уступает таким моделям, но значимую долю по Gini в качестве инкремента получить можно, если вы уперлись в потолок с бустингом. А как считать с этого бабки мы знаем.

Всем успехов и хороших выходных. ✌️
👍7🤔3🔥2
Мнение OpenAI про галлюцинации на пальцах.

Вышел блогпост про видение некоторых причин галлюцинаций от OpenAI.

Основные пункты:

1. Парадигма обучения и методика оценки поощряет неуверенность генераций и стимулирует угадывания. К примеру, модели лучше сгенерировать токены которые дают малую долю качества, чем получить "0" в оценке. А бенчмарки в свою очередь дают оценки не в степени уверенности, а в шкалах верно/не верно.

2. Как следствие нужно изменить и подход к оценкам, так и искать пути решения проблемы в рамках дизайна обучения. Перестать поощрять угадывание, если говорим о тестах. Осторожная работа с подходом к предварительному обучению от лосса, до capacity модели. Тут Дядя предлагает, хотя бы переиспользовать вместо метода максимального правдоподобия его модификацию в виде focal loss. Которая штрафует за неуверенность в ответах. А если уж хочется перейти к 0/1 вон вам RL pretrain или RTD.

3. На 100% победить галлюцинации даже с масштабированием обучения и моделей невозможно. Даже с CoT, даже с test time inference scaling. Спасибо кэп.. Тут хоть не буду каждую лекцию про ИИ об этом говорить, наконец-то просвещение в широкие массы пошло через OpenAI.

4. Остается все еще проблема формализации "я не знаю". Как научить модель самой определять степень уверенности. Кстати, Дядя об этом писал тут.


tldr. Ничего нового не узнал, чисто обзор для среднего юзера/менеджера. По фразе "галлюцинации" в моем канале можно увидеть несколько постов об этом и лучше погрузиться в проблему.
👍164
5000 строк твоего типичного mood'а.

Syncora.ai выпустила датасет об усталости и выгорании разработчиков. Каждый из 5000 примеров – это один рабочий день. Важно, что датасет синтетический и получен при помощи эмуляций в системе syncora.ai. Это позволяет с одной стороны не думать об утечках,а с другой проводить открытый и свободный анализ.

Датасет призван помочь оценить эмоциональное состояние и нагрузку на разработчика в разных режимах работы. Его можно использовать для hr-аналитики, обучив модели машинного обучения предсказывать состояния выгорания и оттока, а также детектировать спад продуктивности. Дядя бы еще отметил возможность использования этих данных для создания собственной агентной системы эмуляции поведения разработчика в разных режимах работы. Эта агентная система могла бы помочь моделировать разные исходы продуктивности и предупредить выгорание сотрудника в зависимости от состояния среды/рабочих процессов.

Основные фичи датасета в себя включают:

- Часы фокуса (focus_hours) — часы непрерывной глубокой работы.
- Количество встреч в день (meetings_per_day).
- Среднее количество строк кода, написанное за день (lines_of_code).
- Количества коммитов в репозиторий (commits_per_day).
- Процент завершения задач за день (task_completion_rate).
- Уровень эмоционального выгорания (reported_burnout, где 0 означает низкий уровень, 1 — высокий).
- Время, потраченное на отладку (debugging_time).
- Сложность используемого технологического стека (tech_stack_complexity).
- Наличие парного программирования (pair_programming).
- Итоговая оценка эффективности разработчика (productivity_score).

В общем, впечатляет, надеюсь, не окажется синтетическим мусором и будет полезен для энтузиастов. Stay tuned. 🦾🤖
Please open Telegram to view this post
VIEW IN TELEGRAM
18🤔6🔥4👍1😁1
Новый быстрый REFRAG — не очень сильно-то и хотелось.

Все как с ума посходили в соседних чатах и каналах. Смотри, новый супер быстрый RAG.🤩

Идея там у авторов еще благая, мол чанки семантически могут быть не связаны, поиск размывает информацию, квадратичная сложность внимания и т.п.  Святые люди да? 🧖 Поэтому, конечно, давайте все нафиг усложним. 😌

Итого, идея:

1. Берем крч, нарезаем текст подсказок, к примеру, на малые чанки по 16 токенов.

2. Эмбедим их любым понравившимся вам энкодером. Можно small/tiny/base и т.п. Опа, плюсуем модельку в пайп. 🗒

3. Прогоняем через модель награды. Ага, еще её бы обучить, разметку под неё где-то потратиться собрать. Ну и опа еще одна моделька в пайп.🗒

4. Хорошие по награде тексты остаются без пожатия и как есть идут в LM, а остальные передаются в виде векторов из п. 2.

5. Делаем супир пупир генерацию. Делай легче, делай играюче, кайфуй.

Суммируем: мы имеем теперь 2 модели помимо LM. Одну из них над еще обучить, разметку собрать. Далее нам еще надо помимо in-context подсказок, создать спец. токены под эмбы подсказок, неважных для политики награды. А еще нужно LM научить с таким сетапом работать, лан через ее фриз и доп адаптер, но поверьте иначе нормально не заведётся. Это как p-tune. Или как fromage для image-embs.

И что легче вам стало?)
За скорость вы заплатили +1 моделью, +1 разметкой и +2 тюнами. И так всегда. За скорость вы платите памятью, и прочими трудностями.

Статья тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
24👍30🫡81
В этот день, помимо ДР 💃 админа, мы еще приготовили и вам подарок соревнование по памяти для LLM. 🥳

Задачка не из лёгких, нужно запилить модуль глобальной памяти для диалогов. Естественно докер, естественно без доступа в инет и с запретом на API. Только прямые руки, только хардкор.

Приглашаем к участию.)

https://dsworks.ru/champ/aij25-memory

А чтобы вам было не так больно, читаем, что Дядя понаписал: тут и тут. Ну и в целом, ключевое слово в поиске канала "память".
Успехов, и с ДР меня. 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
🤩28👍2213🏆2🫡2🦄2
У нас тут осень крепчает, будьте осторожны.

#meme
130😁26🆒3🫡2