Дата канальи — про «специалистов» в данных / ML / AI
5.81K subscribers
252 photos
8 videos
15 files
236 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#ML

Флешбеков пост // можно скипнуть если хочется сути — суть «на пальцах» вынесу в следующий пост

Прежде чем постить очередной набор корпоративных кейсов и историй с собеседований, как заведено в канале, расскажу про несколько забавных связей.

В опросе я обещал рассказать про семантические айдишники в рекомендашках и VQ/RQ-VAE.

Но, как водится, вместо объяснения на пальцах (будет постом-двумя ниже), захотелось уууух — найти что-то похожее в других кусочках ML.

Например, выше в моей лекции по RAG есть слайд про Product Quntization (PQ, слайд 85)

Названия PQ / VQ / RQ / AQ чем-то похожи, не правда ли? (Q значит квантизация)

PQ — product quantization
VQ — vector quantization
RQ — residual quantization
AQ — additive quantization


И тут в голову полезли нехорошие мысли — почему вариационный автоэнкодер (VAE) именно вариационный?

Несколько лет я рассказываю студентом его устройство (и заодно про VGAE —Variational Graph Auto-Encoder), даже в блиц включил вопрос про backprop градиента через слой со случайным сэмплированием (reparametrization trick), а дежавю словил только сейчас.

Почему дежавю: в университете меня учили геофизике и сейсморазведке, в тч некорректным задачам геофизики (байессовский / вариационный вывод, регуляризация по Тихонову и Ляпунову, решению интегральных уравнений и пр и пр и пр ) и отдельно вариационному исчислению — (оба курса вроде годовые если не путаю).

С другой стороны, вариационный автоэнкодер.

Совпадение? Вот и я так не подумал.

Если совсем коротко, вариационное исчисление изучает функционалы: функции, которые сопоставляют функции (на части диапазона значений или на всей области определения) число.

Например,

Сейсморазведка: найти оптимальную траекторию луча (нормаль к фронту волны в геометрической теории волн) среди всех возможных траекторий, вдоль которой время прохождения луча через неоднородную среду будет наименьшим.
Время — функционал, траектория — функция

Или
VAE: найти оптимальную аппроксимацию апостериорного распределения латентной переменной среди заданного семейства распределений, при котором вариационная нижняя граница правдоподобия (variational lower bound — ELBO) будет наибольшей

На этом совпадения не заканчиваются.

После защиты кандидатской я занимался обработкой сигналов (signal processing) в Яндекс.Терре (сейчас Сейсмотек с другими собственниками), а в обработке сигналов есть очень похожая на RQ идея — matching pursuit: жадное разложение сигнала по словарю с вычитанием остатка (что концептуально очень близко к residual quantization) — и вот для разнообразия, ссылка не на архив а на NASA.

Идея в том чтобы разложить сигнал на элементарные (хотел написать функции, но все же нет) составляющие — то есть повторяющиеся элементы (видели зубцы на ЭКГ?).

А кремлевскую стену видели? Если вот эти замысловатые зубцы вычесть — будет стена как стена, ровная — вот мы и разложили «сигнал Кремля»: ровная стена + зубцы

Например:

преобразование Фурье представляет сигнал как взвешенную сумму базисных гармонических функций (синусов и косинусов или только синусов или только косинусов — как захотим)
вейвлет-преобразование — раскладывает сигнал на сумму вейвлетов (семейство функций, которые мы выбираем заранее сами)
чирплет преобразование — еще более общее семейство функций (когда и частота внутри такого элементарного кусочка не постоянна) — кстати, в той статье я попал в англоязычную вики на радость маме
и тд — интегральных преобразований достаточно много все же

Итак, кажется, начинает вырисовываться структура следующего поста:

— что такое RQ (residual quantization) и при чем она здесь — и как matching pursuit + product quantization до боли похожи на RQ
— что такое вариация функционала и при чем она здесь (зачем V в VAE), причем здесь физика
— как это ловко превращается в RQ-VAE и что он умеет
— причем здесь семантические айдишники и зачем нужна токенизация вне NLP

PS
Пока писал вспомнил еще что и KLT и PCA — одно и то же, но об этом в другой раз
230🔥17👍5👏2
Полистал программу из поста
Парни тоже уповают на кейсы реальных внедрений ML/AI (ну или фэйлы — на конфах про них не расскажут, а после лыж в баре — вполне).
Ждем от них тоже огненных корпорат историй?

Если в трех словах (как я вижу) — агенты, платформы, катание 😄

Шучу, там больше и интереснее — как налутать бабла с рекомендашек например — или как реально внедрили агентов в Лавку
В общем, выглядит сочно, рекомендую
1👍7🤣4
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion 2026!

Шестая конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

В программе — 60+ сессий по анализу данных, DS и ML: ИИ-агенты, RL, CV, NLP, Open Source, робототехника, рекомендательные системы, AI в кибербезопасности и другие темы.

Конференция объединит ML-лидов, DS-специалистов, ученых, инженеров и аналитиков — и станет площадкой для знаний, идей и нетворкинга.

➡️ Регистрируйтесь ⬅️

А еще на конфе будет награждение победителей годной олдскульной соревы про суперпрактичсекие задачи: антифрод / NBO / логистику.

Сорева все еще идет!

Ниже их анонс:

Ежегодное соревнование по машинному обучению Data Fusion Contest 2026. Общий призовой фонд — 3 000 000 рублей.

Формат — онлайн: участвовать можно из любой точки мира (прим мое — но приз могут получить только граждане РФ).

В этом году участникам предстоит решить 3 задачи:

«Страж» — про вычисление подозрительных операций в банке
«Киберполка» — про подбор нужных финансовых продуктов из 41 варианта
«Герои» — про создание идеальных маршрутов с учетом времени

PS

Церемония награждения будет , буду рад со всеми увидеться 👌
1👍115🤣5
#ML

В прошлом посте обещал рассказать на пальцах суть RQ-VAE и семантических айдишников в рекомах.

Когда написал пост понял что надо сказать важную штуку: табличные автоэнкодеры работают когда объекту уже представлены векторами, то есть у товаров (например) уже есть эмбеддинги (из другой какой-то модели, например, коллаборативный или текстовой) и мы хотим получить новые, с какими-то желаемыми нами свойствами.

Если просто уменьшить размеренность с минимальными потерями — возьмем ванильный табличный автоэнкодер

Обычный VAE отличается от ванильного табличного автоэнкодера только одним — нашим желанием задать распределение (обычно мнгомерное нормальное, за этим есть теоретическая база — но не будем здесь) получающихся эмбеддингов — и достигаем мы это максимально в лоб — прибавкой в лосс: к точности восстановления исходных векторов (обычный MSE между входом и выходом) мы добавляем степень похожести получающегося распределения эмбеддингов на нормальное (KL loss, например, для графового VAE здесь)

Ничего, кстати, не напоминает?

То есть:

Ванильные AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss).
Вариационный AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss). + чтобы эмбеддинги выглядели как выборка из заданного распределения (KL-лосс).
Буковка V (вариационный) указывает на то что мы будем искать такое распределение чтобы KL-лосс был минимальный.

Задача поиска функции распределения при которой функционал, получающий на вход эту функцию распределения (в нашем случае это как раз KL-лосс), достигал экстремальных значений это вариант задачи оптимизации — и в оптимизации мы часто для поиска экстремума зануляем производную. У функционалов производная называется вариацией, вот ее и зануляем, что дает название автоэнкодеру.

VQ/RQ-VAE: учим сжимать данные так, чтобы потом их восстановить + чтобы эмбеддинги были дискретными токенами.

Как мы этого достигнем?
Можно взять набор опорных векторов (в VQ-VAE) — он называется кодбуком — и для каждого входного вектора заменять его на ближайший вектор из кодбука (схема очень напоминает разложение по базису — но не требует создания базиса со всеми его ограничениями).

А можно приближать вектор по частям, добавляя опорные векторы по очереди.:
Первый ближайший опорный -> записали
Взяли разность входного и первого ближайшего опорного — получили остаток (Residual — буковку R в RQ), это тоже вектор — нашли ближайший из опорных уже к нему -> записали
и тд, как в matching pursuit в обработке сигналов.

В итоге на любой входной вектор получим цепочку таких опорных векторов.
Теперь каждый опорный вектор заменяем его номером в кодбуке и любой входной вектор превращается в последовательность дискретных токенов.

Невероятно сильно напоминает токенизацию в NLP.

Если кодбук содержит, например k = 256 векторов, а последовательность состоит из L токенов, то уникальное число комбинаций будет k^L.
Например, 4 токена достаточно чтобы закодировать 256^4 ≈ 4.3 млрд уникальных векторов (например, разных товаров).

А как такое добавить в лосс (quantisation loss) — уже дело техники.

И очень полезная для инференса штука: близкие вектора по построению получают похожие последовательности токенов.

Например:

item A → [12, 87, 5, 41]
item B → [12, 87, 6, 39].

Более того, ANN иногда вообще не нужен — ближайших можно искать просто по совпадающим токенам.

UPD
Замотался и забыл:
Парни навайбкодили целую либу sematic id, потестили — и работает!
Будут рады если кто-то еще потестит
1🔥218👍6😱1🐳1
Вот так выгдядит полка с реккомендациями и их explanations здорового библиофила (или человека, идентифицирующего себя как библиофила)
1🔥21🤣125
Никто кроме нас😄
1🤣33😁17🤩62👍1
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, примеров, дискуссий по теме анализа данных/ науки о данных/ машинного обучения. Среди тем – ИИ-агенты, «обучение с подкреплением», компьютерное зрение, обработка естественного языка, открытый исходный код, воплощенный ИИ и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, ИИ+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидеров команд по машинному обучению, специалистов по обработке данных, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради живого общения и новых знакомств, а это важная часть Data Fusion!

Не пропустите, регистрируйтесь.

*Интеграция данных
Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
110
В комментах попросили показать как выглядят explanations на полке — думаю, здесь должа цеплять не суть, а то что они написаны от руки сотрудниками магазина
2🔥19
#корпжиза

В банках, как правило, продажи в корпорации происходят по старинке — клиентским менеджером (КМ) в бане / на рыбалке / в сигарном клубе etc. Потому внедрения ML идут не так быстро и имеют ряд особенностей.
В отличие от розничных продаж где речь о миллионных сегментах и конверсиях в доли процента, в корпах каждая сорвавшаяся сделка (даже если на этапе самой первой коммуникации с клиентом) — это боль.

Поэтому при негативном исходе собирают два фидбека: клиентский менеджер (КМ) заполняет почему он лид не продал — и там встречается много инсайтов для доработки продукта, подробнее в посте выше. А вот фидбек клиента собрать сложнее — его же не заставишь в конце концов.

И ровно об этом несколько недель назад прислал историю анонимный подписчик.

Итак, решили с помощью LLM разметить последние диалоги в чатах КМ-клиент на тематики (заданные).
Пошли согласовывать (это ж банк, меньше 30 согласующих не бывает), среди согласовывающих, как водится, кибербезопасность.

Комментарий безопасника к отказу от согласования:

«Не могу согласовать из-за пропаганды лгбт. Вы не имеете права обрабатывать информацию содержащую пропаганду лгбт»

😱

Что было причиной?

Все оказалось предельно просто — счастливый клиент в чате клиентскому менеджеру написал просто и емко «пидорас».

И вот пришлось DSам с безами на серьезных щах развилки обсуждать -- как доступ к данным все же получить.

PS: понятно, что такие фидбеки очень ценные — так как аффектят метрики оттока и удовлетворенности, да и замена КМ может привести к росту продаж больше чем модель.
1😁57🤣2210🔥5👍1
у попа была собака ...

stop-slop

ждем stop-stop-slop и stop-stop-stop-slop
1😁29🔥10🙊1
#ML

Самая жесткая проверка хардов 😄

В чатах пугают что тех собесы стали какими-то невероятно сложными, но мне прислали такое:

Проходил 3-й этап в один банк на лида (на нем, кстати, 2 лида передавали тебе привет), как и говорили на предыдущих этапах — это самая жесткая проверка хардов.

Интервью идет 2 часа. По словам HR, тебе дают коллаб с данными, где нужно собрать модель, решить бизнес-задачу и параллельно рассказать всю теор. базу по тому, что ты делаешь. В итоге я подключился, мне сказали открыть коллаб и ….

и сразу открыть chatgpt, которым они настойчиво говорили пользоваться (я час просидел без него, после 5-го коммента открыл гугловский), и тут уже появился интерес проверить уровень кринжа этого собеса — далее 99% кода сгенерировал.

Им ультра зашло, и они даже ПОХВАЛИЛИ (и минут 5 обсуждали) фичи, которые я использовал. Те самые фичи, полученные промптом: «нагенери макс фичей для этой задачки».

Больше техничку у меня спрашивать не будут …
1😁55🤣189🔥6🤯1🥴1
Больше всего смеюсь с "фит-интервью": поиски "общего вайба" это примерно как поиски Святого Грааля — надо попасть в сиюминутное настроение нескольких человек одновременно

Прислали фит-интервью в ритейлер

Меня позвали на фит интервью, где мы должны были просто познакомиться с командой, а там оказался местный CDS, лид соседней команды и дэвушка под которую устраиваюсь

В итоге это было решение ML System Design на 15(!) мин и решение ультра странных кейсов вида :

«к тебе пришли к запросом, а ты считаешь, что это бред, что ты будешь делать»

я ответил, что если я убежден, что это бред, то скажу, что это бред на фактах, но в мягкой форме с пояснением того, что сначала разберусь …) - ей не понравилось)))

И я потом спрашивал про их ожидание от меня, получил ответ:

«Работать, выполнять задачи, выводить в прод решения - ниже ожидаемого. Мы ожидаем, что ты внедришься в бизнес и будешь решать то, что мы возможно еще не понимаем, что надо решить»


PS: Monty Python and the Holy Grail
1😁59🔥8🤷‍♂73💯3
Кейсы на Премию FINNEXT 2026: «CheckMateDB …


Пока все наперегонки создают флоты агентов для быстрой разработки ИИ-приложений и обсуждают переход от визуальных интерфейсов к агентским, любопытно прочитать про номинантов технологической премии в финансах

Итак, на дворе 2026й, в банке из топ-7 отказались от выгрузок (!) и на 100% сократили время ожидания данных аналитиками — ну хоть не на 146% 🤣

PS: работа наверняка важная, нужная и сложная (в забюрократизированной организации) — но современные технологии как-то по-другому видятся
1😁176🥰2👍1
#полезное

нашел на PH сервис для тех, кому приходится быть на несколько звонках одновременно — позиционируется как спасение для тех у кого много работ
1😈10😁8🔥4👨‍💻3👍1
#ML

Никогда не любил название Machine Learning Engineer, куда милее сердцу Data Sceintist — потому что оно напоминает о том что ключ к результату — данные.

Сейчас все переквалифицировались в управдомы AI-инженеры

Однако, как дело доходит до внедрения агентов и мультиагентных систем, на мой, взгляд пугающе редко поднимается тема о переработке инфраструктуры данных — для агентов все же нужны не таблички с текущим состоянием или витрины агрегатов или счетчики в онлайне — а факты, намерения, источники и надежность этих знаний, а также, например, противоречия.

Подробно порассуждал о том, какие новые требования к дата-инфраструктуре возникают, и вариантах ее реализации в самом популярном (кмк) отечественном банковском журнале.

Кстати, приглашаю к дискуссии желающих на секцию «Технологии и практики разработки промышленных Gen AI систем» конференции DataFusion 9 апреля, 16.00-17.10

Кому лень читать статью — посмотрите хотя бы на одну из платформ для хранения знаний в эпоху агентов.

PS А в том же номере в том же разделе крутая статья-обзор Александра Геннадиевича о применении LLM в рисках.
118👍11🔥5
лекцией Даши грех не поделиться
Forwarded from Red RecSys
Generative Retrieval.pdf
6.4 MB
Читала сегодня в ИТМО лекцию по Semantic IDs и Generative Retrieval в рамках курса по продвинутым рекомендательным системам.

Первый опыт, когда материал для лекции я собирала с нуля - на основе большого количества статей по теме. А сами статьи перед этим много и подробно разбирали внутри команды. Было здорово разложить наконец всё по полочкам)

Материалом делюсь
🔥30😁1