Дата канальи — про «специалистов» в данных / ML / AI pinned «Обещал вам показать самописного бота, с помощью которого готовлюсь к behavioral interview (любят в faang/maang и последователях) и заодно практикую английский. Еще хотелось понять насколько я оменеджерился, смогу ли сделать что-то минимально рабочее за пару…»
Дата канальи — про «специалистов» в данных / ML / AI pinned «#кейсы #ML Сегодня 31 декабря. Поэтому расскажу кейс о работе 31 декабря много лет назад. Горел флагманский и достаточно сложный и в плане бизнеса и плане инфры (первое внедрение в пром на спарке за историю банка, причем на паре десятков источников и с кучей…»
#ML
Foundation Models уже и сюда добрались 😱
В прошлом июне на RuCode рассказывал про FM для временных рядов.
Что следующее? Видео?
Foundation Models уже и сюда добрались 😱
В прошлом июне на RuCode рассказывал про FM для временных рядов.
Что следующее? Видео?
Telegram
Дата канальи — про «специалистов» в данных / ML / AI
#ML
На вебинаре поступил вопрос про SOTA-трансформеры для временных рядов.
В ответ пообещал скинуть сюда в канал свою июньскую лекцию на RuCode по foundation models for time series. Заодно узнаете почему соревы по прогнозированию называются М1, ... M4,…
На вебинаре поступил вопрос про SOTA-трансформеры для временных рядов.
В ответ пообещал скинуть сюда в канал свою июньскую лекцию на RuCode по foundation models for time series. Заодно узнаете почему соревы по прогнозированию называются М1, ... M4,…
🤔6👍1
Forwarded from LightAutoML framework
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.
Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML
#обзор
Please open Telegram to view this post
VIEW IN TELEGRAM
Nature
Accurate predictions on small data with a tabular foundation model
Nature - Tabular Prior-data Fitted Network, a tabular foundation model, provides accurate predictions on small data and outperforms all previous methods on datasets with up to 10,000 samples by a...
👍17🔥6🦄2
#ML
DS и нумерология
Если кто до сих пор не нашел что почитать в выходные и при этом увлекается нумерологией -- то небезызвестный Юрген Шмидхубер еще 8 октября выпустил 88-
страничный обзор, в котором ровно 888 ссылок.
Название вполне в его духе — Deep Learning in Neural Networks: An Overview (мужик считает себя минимум отцов всего современного AI -- и у него правда есть как минимум одна важная работа в области), многие уже посмеялись с его поста про DeepSeek, но если кто-то считает нашу среду токсиком, посмотрите как он огребает в комментах к одному из его предыдущих постов в линке.
Жалко мужика, а обзор любопытный как минимум для понимания истории вопроса.
DS и нумерология
Если кто до сих пор не нашел что почитать в выходные и при этом увлекается нумерологией -- то небезызвестный Юрген Шмидхубер еще 8 октября выпустил 88-
страничный обзор, в котором ровно 888 ссылок.
Название вполне в его духе — Deep Learning in Neural Networks: An Overview (мужик считает себя минимум отцов всего современного AI -- и у него правда есть как минимум одна важная работа в области), многие уже посмеялись с его поста про DeepSeek, но если кто-то считает нашу среду токсиком, посмотрите как он огребает в комментах к одному из его предыдущих постов в линке.
Жалко мужика, а обзор любопытный как минимум для понимания истории вопроса.
❤7😁7👍1🫡1
#ML
Если вдруг кто-то пропустил МТСные курсы по RecSys на ODS и не знает как BigData МТС связана с рекомами, то вдогонку скажу что мы в МТС продолжаем развивать свою библиотеку для рекомендашек RecTools.
За эти году в либу успели законтрибьютить 20+ классных MLE) -- и сейчас ее развитие драйвит Даша Тихонович со своей командой
Новости о либе в канале
Звезды в гитхабе тоже приветствуются 😊
Итак, встречайте -- новый релиз 0.11.0 -- Трансформеры в RecTools!
BERT4Rec и SASRec в fit / recommend парадигме, без необходимости в специальной подготовке данных.
Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.
Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)
Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей
Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.
Также в релизе:
- from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря
- обучение на GPU для PureSVD
- TorchRanker для ранжирования айтемов по полученным скорам от моделей
Если вдруг кто-то пропустил МТСные курсы по RecSys на ODS и не знает как BigData МТС связана с рекомами, то вдогонку скажу что мы в МТС продолжаем развивать свою библиотеку для рекомендашек RecTools.
За эти году в либу успели законтрибьютить 20+ классных MLE) -- и сейчас ее развитие драйвит Даша Тихонович со своей командой
Новости о либе в канале
Звезды в гитхабе тоже приветствуются 😊
Итак, встречайте -- новый релиз 0.11.0 -- Трансформеры в RecTools!
BERT4Rec и SASRec в fit / recommend парадигме, без необходимости в специальной подготовке данных.
Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.
Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)
Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей
Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.
Также в релизе:
- from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря
- обучение на GPU для PureSVD
- TorchRanker для ранжирования айтемов по полученным скорам от моделей
GitHub
GitHub - MobileTeleSystems/RecTools: RecTools - library to build Recommendation Systems easier and faster than ever before
RecTools - library to build Recommendation Systems easier and faster than ever before - MobileTeleSystems/RecTools
🔥36👍10❤8
Дата канальи — про «специалистов» в данных / ML / AI
#ML Итак, про XAI, он же eXplainable AI Глубина глубин открываются с первого же найденного постера — 17 методов и 20 (!) метрик для сравнения в постере с последнего NIPS (декабрь 24го) Summary of Navigating the Maze of Explainable AI: A Systematic Approach…
#ML
Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks
UPD Сорри, сносим на время пораньше и другой день -- давайте выберем в комментариях, ориентировочно понедельник , 16 мск (в комментах под постом решим)
Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks
UPD Сорри, сносим на время пораньше и другой день -- давайте выберем в комментариях, ориентировочно понедельник , 16 мск (в комментах под постом решим)
🔥9
Приходите сегодня послушать Диму, топ спец во временных рядах и не только )
Forwarded from Александра Сытник
«SotA для TS forecasting, все ли так однозначно?»
➖ ➖ ➖ ➖ ➖ ➖ ➖ ➖ ➖
2️⃣ 0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️
В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️ переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️ как выбрать подходящую модель для вашей задачи временных рядов
⚪️ какие есть нейронные архитектуры, в том числе Zero-shot
📢 Спикер:
⚪️ Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab
📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308
Подробнее про челленджи🐭
Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре▶️
В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
Подробнее про челленджи
Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5
Когда с подачи Виктора https://xn--r1a.website/kantor_ai начинали в декабре 23го — еле-еле 15 чел набирали , на онлайн приходило 4 , теперь нам аудитории не хватает 😂 будем стараться бронить потоковую 🤷♂️
🔥21❤11👍7👏2
Дата канальи — про «специалистов» в данных / ML / AI
#ML Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks UPD Сорри, сносим на время пораньше…
#ML
Раз уж мы коллективно перенесли XAI-созвон на сегодня на 16 -- пытаюсь найти что-то релевантное и интересное.
Вот, например, в статье недельной давности TOWARDS MECHANISTIC INTERPRETABILITY OF GRAPH TRANSFORMERS VIA ATTENTION GRAPHS пытаются интерпретировать графовые трансформеры путем построения графов внимания.
А как представляются графы? Матрицей связности) Итого получаются картинки, безумно похожие на attention maps, которые к интерпретации GNN в бизнес-смысле не приближают от слова совсем 😔
UPD:
а вот gui для интерпретации , который прям совсем приятный и кликабельный
UPD2:
жду вас по ссылке https://meet.google.com/qjm-yzdu-qxf
спасибо пришедшим! записал идей, копаю дальше)
Раз уж мы коллективно перенесли XAI-созвон на сегодня на 16 -- пытаюсь найти что-то релевантное и интересное.
Вот, например, в статье недельной давности TOWARDS MECHANISTIC INTERPRETABILITY OF GRAPH TRANSFORMERS VIA ATTENTION GRAPHS пытаются интерпретировать графовые трансформеры путем построения графов внимания.
А как представляются графы? Матрицей связности) Итого получаются картинки, безумно похожие на attention maps, которые к интерпретации GNN в бизнес-смысле не приближают от слова совсем 😔
UPD:
а вот gui для интерпретации , который прям совсем приятный и кликабельный
UPD2:
жду вас по ссылке https://meet.google.com/qjm-yzdu-qxf
спасибо пришедшим! записал идей, копаю дальше)
👍9❤3🤔2
#корпжиза
Интересный опыт -- расшифровали выступление в ВШЭ и опубликовали, набросил немного про DS-центричность , но в обработке пиарщиков вышло почти безобидно 😆
Интересный опыт -- расшифровали выступление в ВШЭ и опубликовали, набросил немного про DS-центричность , но в обработке пиарщиков вышло почти безобидно 😆
Хабр
Куда расти Data Scientist и какие навыки для этого нужны
Привет! Меня зовут Никита Зелинский , я Chief Data Scientist МТС, руководитель центра компетенций Data Science и ML-платформ МТС Big Data. На конференциях я часто слышу один и тот же вопрос от...
👍19🔥6❤3👏1🦄1
Привет всем! Тех, кто не дойдет до нас оффлайн — ждём на трансляции в 17:30!
Forwarded from МТС True Tech
🔍 True Tech DS: митап для Data Scientists
Как находить новые решения, делать модели эффективнее и применять DS-инструменты в реальных задачах? На митапе эксперты поделятся свежими подходами и своим опытом.
🕔 28 февраля, 17:00
🔗 Прямая трансляция здесь
О чем поговорим? Спойлеры от Никиты Зелинского — CDS & Head of ML Platforms МТС в кружочке 🤭
Как находить новые решения, делать модели эффективнее и применять DS-инструменты в реальных задачах? На митапе эксперты поделятся свежими подходами и своим опытом.
О чем поговорим? Спойлеры от Никиты Зелинского — CDS & Head of ML Platforms МТС в кружочке 🤭
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍5🦄3
Спасибо всем пришедшим сегодня на митап, были классные доклады, не менее классные вопросы и живые дискуссии после основной сессии! Обязательно повторим! Фоточки выложу как будут готовы)
🔥28👏7👍3🦄2
Мне даже особо добавить нечего) Огромное спасибо Жене и ребятам из Альфы что откликнулись , и особое нашему деврелу Лене Гусаровой -- и ее команде конечно -- за организацию — получилось круто 🙌
Фоточки
Фоточки
🔥10❤3👏2🦄1
Forwarded from Нескучный Data Science (Евгений Смирнов)
🔥 МТС BIG DATA X Лаборатория Машинного обучения
🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.
🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!
📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.
🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!
📸 Фото вышли огонь, забирайте по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥15👏3❤1
#кейсы #ML
Митап прошел, пора возвращаться к историям, ради которых канал и создан.
Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.
Во времена ковида🤢 лично для себя прививаться или нет я принимал по соотношению стоимости страховки и выплаты при наступлении осложнений
Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):
5%
0.5%
4,2%
6.7%
3.4%
22%
Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?
Только, чур, на глаз 🧐
Ответ:63,7% (проверяйте!)
А теперь, собственно, сама история.
Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.
Моей радости не было предела — ну наконец-то, разумное применение кластеризации!
Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)
Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.
Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.
Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.
Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию
Митап прошел, пора возвращаться к историям, ради которых канал и создан.
Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.
Во времена ковида
Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):
5%
0.5%
4,2%
6.7%
3.4%
22%
Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?
Только, чур, на глаз 🧐
Ответ:
А теперь, собственно, сама история.
Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.
Моей радости не было предела — ну наконец-то, разумное применение кластеризации!
Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)
Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.
Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.
Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.
Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍27🔥9❤3🤝1🦄1