Dimension AI | Dmitry Sirakov

Я одумался.

97❤1👍1

3.72K views14:10

Dimension AI | Dmitry Sirakov

И не Яндекс.

136❤2

3.96K views14:15

Dimension AI | Dmitry Sirakov

Апрель 2023:
«Через 5 лет я буду Senior ML-Engineer»

Май 2024:
Пятилетка за один год

Осталось ток испытательный продержаться и чтоб не уволили 😁

34❤6

3.87K views20:05

Dimension AI | Dmitry Sirakov

ЛУЧШЕЕ ДЛЯ ИЗУЧЕНИЯ CLASSIC ML. ЛУЧШЕ НЕ НАЙДЕШЬ. ЭТО ВСЕ, ЧТО ТЕБЕ НУЖНО. БЕСПЛАТНО.

ROADMAP: КАК СТАТЬ УВЕРЕННЫМ DS И ПОЛУЧИТЬ СВОЙ ОФФЕР (1 / ?)

😳

БАЗА. БАЗА ее спрашивают всегда и везде. С нее и начнем.

Классическое машинное обучение - спрашивают везде, если ты подаешься на DS (Яндекс, Сбер, ВК, Авито, WB, Cloud.ru и прочие топовые компании)

Глубокое понимание этих вещей очень сильно упрощает жизнь, а также позволяет построить очень крепкий мост для Deep Learning и не ощущать дискомфорта в топовых отраслях: NLP, CV, RecSys и многое другое..

Классическое машинное обучение - это совокупность алгоритмов машинного обучения, метрик, как они красиво друг в друга перетекают, как одни методы - тесно связаны с другими. Это все БЕЗУМНО интересно при правильной подаче.

### ХВАТИТ. РАССКАЖИ УЖЕ КАК

🍴

Начнем по порядку. Ресурсы:

1. Лекции Жени Соколова— [ссылка]
2. Учебник от ШАД Яндекса — [ссылка]
3. Конспект — ПРИКРЕПЛЕН В ПОСТЕ [Потрачено более 80 часов]
4. GPT-4о.

### МОТИВАЦИЯ

😊

1. Курс Жени Соколова — я просмотрел огромное количество курсов и прочитал массу учебников. Этот курс — безусловно лучший на рынке, и он БЕСПЛАТНЫЙ.
2. Учебник ШАД Яндекса — идеален для более глубокого понимания математики. И просто офигенно дополняет Женю Соколова.
3. Мой конспект — невероятно важная часть: подходит как новичкам, так и тем, кто готовится к собеседованиям или хочет освежить свои знания. Он основан на лекциях Жени Соколова с авторскими дополнениями.

### КАК БОТАТЬ? ИНСТРУКЦИЯ

😳

1. Открываем лекции на YouTube Жени Соколова . Смотрим видосик.
2. Ищем эту тему в учебнике ШАД Яндекса (если ее нет - забиваем)
3. Параллельно задаем вопросы GPT-4o. Это ОЧЕНЬ ВАЖНО! Без него ты будешь черепахой.
4. Регулярно повторяем прошедшие лекции по КОНСПЕКТУ. Сравниваем, воспроизводим всё, что там написано красивым почерком.

И ВСЕ. БОЛЬШЕ ТЕБЕ НИЧЕГО НЕ НАДО. ЭТО ПОКРЫВАЕТ ВСЕ. ЕСЛИ У ТЕБЯ ХВАТАЕТ УМА, ДИСЦИПЛИНЫ И ЕСТЬ В КАРМАНЕ 2 ТЫСЯЧИ РУБЛЕЙ, ТО ТЕБЕ БОЛЬШЕ НИЧЕГО НЕ НАДО. ВСЁ.

ЭТО ЛУЧШЕЕ ЧТО ЕСТЬ. ЛУЧШЕ НЕ НАЙДЕШЬ. ПОВЕРЬ МНЕ

Поддержите пожалуйста этот пост макисмально реакциями, лайками, комментами, репостами и уточками. Это правда очень важно для нас

😘

Please open Telegram to view this post

VIEW IN TELEGRAM

93❤1914👍77

6.42K viewsedited 20:17

Dimension AI | Dmitry Sirakov

Это - лучший ресурс для повторения, запоминания, усваивания материала по CLASSIC ML.

ЗДЕСЬ ПРЕКРАСНО ВСЕ:

-> структура материала и его качество (Cпасибо Жене Соколову, ШАД)

-> прекрасное оформление, красивый почерк
(Спасибо Нине Мельниковой)

Делимся постом. Ставим реакции. Распространяем.

На конспект потрачено более 80 часов. Все для вас

💘7821167❤6👍4

6.42K viewsedited 20:18

Dimension AI | Dmitry Sirakov

Конспект Classic ML. DIMENSION.pdf

124.4 MB

❤10223👍169841

11.6K views20:21

Dimension AI | Dmitry Sirakov

😎

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤26👍8💘6

5.53K views06:45

Dimension AI | Dmitry Sirakov

This media is not supported in your browser

VIEW IN TELEGRAM

4.79K views06:45

❤11

Dimension AI | Dmitry Sirakov

Dimension AI | Dmitry Sirakov pinned a photo

09:11

Dimension AI | Dmitry Sirakov

ROADMAP: МАТЕМАТИКА ЭТО НЕ СЛОЖНО, ЕСЛИ ТЕБЕ ЕЕ ПРАВИЛЬНО ПРЕПОДАЮТ (2 / ?)

😳

Следующее, что вас ждет после классики ML на собесах / в жизни - матеша.

Сразу выделю два типа матеши:

1. Лайт-матеша, которую спрашивают на собесах.
2. Базовая матеша, которая требуется для более глубокого, лучшего, качественного понимания классик ML / DL (это буквально основы первых двух семестров бакалавриата).
3. Матеша для RnD (жесткий ресерч, глубокое изучение). Влезают под капот там, где не нужно, и вертят тем, чем до этого никто не вертел.

Этот пост сосредоточен на пунктах 1 и 2. 80% результата дают 20% усилий.

### РЕСУРСЫ

0. Для повторения матеши, для систематизации существующих знаний (если ты вдруг проспал первые два семестра матеши) - рекомендую начать с МАТЕМАТИКА ДЛЯ DS от karpov.courses (БЕСПЛАТНО).

1. Теорвер

а) Для собесов (обычные логические задачи на вероятность / формулу Байеса) - отличный задачник с теорией. (прям как симулятор, очень крутой и практичный. Как будто бы это 80% матеши на собесах, на которых я был)
ССЫЛКА НА ЗАДАЧНИК.

б) Основательный теорвер.
Для тех, кто хочет разбираться в статистических критериях, делать верные гипотезы и узнать фундамент науки. Преподает его ПРЕКРАСНЫЙ мужик из МФТИ, очень вдохновленно, очень понятно, очень доходчиво (бояться правда не надо, поверь мне). ССЫЛКА НА КУРС (БЕСПЛАТНО)

2. Мат.стат.

Куда же без практического мат. стата? АВИТО! Легендарный (как мне кажется) курс по стате от Авито. Очень годно и очень доступно. Да и бесплатно. Дает практическое понимание обо всём происходящем + по науке, конечно же.
ССЫЛКА НА КУРС

Многим знаком, многим любим - и вот он, мат.профи.
Гладко, наглядно, практично, понятно.- гладко, наглядно, практично, понятно. Зачем? Чтобы порешать более математические задачки, которые бывают на душных собесах.
ССЫЛКА НА КУРС

И чтобы быть уверенным орешком - решаем задачки на мат. ожидание / дисперсии (главы 5-7). Это немного, это четко, это быстро.
ССЫЛКА НА КНИЖКУ

### КАК ЭТО НОРМАЛЬНО ЗАБОТАТЬ? МНОГО ЖЕ.

0. Сначала математика для DS (просто базу сформировать)
1. Решаем задачи на простой теорвер из п.1 а) и весь мат.стат из п.2 (тихонько, повышаем сложность, развиваем мозг / ломаем его)
2. Если есть силы и желание - курс Райгородского из п.2 (для любителей и с горящими глазами)
3. Валидируем себя на задачках от GPT-4o на теорвер, особенно задачки с играми / стратегиями (очень любят на собесах)

### SUMMARY

На собесах 80% случаев (по моему опыту) спросят формулу Байеса / условной вероятности и/или дадут задачку на ее решение (для этого у нас есть п.1).

Также часто спрашивают про распределения и мат.стат (для этого у нас есть п.2).

Могут углубиться в алгоритмы классического машинного обучения (Читаем пост ранее).

И на этих знаниях заканчивается первые два собеса в том же Яндексе на классик-DS (на самом деле все намного сложнее / вариативнее, но для крепкой базы, для крепкого начала и дальнейшего определения конкретной области - это оооооочень крутая база)

Поддержите пожалуйста этот пост максимально реакциями, лайками, комментами, репостами и уточками. Это правда очень важно для нас 😘

Please open Telegram to view this post

VIEW IN TELEGRAM

103❤22👍1110421

7.98K viewsedited 15:54

Dimension AI | Dmitry Sirakov

This media is not supported in your browser

VIEW IN TELEGRAM

4.59K views15:58

9❤42

Dimension AI | Dmitry Sirakov

Был я вчера на Turbo ML-Conf от Т-банк на NLP секции.

Все доклады были оч суперские, на удивление.

И как раз на одном из докладов - опубликовали T-Lite (По-простому, GPT от Т-банка).
Я был удивлен, потому что ничего не предвщало беды и тут бам, опенсорс, ссылка на дропбокс / HF для скачивания модельки и везде попадали анонсы в тг-каналах.

Но технического репорта нет, только статья на хабре от посторонних людей (да и они не содержат никакой полезной инфы)

Сделаю пару забавных заметок из доклада:

1) Модель без цензуры [просто ссылка на модель HF] на нормальном русском (да здравствуют порно-рассказы!)

2) За основу взяли opensource модель LLama-3

3) Докинули русскоязычных текстов + английских (чтобы не деградировала). Сделали акцент, что обучали с помощью образовательных текстов)

4) Увеличили контекстное окно с помощью PoSE (до 8192 токена) (Идея основная такая: в классике self-attention не учитывает позицию векторов отдельно. Просто к эмбеддингам токенов прибавляют эмбеддинг их позиции. А тут они зашили позиционные эмбеддинги напрямую в self-attention. Теперь там не только Query-Key-Value [тут оч классная статья, которая поясняет это] матрицы, но и position-aware матрица)

5) Использовали токенизатор TikToken от OpenAI, дополнив его новыми токенами, начальные значения которых были усреднены из старых токенов.

6) Использовали две стадии для настройки предпочтений (удовлетворять запросам пользователей):

1. SPiN на ответах модели-учителя (Strong Model > Our Model) (Идея: использует сильную модель как эталон для обучения нашей модели. Проще говоря: маленькая моделька учится повторять ответы бОльшей и более умной модели)

2. SLiC-HF с использованием своего RM (Идея: Модель генерирует несколько вариантов ответа -> А они, использующие свою ранжирующую модель, выбирают лучший)

Модель по бенчмаркам показывает себя лучше даже GPT-3.5 / LLama-3 на задачах банка: например, суммаризация кейсов.

И на такой результат они потратили всего 3% вычислительных ресурсов (относительно того, сколько обычно выделяют ресов для обучения таких моделей).

НО не всё так радужно. Средний ответ модели почти в 1.5 раза больше, чем нужно. А как следствие - метрики завышены (ведь в бОльшие ответы содержат бОльшее количество информации). Подробнее вот тут.

На самом деле, я безумно рад, что при выделении такого малого кол-ва ресурсов, можно достичь вполне неплохих рехультатов. Ребята красавцы.

❤39👍9💘2

4.53K viewsedited 18:43

Dimension AI | Dmitry Sirakov

Отпишитесь в комментах, нормальна ли подача (не бесконечный же подбор ссылок для жесткого бота стажировок делать)

Может, что-то стоит изменить / дополнить / исправить.

Буду очень рад обратной связи)

👍30❤44💘11

4.22K viewsedited 18:53

Dimension AI | Dmitry Sirakov

MAE и MSE: В чем разница?

Что за тупой вопрос, скажете вы, дальше читать не буду, слишком очев.

Но оно того стоит

Читаю книгу Валеры и Арсения по ML System Design и наткнулся на божественную интерпретацию MAE (Mean Absolute Error) и MSE (Mean Squared Error), под другим углом, так сказать.

Обычно MAE и MSE ассоциируются со средним значением и медианой. Это справедливо, ведь оптимальная константа, которая минимизирует MSE, - это среднее значение, а для MAE - медиана.

MSE реагирует на выбросы, а MAE - более устойчив к ним (собственно перехватили характеристики среднего значения и медианы)

А как это может помочь бизнесу?

Представим, что у нас есть вектор целевых значений


Y = [100, 100, 100, 100, 100, 100, 100, 100, 100, 1000]

Причем вектор X равный для этих целевых значений (то есть векторное описание наших объектов одинаковы).

Если мы будем оптимизировать функцию потерь MSE, получим вот такой результат:


Y_hat = [190, 190, 190, 190, 190, 190, 190, 190, 190, 190]

А если MAE, вот такой:


Y_hat = [100, 100, 100, 100, 100, 100, 100, 100, 100, 100]

Ну и что, спросите вы? В чем необычность? Скам - отписка.

Дополнительное условие: представим, что мы оптимизируем навигационную систему самолетов и ошибка большая 850 означает, что самолет отклоняется от траектории и разбивается.

В случае MAE можно сказать, что всего 1 из 10 самолетов разобьется (или 9/10 выживут). Но достаточно очевидно, что потеря одного самолета - это огромный удар по бизнесу (особенно вспоминаем Аэрофлот, где все самолеты взяты в кредит)

А вот в случае MSE - все идеально 10/10 самолетов целы-здоровы, можно не беспокоиться ни о чем.

В чем мораль?
Мораль такова, что функции потерь - это очень важная часть, к которой нужно подходить с умом. И даже в таких простых, казалось бы, задачах - функции потерь несут в себе неплохой смысл.

А еще, практические примеры очень сильно въедаются в мозг и помогают чувствовать всю эту математику и мл на кончиках пальцев

А в какой задаче, например, MAE будет более полезным, давайте обсудим в комментах

22❤95👍1

5.04K viewsedited 13:20

Dimension AI | Dmitry Sirakov

А большее про функций потерь и их особенности (почему есть Huber Loss и Log-cosh, чем MAPE отличается от SMAPE), можно прочитать в моем конспекте.

Там, на 6-8 странице собраны функции потерь (лоссы) в задаче регрессии

А на 22-24 странице собраны лоссы для задачи классификации (и интуиция того, откуда ноги растут)

❤19👍3

6.36K viewsedited 13:29

Dimension AI | Dmitry Sirakov

А если будет 300 реакций на этом сообщении, устроим онлайн-посиделки с чтением конспекта [и объяснением всего, что там написано] (и записи, конечно, сделаем доступными всем)

Dimension AI | Dmitry Sirakov

❤377👍5434117432

7.09K viewsedited 13:32

Dimension AI | Dmitry Sirakov

ROADMAP: ГЛУБОКОЕ ОБУЧЕНИЕ (3/3)

😳

НУ ТЕПЕЕРЬ ТОООЧНО, я возвращаюсь на постоянную основу и буду радовать вас своей шизой. Сначала начал со старого - обновил роадмап по мат.стату, можете поглядеть, если только начинаете свой путь.

Давайте закончим с начатым (с роадмапи) и перейдем к интересному, что меня в последнее время очень сильно драйвит / о чем я в последнее время активно задумываюсь.

Что с глубоким обучением и как его ботать? 🤔

На самом деле, если вы дошли до этой части и раньше все заботали - вы герой. Время определяться с ориентацией.

Как и везде, для основы нужна база. Крепкий фундамент, на который потом по очереди будут наслаиваться различные области: от CV до NLP.

БАЗА:
1. Женя Соколов, ну а как же без него. Очень хороший, "мягкий" цикл лекций, идёт как по маслу и даёт все понимание происходящего. Однозначно рекомендовано к первому просмотру и к знакомству с глубоким обучением.
ССЫЛКА НА ЦИКЛ ЛЕКЦИЙ

2. Практика. Я бы рекомендовал закреплять лекции Жени лекциями ШАДа. Одно дело слушать, другое дело повторять за семинаристом и делать домашки, мастхев для новичков.

Ориентации:
Наверное, для себя я определяю несколько вариантов профессионального развития - NLP, CV, RecSys (ну и классика, но она уже разбиралась). По последнему - ничего сказать не могу, а вот по первым двум - с радостью.

NLP:
Курс Лены Войты с ШАД, суперский курс. Как основа, как "база" для NLP - точно пойдет, ведь раскрываются как и методы "ручек", так и доходчиво объясняют механизм внимания и современные архитектуры. Ежу (основному, как по мне, семинаристу, я бы выразил отдельный респект).

На самом деле, здесь бы я еще посоветовал обязательно подписаться на эти каналы, чтобы следить за трендами (что очень важно). Сиолошная, Denis Sexy IT и эй ай ньюз. Да, список хайповый, но дальше, поверьте мне, вы сами найдете для себя узкопрофильных авторов, которые будут радовать себя своим контентом.

Дальше уже - собеситься, работать, читать папиры и наслаждаться жизнью

CV:
Я не спец. по CV, но как сказал один мой товарищ, которому я очень сильно доверяю - "курсы по CV не имеет смысла делать, потому что есть ЭТО".

Ну и разумеется, пишите в комментах ресурсы по рекомендательным системам, чтоыб помочь себе и окружающим 😎

Шэры, реакции для вдохновения нужны, конечно же!

Первая часть по классике ML
Вторая часть по математике для собесов

Please open Telegram to view this post

VIEW IN TELEGRAM

33👍12❤11🔥4🦄3⚡1

3.8K viewsedited 19:13

Dimension AI | Dmitry Sirakov

GIGACHAT MAX vs GPT4o

(Гигачат победил?)

😎

Кажется, про RAG написали уже все, кому не лень. Но я хочу показать один из корнер-кейсов, которых уже в сети не так уж и много.

Начнём с архитектуры. Есть стандартная схема — Hybrid Search, где совмещается лексический поиск (BM25Retriever, знакомый каждому по простому Ctrl+F) и семантический поиск (тот самый умный, на embedding-моделях). Из каждой системы берутся топ-25 документов, а затем на сцену выходит reranker-модель (cross-encoder), которая внимательно смотрит и на запрос пользователя, и на документы, выбирая только топ-5 самых полезных и релевантных.

Чтобы улучшить качество поиска, используется query expansion — по сути, это «переписывание запроса». Пользователь часто ошибается, пишет транслитом, путается в формулировках. Но стоит лишь попросить LLM аккуратно переформулировать запрос для поиска — и дело сделано. Но всегда ли?

Итак, две системы. Они совершенно идентичны: те же embedder, тот же reranker, те же промпты. Единственная разница — в LLM (одна модель - отечественная: GigaChat MAX, а вторая - GPT4o), и вот тут начинается самое интересное.

САМ КЕЙС: 😵‍💫
Системы проходят проверку на простом запросе: «Что такое разбрасыватель?» (имеется в виду сельскохозяйственная техника).

GPT4o внезапно ведёт себя крайне нестабильно (при температуре всего 0.2!): то в ответе появляются непонятные цифры, то сухие строчки из Википедии без конкретики. Что показатель явных галлюцинаций модели, чего бы очень хотелось избежать!

А вот GigaChat MAX поражает своей стабильностью и четкостью, всегда выдавая конкретный, развернутый, полезный ответ.

Но почему же так происходит?

😳

В поисках ответа я взял под лупу каждый компонент системы. Документы о тракторах разных компаний, вроде всё понятно. Но вдруг — странность! При использовании GPT4o запрос пользователя каждый раз расширяется дополнительно названием компании («Что такое разбрасыватель Kverneland?»), хотя GigaChat MAX оставляет запрос нетронутым. [название компании обеим ллм известны заранее. И поиск делается по каждой компании в отдельной коллекции Milvus и в отдельном индексе OpenSearch]

Казалось бы, GPT4o делает лучше, точнее уточняет запрос, качество поиска должно быть ого-го, но...

Разгадка загадки скрывалась в одном простом факте: слово «Kverneland» встречается крайне редко. Как известно из статей, attention-механизм особенно чувствителен к редким словам (аналогично и BM25). Документов с упоминанием компании много, и внимание системы невольно переключается именно на упоминание компании, а не на главный предмет вопроса — «разбрасыватель». Итог — мусор в выдаче и нестабильность ответов.

А вот GigaChat MAX, не добавляя лишних деталей, сохраняет стабильность выдачи и всегда отвечает четко, конкретно и по делу.

Такой вот неожиданный поворот — иногда чем проще, тем лучше!

Технические детали:
- Embedder: bge-m3 (chunk_size=1200, overlap=300).
- Reranker: bge-reranker-v2-m3.

Это сочетание дало лучшие результаты именно в моём домене (естественно, они взяты не на обум и проводились сотни экспериментов (и сотни тысяч рублей), чтобы это вычислить на моих документах). Были перепробованы все опенсорс эмбеддеры, реранкеры (в том числе на основе декодеров), обученные на русский и английский язык

Документы в основном на русском и английском языке.

RAG - сам по себе прост, но очень много нюансов нужно решить в своём домене. Я уж не говорю про парсинг документов / таблиц / графиков, использование SO + CoT и т.д.

Напишите в комментах, работали ли с RAG, какие у вас были забавные случаи?

Картинки к посту будут в комментах 👇

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10❤6🐳2🤨1🦄11

3.1K viewsedited 11:38

Dimension AI | Dmitry Sirakov

АААВИТО СТАЖИРОВКА АНАЛИТИКА (И НЕМНОГО МЛ) ААААА РЕФКА

😳

опыт опыт опыт опыт опыт опыт
работа работа работа работа работа

Стажировка для аналитиков в Авито
Задача аналитиков в Авито — найти решения, которые определят изменения в продукте. Каждый день команда собирает 8 миллиардов событий, тестирует идеи, создаёт системы метрик и фреймворки, разбирает результаты и предлагает опции для роста бизнеса. Этим же занимаются и наши стажёры.

😎

В Авито открылась весенняя волна стажировок на DA!
В целом, если вы читали мои статьи, но не углублялись еще в мл и хотите ПРОГРАММИРОВАТЬ И ЗАРАБАТЫВАТЬ БАБКИ, то очень неплохой вариант

Требования к кандидатам:
1) Мат. стат и теорвер.
Ну как тут заботать?
Мат.стат - как минимум посмотреть курс Авито по мат.стату [очень годный и бесплатный]

2) SQL. Ну здесь тоже очень просто, берём Симулятор SQL от Карпова [бесплатный] и рвём любые задачки.

3) Теорвер. Без лишних слов.

Для собесов (обычные логические задачи на вероятность / формулу Байеса) - отличный задачник с теорией. (прям как симулятор, очень крутой и практичный. Как будто бы это 80% матеши на собесах, на которых я был)
ССЫЛКА НА ЗАДАЧНИК.

4) Python. Хз, очень много годных материалов - от яндекс хендбуков до всем знаменитого Карпова [тоже бесплатно]

5) ML, думаю, будет плюсом, конечно! Под мл был отдельный пост, как ботать

Есть моя рефка, она будет снизу. Так что велком!

Податься на стажировку по моей рефке:
https://clck.ru/3KThJL

❤ Дедлайн подачи заявок — 6 апреля, так что быстренько делаем резюме и подаемся на стажку

Please open Telegram to view this post

VIEW IN TELEGRAM

❤126🔥5

4.12K viewsedited 11:21

Dimension AI | Dmitry Sirakov

Avito VIBE

17🤨3

3.53K views08:21

About

Blog

Apps

Platform