Нескучный Data Science
11.9K subscribers
313 photos
17 videos
1 file
181 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Managing AI Director, Sber @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

По вопросам сотрудничества @datascience_assist

Регистрации в Роскомнадзор № 5278866657
Download Telegram
Как организовать революцию в кредитном скоринге в вашей компании?

🧠 Благодаря треку DL in Finance вы уже отлично знаете какие именно сетки нужно строить, на каких источниках данных и как именно их нужно обучать для буста точности кредитного скоринга.
🤔 Но как протащить такую инициативу в вашей консервативной компании?

💰Научитесь оценивать финансовый эффект от улучшения модельных метрик в кредитном скоринге. Улучшение модельных метрик очень абстрактно для лиц, принимающих решения, а перспектива заработать миллиарды рублей очень конкретна. Более того, такая перспектива открывает любые двери в коммерчески направленных компаниях - никто не захочет отвечать на вопрос: "Почему он решил помешать увеличить чистую прибыль компании?".

📈 Используйте нейронные сети для обработки транзакций и данных БКИ чтобы не терять информацию при агрегации признаков и время на генерацию признаков под конкретный домен.

⚠️ Внедряйте нейронные сети в паре с проверенной SOTA для обработки плоских табличных данных - градиентным бустингом. В 2020-м нейронные сети в Альфе входили с весом 30%, сейчас входят с весом 70% 💪!

🦸‍♂️ Возьмите на себя ответственность за организацию наколеночной инфраструктуры и ее поддержку в течении нескольких лет, пока в вашей компании будут строится правильные процессы. Не забудьте поставить ноутбук на новогодний стол для мониторинга рядом с мандаринами.

🙅‍♂️ Забудьте о том, что вы только что прочитали, если вы еще не собрали команду, которая обладает не только сильными техническими навыками, но и которая также замотивирована на результат, как и вы. Если у вас уже есть такая команда, то помните о трех 🐳 развития команды.

Подробнее на слайдах, с которыми выступал на этой неделе на skill-форуме.

#mlsysdesign #личный_опыт #dl_in_finance
🔥33👍5🐳4
Forwarded from Альфа-Банк
ХОДЯТ НА ХАКАТОНЫ И ЗАБИРАЮТ ДЕНЬГИ 💸

У наших дата-сайентистов есть хобби — ходить на хакатоны и забирать деньги за первые места.

На хакатоне HeadHunter — 400 000 рублей. За победы у Совкомбанка и Wildberries — 500 000. А у ВТБ они выиграли 1 000 000 😇

Теперь ребята забрали 300 000 рублей за первое место на Цифровом прорыве, крупнейшем IT-хакатоне страны.

А ещё за каждую победу они получают премию от Альфы, это — тоже наша традиция. Гордимся нашими ребятами ❤️

Коллеги из других компаний, готовьте ваши хакатоны 💰

@alfabank
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍10👎1🐳1
Платит ли вам работодатель премию за призовые места в соревнованиях по анализу данных?
Anonymous Poll
6%
Да
94%
Нет
😢6👍41
Почему выгодно выплачивать премию вашей команде за призовые места в соревнованиях по анализу данных?

Опросы в канале 👆 и linkedin показали, что лишь пяти процентам дата сайентистов работодатель платит дополнительную премию за призовые места в соревнованиях по анализу данных.
🍿 Моя аудитория очевидна смещенная и поэтому скорее всего так делает только 🅰️. Сегодня попробую убедить и вашего работодателя перенять у нас лучшую практику.

💰Крупные компании инвестируют в развитие HR бренда десятки или даже сотни миллионов рублей.
🏆 Соревнования по анализу данных могут обходится в десятки миллионов рублей. Призовой фонд в несколько миллионов рублей — это лишь верхушка айсберга, которую видит сторонний наблюдатель. Большая часть бюджета уходит на съемку контента, оплату платформы проведения соревнования, организацию конференций по открытию и закрытию соревнования, закупку рекламы в интернете.
🎉 Конференции и митапы по анализу данных могут обходится в несколько миллионов рублей. Необходимо лишь сложить стоимость работы организаторов, аренду оборудования и работу съемочной команды, а иногда и стоимость аренды конгресс-холла в центре Москвы.
🧑‍🏫 Развитием бренда работодателя занимаются целые команды, которым нужно платить зарплату. В частности, в мои функции, как руководителя Лаборатории, эта роль тоже входит.
👉 В итоге, десяток премии победителям соревнований — это лишь крохотная часть маркетингового бюджета крупной компании. Инвестируйте в первую очередь в команду, сильная команда 💪 - лучшая реклама вашего HR бренда.

📨 Отправьте этот пост своему работодателю, участвуйте в соревнованиях, повышайте уровень конкуренции и получайте премии 💸 за ваши победы.

💬 Прорекламируйте свою компанию в комментариях, если она уже входит в эти 5%.

P.S. в следующий раз расскажу зачем развивать бренд вашей команды.
#команда #pr #карьера
👍416👎1🥰1
Зачем прокачивать бренд команды?

🤔 В первый раз услышал, что в Альфе занимаются анализом данных от HR, который позвонил мне по холодному контакту. Спустя полгода поступило повторное приглашение. Мной овладело любопытство, поэтому все-таки решил по пути заехать и узнать, насколько развит анализ данных и чем красный банк отличается от желтого. Мне потребовалось еще более трех месяцев, шесть встреч: с hr, будущим руководителем, его руководителем и руководителем его руководителя чтобы принять положительное решение. В итоге, через девять месяцев после первой попытки, мне эту позицию все-таки продали.

🔍 Сложности при поиске новых кандидатов не миновали и меня. В первое время нанимать было гораздо сложнее по сравнению с Тинькофф💸, даже несмотря на разницу в вилке в 2-3 раза. Поналачу приходилось искать иголки в стоге сена - одна позиция закрывалась в течении целого месяца и за нее приходилось платить 20-ю собеседованиями. Ничего удивительного, ведь о команде практически никто не знал.

🎬 В первые о нашей команде, за исключением публикаций вакансий в ODS, узнали благодаря соревнованию Alfa Battle 2.0, видео с разбором бейзлайнов и решений победителей, статьям на хабр, а также кринжовому сериалу Data Sapiens. Взамен лично убедился, что быть актером дано не всем. В результате, спустя полгода в команду начали целенаправленно приходить кандидаты, которым интересно решать банковские задачи при помощи нейронных сетей.

🗣 Сейчас Лаборатория регулярно открыто делится результатами своей работы с сообществом: образовательной трек DL in Finance, магистратура в МФТИ, регулярные выступления на конференциях и публикации статей. Мы делимся опытом, так как верим, что любой специалист в нашей области сделал бы тоже самое, если бы ему не мешали работать. Мы не боимся рассказывать о прорывных результатах, так как это сильно драйвит нас брать более амбициозные цели. Более того, мы регулярно, не пытаясь кому-то понравиться, рассказываем о ценностях команды и особенностях организации ее работы, которые помогают нам работать эффективно.

Лаборатория получает следующие бенефиты при поиске новых членов команды?
🤔 Кандидаты довольно часто знают, чем мы занимается и по каким правилам работаем.
🤝 Кандидаты ставят нас в приоритет по сравнению с командами, о которых они ничего раньше не слышали.
🎞 Сокращаем затраты на онбординг, за счет материалов из трека DL in Finance.
👉 В результате, нас выбирают те, кто интересен нам и кому интересно работать с нами.

🌧 Разбавлю дегтем рассказ выше, немножко поплакавшись в жилетку читателю.
Сложно поверить, но нам все еще приходится доказывать внутреннему потребителю высокий уровень компетенции команды, по сравнению со стартапами в этой сфере. К сожалению, это не только проблема нашего эго, но и эффективности инвестиций компании, так как внутренняя разработка моделей в среднем в 5-10 раз дешевле внешней.

Подытожим, развитие бренда команды позволяет:
⚡️ Ускорить процесс поиска новых членов команды.
🤝 Эффективнее использовать внутреннюю экспертизу внутри компании.
📈 Развивать технологический бренд компании среди ее клиентов.

💬 Как считаете, важно ли клиентам ощущать технологичность компании и ее продуктов?
#команда #pr #карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍122
Как правильно выбирать место работы?

🍿 Дорога на первое место работы в Тинькофф была физическим испытанием в тесной маршрутке и переполненном метро. Нередко приходилось в поту догонять уходящий микроавтобус, но уровень дохода ее водителя, указанный на рекламном плакате, так и не удалось за первый год работы. Московский метрополитен подливал масла в огонь и вовсе предлагал всем желающим пройти альтернативные курсы по машинному обучению с гарантированным доходом в баснословные сто тысяч рублей.
🤔 Неужели автор поста не знал, что можно пройти собеседование в другую компанию с рыночной зарплатой?

🤦 К сожалению, сейчас нередко всё, кроме размера вашей зарплаты считается полным булшитом и публично высмеивается.
🤔 Однако, компенсация вашего труда складывается из опыта выполнения релевантных для рынка проектов, навыков, полученных от ваших менторов, ценностей, повышающих вашу продуктивность, конечно, зарплаты и комфортных бытовых условий труда.

👇Продолжение

Ставь 👍, если формат telegraph-статьи удобнее четырех отдельных постов.
#карьера

#статьи #карьера
👍253👎3🔥2
Интервью с бывшим сотрудником Лаборатории
@danasone

Шесть интересных фактов про героя этого поста:

👶 Начал изучать анализ данных в 9-м классе.

🧑‍🎓 Познакомились с Данилом на программе Большие вызовы в Сириусе.

💸 Заработал свой первый миллион в 18 лет, побеждая в соревнованиях по анализу данных.

🅰️ Альфа написала про Данила в своем тг-канале[500k+].

🤔 Умудрился попасть на две стажировки - проходил еще одну параллельно Альфе. Выполнял все поставленные задачи, поэтому продолжили с ним сотрудничество.

💪 После окончания стажировки представлял Лабораторию на конференции по компьютерному зрению и вместе с нами опубликовал статью на хабр.

📨 Отправьте этот пост про сына маминой подруги своим младшим товарищам, чтобы поднять их мотивацию в учебе.

👉 Подписывайтесь на тг-канал Данила @danasone_blog и узнавайте еще больше о его пути в анализе данных.

💬 Данил ответит на ваши вопросы в комментариях к посту.

#ML_Lab #мини_интервью
🔥25👍9👏2
Есть ли рисерч в Лаборатории машинного обучения?

🧪 Лаборатория по определению ассоциируется с исследованиями, но в нашей команде нет рисерча в классическом представление - мы не пишем статьи в цитируемые журналы и не выступаем на научных конференциях. Более того, 95% наших моделей идут в продашкн.
Какими же исследованиям мы занимаемся и когда переключимся на общепринятые?

💭 Лаборатория образовалась вместе с централизацией функции анализа данных в банке полтора года назад, когда data science был в зачаточной стадии в компании. На тот момент существовало большое количество процессов принятий решений непокрытых моделями машинного обучение. В виду этого обстоятельства, мы в первую очередь сфокусировались на внедрении в ключевые процессы банка нейронные сетей и полностью отказались от привычного рисерча. Более того, Лаборатория является абсолютным лидером в банке по количеству внедренных в продашн моделей. В результате, у бизнеса сформировалось доверие к сеткам, что поможет в будущем их развитию.
👉 Исследования своевременны тогда, когда вы уже выжали максимум для бизнеса за счет общедоступных инструментов и для совершения следующего шага вам требуются делать прорыв в области. В противном случае, исследования не принесут пользы бизнесу, ибо не ясно какой именно процесс нуждается в улучшении.

👉 В практически-ориентированном анализе данных исследования отличаются от тех, что вы можете прочитать на arxiv.
💭 Постановка задач в новом бизнес-процессе в терминах комплекса моделей машинного обучения считается исследованием. Переход с простой аналитики принятии решений на модельный тоже можно отнести к этой области. Добавление новых данных для усиления действующих моделей также считается исследованием, но уже направленное на анализ самого источника.

💭 Процесс внедрения нейронных сетей для различных бизнес-задач становится уже такой же рутиной, как и подбор гипер-параметров для градиентного бустинга. Модели с ноги заходят в 80% core-задач банка и выжимают максимум из данных (как минимум в соревнованиях никто больше не выжал). Не смотря на этот практически полезный факт, ключевые идеи не являются новаторскими и очевидны всем, кто раньше занимался NLP.
Как отказаться от рутины и перейти к исследованиям?
👉 Сервисы по автоматическому обучению и внедрению моделей в продакшн позволяют избавить дата сайентистов от рутинных задач и перейти, наконец, к исследованиям в классическом понимании. В результате, вы ускоряете TTM и находите время на развитие мозгов сервиса - исследования.
💭 Мы уже оптимизировали задачу семантического анализа произвольной коллекции текстовых документов. В следующем году оптимизируем и построение нейронных сетей для core-бизнес задач.

🙅‍♂️ В итоге, сейчас в Лаборатории практически нет классического рисерча, но он обязательно появится после перевода рутины в сервисы.

👋 P.S. пишите в ЛС если вы сейчас тоже в отпуске в Бангкоке.
#research

#ML_Lab
👍14🔥52😁1
Что вы выберете для табличных данных: бустинг или MLP?

🤖 Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
🤔 Можно ли применять глубокое обучение более эффективно?

🔍 Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022

💪 Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
👀 Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0

Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
🌟 Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.

🌟 Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.

🅰️ В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.

🤔 Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.

Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.

🤔 Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.

💬 Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.

#mlsysdesign #dl_in_finance
🔥33👍84
Что вы выберете для табличных данных?
Anonymous Poll
79%
Boosting
6%
MLP
10%
Random Forest
2%
KNN
3%
Другое (укажите в комментариях)