Нескучный Data Science
11.9K subscribers
313 photos
17 videos
1 file
181 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Managing AI Director, Sber @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

По вопросам сотрудничества @datascience_assist

Регистрации в Роскомнадзор № 5278866657
Download Telegram
Платит ли вам работодатель премию за призовые места в соревнованиях по анализу данных?
Anonymous Poll
6%
Да
94%
Нет
😢6👍41
Почему выгодно выплачивать премию вашей команде за призовые места в соревнованиях по анализу данных?

Опросы в канале 👆 и linkedin показали, что лишь пяти процентам дата сайентистов работодатель платит дополнительную премию за призовые места в соревнованиях по анализу данных.
🍿 Моя аудитория очевидна смещенная и поэтому скорее всего так делает только 🅰️. Сегодня попробую убедить и вашего работодателя перенять у нас лучшую практику.

💰Крупные компании инвестируют в развитие HR бренда десятки или даже сотни миллионов рублей.
🏆 Соревнования по анализу данных могут обходится в десятки миллионов рублей. Призовой фонд в несколько миллионов рублей — это лишь верхушка айсберга, которую видит сторонний наблюдатель. Большая часть бюджета уходит на съемку контента, оплату платформы проведения соревнования, организацию конференций по открытию и закрытию соревнования, закупку рекламы в интернете.
🎉 Конференции и митапы по анализу данных могут обходится в несколько миллионов рублей. Необходимо лишь сложить стоимость работы организаторов, аренду оборудования и работу съемочной команды, а иногда и стоимость аренды конгресс-холла в центре Москвы.
🧑‍🏫 Развитием бренда работодателя занимаются целые команды, которым нужно платить зарплату. В частности, в мои функции, как руководителя Лаборатории, эта роль тоже входит.
👉 В итоге, десяток премии победителям соревнований — это лишь крохотная часть маркетингового бюджета крупной компании. Инвестируйте в первую очередь в команду, сильная команда 💪 - лучшая реклама вашего HR бренда.

📨 Отправьте этот пост своему работодателю, участвуйте в соревнованиях, повышайте уровень конкуренции и получайте премии 💸 за ваши победы.

💬 Прорекламируйте свою компанию в комментариях, если она уже входит в эти 5%.

P.S. в следующий раз расскажу зачем развивать бренд вашей команды.
#команда #pr #карьера
👍416👎1🥰1
Зачем прокачивать бренд команды?

🤔 В первый раз услышал, что в Альфе занимаются анализом данных от HR, который позвонил мне по холодному контакту. Спустя полгода поступило повторное приглашение. Мной овладело любопытство, поэтому все-таки решил по пути заехать и узнать, насколько развит анализ данных и чем красный банк отличается от желтого. Мне потребовалось еще более трех месяцев, шесть встреч: с hr, будущим руководителем, его руководителем и руководителем его руководителя чтобы принять положительное решение. В итоге, через девять месяцев после первой попытки, мне эту позицию все-таки продали.

🔍 Сложности при поиске новых кандидатов не миновали и меня. В первое время нанимать было гораздо сложнее по сравнению с Тинькофф💸, даже несмотря на разницу в вилке в 2-3 раза. Поналачу приходилось искать иголки в стоге сена - одна позиция закрывалась в течении целого месяца и за нее приходилось платить 20-ю собеседованиями. Ничего удивительного, ведь о команде практически никто не знал.

🎬 В первые о нашей команде, за исключением публикаций вакансий в ODS, узнали благодаря соревнованию Alfa Battle 2.0, видео с разбором бейзлайнов и решений победителей, статьям на хабр, а также кринжовому сериалу Data Sapiens. Взамен лично убедился, что быть актером дано не всем. В результате, спустя полгода в команду начали целенаправленно приходить кандидаты, которым интересно решать банковские задачи при помощи нейронных сетей.

🗣 Сейчас Лаборатория регулярно открыто делится результатами своей работы с сообществом: образовательной трек DL in Finance, магистратура в МФТИ, регулярные выступления на конференциях и публикации статей. Мы делимся опытом, так как верим, что любой специалист в нашей области сделал бы тоже самое, если бы ему не мешали работать. Мы не боимся рассказывать о прорывных результатах, так как это сильно драйвит нас брать более амбициозные цели. Более того, мы регулярно, не пытаясь кому-то понравиться, рассказываем о ценностях команды и особенностях организации ее работы, которые помогают нам работать эффективно.

Лаборатория получает следующие бенефиты при поиске новых членов команды?
🤔 Кандидаты довольно часто знают, чем мы занимается и по каким правилам работаем.
🤝 Кандидаты ставят нас в приоритет по сравнению с командами, о которых они ничего раньше не слышали.
🎞 Сокращаем затраты на онбординг, за счет материалов из трека DL in Finance.
👉 В результате, нас выбирают те, кто интересен нам и кому интересно работать с нами.

🌧 Разбавлю дегтем рассказ выше, немножко поплакавшись в жилетку читателю.
Сложно поверить, но нам все еще приходится доказывать внутреннему потребителю высокий уровень компетенции команды, по сравнению со стартапами в этой сфере. К сожалению, это не только проблема нашего эго, но и эффективности инвестиций компании, так как внутренняя разработка моделей в среднем в 5-10 раз дешевле внешней.

Подытожим, развитие бренда команды позволяет:
⚡️ Ускорить процесс поиска новых членов команды.
🤝 Эффективнее использовать внутреннюю экспертизу внутри компании.
📈 Развивать технологический бренд компании среди ее клиентов.

💬 Как считаете, важно ли клиентам ощущать технологичность компании и ее продуктов?
#команда #pr #карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25👍122
Как правильно выбирать место работы?

🍿 Дорога на первое место работы в Тинькофф была физическим испытанием в тесной маршрутке и переполненном метро. Нередко приходилось в поту догонять уходящий микроавтобус, но уровень дохода ее водителя, указанный на рекламном плакате, так и не удалось за первый год работы. Московский метрополитен подливал масла в огонь и вовсе предлагал всем желающим пройти альтернативные курсы по машинному обучению с гарантированным доходом в баснословные сто тысяч рублей.
🤔 Неужели автор поста не знал, что можно пройти собеседование в другую компанию с рыночной зарплатой?

🤦 К сожалению, сейчас нередко всё, кроме размера вашей зарплаты считается полным булшитом и публично высмеивается.
🤔 Однако, компенсация вашего труда складывается из опыта выполнения релевантных для рынка проектов, навыков, полученных от ваших менторов, ценностей, повышающих вашу продуктивность, конечно, зарплаты и комфортных бытовых условий труда.

👇Продолжение

Ставь 👍, если формат telegraph-статьи удобнее четырех отдельных постов.
#карьера

#статьи #карьера
👍253👎3🔥2
Интервью с бывшим сотрудником Лаборатории
@danasone

Шесть интересных фактов про героя этого поста:

👶 Начал изучать анализ данных в 9-м классе.

🧑‍🎓 Познакомились с Данилом на программе Большие вызовы в Сириусе.

💸 Заработал свой первый миллион в 18 лет, побеждая в соревнованиях по анализу данных.

🅰️ Альфа написала про Данила в своем тг-канале[500k+].

🤔 Умудрился попасть на две стажировки - проходил еще одну параллельно Альфе. Выполнял все поставленные задачи, поэтому продолжили с ним сотрудничество.

💪 После окончания стажировки представлял Лабораторию на конференции по компьютерному зрению и вместе с нами опубликовал статью на хабр.

📨 Отправьте этот пост про сына маминой подруги своим младшим товарищам, чтобы поднять их мотивацию в учебе.

👉 Подписывайтесь на тг-канал Данила @danasone_blog и узнавайте еще больше о его пути в анализе данных.

💬 Данил ответит на ваши вопросы в комментариях к посту.

#ML_Lab #мини_интервью
🔥25👍9👏2
Есть ли рисерч в Лаборатории машинного обучения?

🧪 Лаборатория по определению ассоциируется с исследованиями, но в нашей команде нет рисерча в классическом представление - мы не пишем статьи в цитируемые журналы и не выступаем на научных конференциях. Более того, 95% наших моделей идут в продашкн.
Какими же исследованиям мы занимаемся и когда переключимся на общепринятые?

💭 Лаборатория образовалась вместе с централизацией функции анализа данных в банке полтора года назад, когда data science был в зачаточной стадии в компании. На тот момент существовало большое количество процессов принятий решений непокрытых моделями машинного обучение. В виду этого обстоятельства, мы в первую очередь сфокусировались на внедрении в ключевые процессы банка нейронные сетей и полностью отказались от привычного рисерча. Более того, Лаборатория является абсолютным лидером в банке по количеству внедренных в продашн моделей. В результате, у бизнеса сформировалось доверие к сеткам, что поможет в будущем их развитию.
👉 Исследования своевременны тогда, когда вы уже выжали максимум для бизнеса за счет общедоступных инструментов и для совершения следующего шага вам требуются делать прорыв в области. В противном случае, исследования не принесут пользы бизнесу, ибо не ясно какой именно процесс нуждается в улучшении.

👉 В практически-ориентированном анализе данных исследования отличаются от тех, что вы можете прочитать на arxiv.
💭 Постановка задач в новом бизнес-процессе в терминах комплекса моделей машинного обучения считается исследованием. Переход с простой аналитики принятии решений на модельный тоже можно отнести к этой области. Добавление новых данных для усиления действующих моделей также считается исследованием, но уже направленное на анализ самого источника.

💭 Процесс внедрения нейронных сетей для различных бизнес-задач становится уже такой же рутиной, как и подбор гипер-параметров для градиентного бустинга. Модели с ноги заходят в 80% core-задач банка и выжимают максимум из данных (как минимум в соревнованиях никто больше не выжал). Не смотря на этот практически полезный факт, ключевые идеи не являются новаторскими и очевидны всем, кто раньше занимался NLP.
Как отказаться от рутины и перейти к исследованиям?
👉 Сервисы по автоматическому обучению и внедрению моделей в продакшн позволяют избавить дата сайентистов от рутинных задач и перейти, наконец, к исследованиям в классическом понимании. В результате, вы ускоряете TTM и находите время на развитие мозгов сервиса - исследования.
💭 Мы уже оптимизировали задачу семантического анализа произвольной коллекции текстовых документов. В следующем году оптимизируем и построение нейронных сетей для core-бизнес задач.

🙅‍♂️ В итоге, сейчас в Лаборатории практически нет классического рисерча, но он обязательно появится после перевода рутины в сервисы.

👋 P.S. пишите в ЛС если вы сейчас тоже в отпуске в Бангкоке.
#research

#ML_Lab
👍14🔥52😁1
Что вы выберете для табличных данных: бустинг или MLP?

🤖 Большой пласт задач машинного обучения на практике - задачи на табличных данных, которые чаще всего решаются при помощи градиентного бустинга. Стандартная для табличных данных MLP-архитектура обычно имеет хуже качество и требует больше ресурсов для обучения и тюнинга.
🤔 Можно ли применять глубокое обучение более эффективно?

🔍 Yandex Research активно занимается исследованиями в этой области. ИМХО, лучшие статьи на эту тему, прошедшие на NeurIPS c 90+ цитированиями:
[1] - Revisiting Deep Learning Models for Tabular Data, 2021
[2] - On Embeddings for Numerical Features in Tabular Deep Learning, 2022

💪 Сетки рвут бустинг несмотря на то, что работы фокусируются на изначально сложных для глубокого обучения задачах, на которых доминируют бустинги традиционно доминируют. Более того, в статье идет сравнение с хорошо натюненными бустингами.
👀 Взляните на ключевые результаты из статьи. В списке ниже указаны модели и их среднее места по задачам в бенчмарке (меньше - лучше).
- Классический MLP - 8.5
- XGBoost - 4.6
- Transformer и кусочно-линейные эмбеддинги - 3.7
- CatBoost - 3.6
- MLP и эмбеддинги с периодическими активациями - 3.0

Рассмотрим основные идеи и техники, помогающие улучшить качество ваших нейронок:
🌟 Архитектурные модификации. Простая модификация MLP c добавлением BatchNorm и пробросных связей подобно ResNet уже показывает существенные улучшения по сравнению с базовым вариантом и является хорошим бейзлайном. Однако, системные приросты показывает предложенная в [1] трансформер-архитектура, изначально использующая эмбеддинги фичей и механизм внимания.

🌟 Эмбеддинги для числовых фичей. Обычно числовые фичи передаются в MLP напрямую, но можно добиться буста качества за счет расширения их размерность, применяя для этого эмбеддинги. Любые варианты эмбеддингов числовых фичей существенно бустят табличные модели и снижают разницу между архитектурными конфигурациями. Для максимального улучшения в работе [2] выделяются две более сложные схемы организации эмбеддингов - с использованием кусочно-линейных функций и периодических активаций.

🅰️ В практике Лаборатории табличные данные появляются в разных форматах: как в виде структурированных фичей, так и в виде сырых последовательностей. Наибольший интерес вызывает применение глубокое обучение там, где оно изначально имеет преимущества - это могут быть чисто неструктурированные данные, или же объединение их с табличными фичами для получения одной сильной модели.

🤔 Отметим следующий интересный факт - чем больше данных имеется, тем менее сильно влияют различные архитектурные модификации и другие техники. Это особенно относятся к табличным данным - зачастую задачи на них и общая структура самих данных куда более простые, чем на неструктурированных доменах вроде картинок или текстов, и возможность полностью описать задачу большим числом данных становится абсолютно реальной на практике.

Потестить различные техники из статей можно в песочнице нашего соревнования на Boosters, причем как на чисто табличных агрегатах, так и на последовательных данных. У двух статей есть открытый исходный код, так что с реализациями мучиться не придется.

🤔 Слово "бустинг" в этом посте оказалось популярнее множества слов {"mlp", "сетка"}.

💬 Автор поста @oasidorshin ответит на ваши вопросы про сравнение сеток с бустингами в комментариях.

#mlsysdesign #dl_in_finance
🔥33👍84
Что вы выберете для табличных данных?
Anonymous Poll
79%
Boosting
6%
MLP
10%
Random Forest
2%
KNN
3%
Другое (укажите в комментариях)
Масштаб стажерских проектов в Лаборатории

🏆 Проект Лаборатории занял первое место во внутреннем конкурсе "Alfa Award 2021" в категории "сверхэффективность". Экспертное жюри, далее, сотрудники Альфы выбирали среди всех проектов банка — это не был конкурс для стажеров.

🎁 Победителей на бизнес-завтрак пригласил CEO Альфы.
💰 Команда получила материальное вознаграждение в размере 1 млн. рублей.

📸 Бывшие стажеры (сейчас middle DS) Лаборатории набора 2021, Владимир Верхошинский, команда клиентского опыта Альфа-Банка.

💬 Расскажите о своих стажерских проектах в комментариях.
#команда #стажировки

#карьера #ML_Lab
🔥24👍7🏆1
Трудности перевода

🤔 Модель ровно по три раза выбрала мужской и женский род.

Как думаете почему так произошло
- Модель переобучилась под конкретный датасет.
- Модель не уверена в своем ответе.
- Новый вид борьбы с дискриминацией. 🤡

Как можно исправить эту проблему
- Постобработка текста после перевода.
- Добавление специальных токенов, определяющих пол автора.

💬 Расскажите, как вы добавляете пользовательские признаки в nlp-модели для перевода и чат-бота.
📨 Какие сейчас самые актуальные статьи по этой теме?

#mlsysdesign
😁23🔥3🤔2
Итоги 2022 года

💸 Что мы сделали значимого для Альфы?
⁃ Доработали нейронные сети - они стали классом моделей №1 в кредитном скоринге для клиентов Альфы.
⁃ Разработали внутреннюю модель чат-бота - обслуживаем ей 40% обращений клиентов.
⁃ Задеплоили в продашн 18 моделей и 1 сервис.

🗣 Что мы сделали для сообщества Data Science?
⁃ Разработали образовательный трек DL in Finance.
⁃ Провели 2 соревнования по анализу данных.
⁃ Выступили 21 раз на митапах, конференциях и образовательных программах.
⁃ Опубликовали 7 статей на хабр и 1 статью в печатном журнале.
⁃ Запустили магистратуру в МФТИ и стали менторами.

🏅 Как отметили наш вклад?
⁃ Data Fest 3.0 Top-1 трек по количеству участников.
⁃ Три призовых места в соревнованиях по анализу данных.
⁃ Первое место во внутреннем конкурсе проектов Alfa Award в категории сверхэффективность.
⁃ Статус номинанта в Forbes top 30 under 30.

📝 Какие результаты тг-канала "Нескучный Data Science" за этот год?
⁃ 4300+ подписчиков.
⁃ 350к суммарное количество просмотров.
⁃ 68 постов.
⁃ 2400+ реакций.
⁃ ~1700 пересылок постов.
⁃ ~500 комментариев.

🙏 Спасибо всем, кто был со мной на протяжении этого года и тем, кто присоединился недавно. Огромное спасибо за ваши реакции, пересылки постов и комментарии. Буду стараться и в следующем году радовать вас полезным контентом и личным опытом. Помните, то, что не пережил, не станет стихами.

💪 Следующий год будет полон новых вызовов и как следствие новых побед. Мы точно справимся, ведь каждый член команды обладает сильными техническими навыками, лидерскими качествами, огромной целеустремленностью и достаточной энергией чтобы преодолеть любые препятствия. Более того, работа в слаженной команде, преследующий общие цели не даст оступиться на пути к цели.

🙏 Благодарен каждому члену команды Лаборатории за то, что работает со мной в одной команде. Знаете, они могли попасть практически в любую команду, но выбрали именно Лабораторию.

По традиции, желаю всем в новом году работать в команде единомышленников, где ваша работа будет восприниматься вами в качестве хобби. 🎉🎉🎉

#ML_Lab
Please open Telegram to view this post
VIEW IN TELEGRAM
👍54🔥277🎉7
Как стать Head of Data Science?

🤦‍♂️Ребят, вы че издеваетесь? Я понимаю, что вам хочется просто расслабиться и наслаждаться жизнью. И не думать о курсах по анализу данных, пользе DS для бизнеса, kaggle, резюме и собеседованиях.

🙅 Я понимаю, что вы уже не верите курсам от популярных блоггеров за 100k+ рубасов, как и они сами. Эти курсы нужно проходить больше месяца, а вам нужно в DS еще вчера.

🙏 Сегодня мне захотелось, чтобы через мой продукт смог пройти каждый. Чтобы у каждого была возможность обучаться и расти вместе со мной. Разработал для вас минутный курс, который позволит вам сразу стать Head of DS всего за три строчки кода.

🤙 Делитесь курсом с друзьями, чтобы не скучать в одиночку в бизнес джете.

📈 Прошедшие обучение говорят, что вы сможете стать kaggle grandmaster, если перепишите этот курс в одну строчку и сможете вычеркнуть Иван Иваныча из него навсегда.

🤡 Начинайте этот рабочий год с хорошего настроения, год будет тяжелым. Смех - это лучшее противоядие от стресса.

💬 Пишите о своих историях успеха после прохождения курса в комментариях.

#карьера
😁77👍13🤣12👎7🍌41🍾1
Масштаб проектов Junior NLP DS в Лаборатории

📝 Про развитие чат-бота в Альфе вышла статья, где техническая часть с моих слов адаптирована под широкую аудиторию.

💪 Перечислю наши ключевые достижения:
- Разработали и внедрили свое решение, включающее порядка десятка моделей для различных направлений бизнеса. В течении этого года менялась инфраструктура для исполнения моделей, поэтому работу пришлось дублировать и быть первопроходцами на новой инфраструктуре.
- Показали лучшее качество по результатам а/б-теста по сравнению со внешним решением.
- Построили совместно с бизнесом с нуля процесс разметки данных, предварительно убедив банк в его необходимости.

🤔 К сожалению, без взятия дополнительной ответственности не обошлось. При обслуживании большого количества клиентов, для банка крайне важна стабильность решения. Сейчас мы дублируем инфраструктуру и выстроили несколько линий поддержки решения. Однако, в момент тестирования и перехода со внешнего решения на внутреннее этого ничего не было. Дата сайентист вместе с выделенным MLOPs на протяжении трех месяцев аккумулировали на себе задачи команды сопровождения. Благодаря нашей бизнес-ориентированности, мы становимся первым выбором для внутреннего заказчика в задачах обработки естественного языка.

👶 Как вы могли догадаться, всю техническую часть затащил всего один Junior DS. Впереди нас еще ждет огромный пласт работ, после выполнения которого, нам действительно будет не за что краснеть.

🗣 В этом году мы будем часто рассказывать про результаты работы nlp-направления: чат-боты, голосовые роботы, помощники операторам, работа с обратной связью клиентов и артефактами коммуникации с ними.
👋 Более того, мы будем масштабироваться и искать будущих лидеров в нашу команду.

💬 Набросьте нам в комментариях, что бы вы улучшили в нашем чат-боте.

#nlp #ML_Lab
🔥28👍115
Десять важных вопросов перед трудоустройством в Data Science

Собеседование в компании, где будет вам честью поработать бесплатно, может отнимать до пяти часов вашего времени. Вас попросят порешать гномиков и другие задачи во время интервью, а после него вы скорее всего будете заниматься менее интеллектуальным трудом и ботать гномиков к следующему собесу, посматривая в сторону леса вакансий.

Как определить будет ли ваша работа нескучным Data Science? Очень просто, нужно всего лишь очень подробно опросить своего будущего работодателя и поискать о нем информацию в сети. Никогда на это не жалейте времени, например, в последний раз лично потратил на это мероприятие четыре месяца.

Подготовил для вас десять важных вопросов, ответы на которые обязательно нужно знать до трудоустройства на новое место работы. Простым перечислением статья не ограничивается — подробно аргументирую, почему считаю ответ на каждый из вопросов обязательным до принятия решения. Не остался в стороне и рассказал, как обстоят дела в Лаборатории.

💬 А какие вопросы вы задаете работодателю перед трудоустройством?

🙏 Прочитав статью, вы надеюсь поймете, что для автора значит "Нескучный Data Science" и, наконец, почему этот канал называется именно так. Однако, не переживайте, в одном из будущих юбилейных постов дам более явное объяснение.

Если вы в поиске места работа, то желаю вам найти свой "Нескучный Data Science Jobs". Если вы в поисках команды, то приложите все усилия, чтобы создать его.

#статьи #карьера
🔥23👍86
🆕 Запускаю канал Нескучный Data Science Jobs

🙋 Ищите классную позицию, но не хотите искать ответы на десять важных вопросов и осваивать роль Data Science Detective?

🙂 Ищите к себе в команду классных Data Scientists не только с сильными hard skills, но и заинтересованных работать именно в вашей команде? Готовы быть открытыми и ответить на десять важных вопросов?

➡️ Подписывайтесь на канал Нескучный Data Science Jobs чтобы сократить время на матчинг.

🎁 В канале будут публиковаться открытые позиции в Лабораторию, а также вы сможете опубликовать ваши вакансии, ответив в описании на 10 важных вопросов.

⭐️ В канале вас уже ждет одна вакансия подходящая тем, кто хочет осмысленно подходить к решению задач бизнеса, а не тупо подбирать гиперпараметры моделей.

#карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥732