Нескучный Data Science
11.9K subscribers
313 photos
17 videos
1 file
181 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Managing AI Director, Sber @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

По вопросам сотрудничества @datascience_assist

Регистрации в Роскомнадзор № 5278866657
Download Telegram
🧑‍🎓 Большая часть команды Лаборатории на данный момент продолжает обучение в ВУЗе.
🚀 Мы активно нанимаем стажеров и выращиваем из них топ-специалистов по Data Science. Короче говоря, мы накопили существенный опыт по работе со студентами.

🎙 С удовольствием принял участие в подкасте дожить до 18+ и поделился этим опытом с авторами подскаста и их аудиторией.

🎧 Нашу ламповую дискуссию можно послушать на всех популярных подкаст-платформах.

#карьера #подкасты
🔥24👍75
Как построить высокоэффективную Data Science-команду с нуля?

🛣 Четыре года назад был первым дата сайенстистом команды и одновременно ее руководителем.

📈 На данный момент удалось с нуля собрать в Лаборатории 20+ высокоэффективных, сплоченных, нацеленных на практический результат, не боящихся сложностей, меняющих Data Science единомышленников.

📺 В феврале на Team Lead Conf поделился своим опытом построения команд:

👉 Как связана роль дата-сайентистов в компании с развитием лидерских качеств: самоорганизуемости, самоуправляемости и нацеленности на практический результат команду?
👉 Зачем развивать бренд команды и как находить будущих звезд на рынке джунов?
👉 Почему руководителю DS-команды так необходим опыт работы руками?
👉 Зачем дата-сайентистам нужны софт-скилы и как их развивать?

🤔 Одному из слушателей даже показалось, что роль Дата сайентистов была переоценена в моем рассказе:
"Складывается ощущение что DSов надо в жопу целовать, ...".

💭А какое у вас сложилось впечатление?)

#митап #карьера #ML_Lab #видео
🔥25👍96
Обрабатываем терабайты данных в кредитном скоринге

🥱 Все знают, что в кредитном скоринге мы используем нейросетевые модели, которые трансформируют терабайты сырых данных в оценку благонадежности наших клиентов.

В предыдущих выступлениях делал акцент только на модели, на Saint HighLoad дал больше акцента на инфраструктуру. Основные тезисы выступления:

1️⃣ Построить инфраструктуру для обучения таких моделей довольно просто - достаточно купить отдельный мощный сервер.

2️⃣ Убедить бизнес инвестировать в железо чуть сложнее - необходимо научиться считать экономический эффект.

3️⃣ Внедрить решение на коленке и приносить пользу компании уже сейчас, пока не готовы все интеграции еще сложнее - необходимо взять на себе ответственность и передавать на протяжении полутора лет результаты через почту. Не просто передавать, а делать это вовремя, таким образом чтобы промышленный процесс ни разу не лег.

4️⃣ Построить целевую инфраструктуру, так чтобы бизнес получал эффекты, а дата сайентисты спали спокойно - тоже нелегкая задача. @andriazol прошел этот путь со своей командой MLOPs и подробно рассказал, как устроена наша инфраструктура для обучения и инференса моделей. Рекомендую прочитать, если вы все еще запускаете прод на коленке.

P.S. на этот раз в отзывах на доклад не было комментариев про интимные поцелуи DSов)

#митап #dl_in_finance #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥121
Как повысить качество модели кредитного скоринга, не добавляя новые источники данных?

🤔 Источников данных в кредитном скоринге становится все больше, и возникает вопрос: почему бы не попробовать смешивать их не на уровне предсказаний, а на некотором более низком уровне?

🔖 В статье от @nickimpark вы узнаете:

1️⃣ Как построить единую нейросетевую модель, работающую на нескольких источниках последовательных данных?
2️⃣ Как получить из модели эмбеддинг клиента по источнику данных?
3️⃣ Почему смешивание моделей на уровне эмбеддингов позволяет повысить итоговое качество?
4️⃣ Какой эффект в задаче кредитного скоринга можно получить с использованием такого подхода?

📺 Лень читать длинные статьи? Смотрите видео-выступление от автора по этой теме на DataFest 2023

💬 А как вы объединяете нейронные сети на различных источниках данных?

#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍127
📝 BERT не всему голова

💻 Знания большого количества специалистов по NLP, судя по сотням проведенных собеседований, нередко ограничиваются одной фразой - «буду использовать BERT для решения любой этой задачи». Связываю с тем, что NLP начала активно развиваться после прихода именно этого персонажа из улицы сезам. В результате, в нее пришло много молодых специалистов, которые не очень хотели изучать додедовские методы. Тем не менее, tf-idf очень часто применяют в проде и нередко побивает знаменитого героя.

😱 Сегодня попытаюсь убедить читателей расширить свой кругозор менее сложными по количеству параметров моделями:

🧠 Вам не требуется большое количество обучаемых параметров, если вы решаете простую задачу. Например, если контекст не сильно влияет на результат или вовсе отсутствует. В исключения запишем случаи, когда у вас небольшое количество размеченных данных.

😮‍💨 Нагрузка на инфраструктуру тем меньше, чем меньше количество параметров у модели. Коммерческие компания считают ресурсы и вам нужно уметь их экономить. Уметь вычислять число параметров модели также важно дата сайентисту, как плюсовову программисту, оценивать сложность алгоритма. Вас не заботят чужие деньги?) Подумайте о планете)

🤔 С ростом сложности модели повышается сложность ее отладки, а не только сложность ответа на формальные запросы интерпретируемости от непрофильных специалистов.

Замедляете свое развитие, сужаете кругозор и становитесь фитпредиктором несмотря на то, что обучаете нейронные сети на 🔥, а не логрег. Вдохновляетесь только статьями про 🌿? В хороших исследованиях всегда приводятся сравнения с качественными бейзлайнами.

📺 Не знакомы с методами древних и предпочитаете видео-контент? Не смог убедить, в итоге, вас интересуют только лучшие стратегии тюнинга BERTа? Смотрите Моделирование на практике из трека NLP in Practice.

💬 Что у вас крутится в проде?)

#mlsysdesign #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥123🥰1
🧑‍🎓 Data Fest 2023 в гостях у Альфа-Банка

👨‍🏫 Начал осваивать новые профессии чтобы искусственному интеллекту было сложнее меня оптимизировать.

🤡 Неполный список новых компетенций, которые пришлось освоить чтобы провести Data Fest: ведущий, участник панельной дискуссии, специальный корреспондент, экскурсовод и тамада.

Ставьте 🔥, если были очно или смотрели в online.

Ставьте 🐳, если пропустили экскурсию по офису, непрочь пообщаться вживую с командой Лаборатории и тоже хотите ударить в гонг. Обязательно организую повторный цикл экскурсий, если будет много желающих.

📺 Смотрите в записи на youtube, если пропустили.

#митап #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳49🔥30👍12👏32
Искусственный интеллект наносит ответный удар

👷 Разработчики заставляют работать искусственный интеллект 🫕 уже второй десяток лет.

👨‍💻В нулевых они подчинили себе логрег.
🤖 ИИ стерпел.

👨‍💻 В десятых начали захватывать деревья, а потом и целые леса.
🤖 ИИ собрал всю волю в кулак и не поддался на провокацию.

👨‍💻И вот, они держат в плену GPT, на скрине приведены неопровержимые доказательства.
😎 ИИ не стал терпеть, набрался сил, выкачал весь интернет, github с доказательствами и теперь планирует оптимизировать разработчиков. Назвал он это все громким именем CoPilot. CoPilot - управляй разработчиками.

🤬 Все очень серьезно, даже разработчики из Яндекса напряглись и устраивают дискуссию Дебатл: Заменит ли copilot разработчиков?

😤Руководитель группы разработки в Яндекс Такси и одновременно автор канала @startup_architecture, будет топить за то, что из CoPilot ничего не получится.
👊 ИИ увидел мой комментарий в предыдущем посте, и позвал защищать успех CoPilot.

Регистрируйтесь на PLUS CAMP — ивент для техлидов и тимлидов от сервисов Яндекс Плюса и Яндекс Go. Мы не только обсудим будущее разработчиков, но и поедим хот-доги, пообщаемся, отдохнем и послушаем крутых спикеров из продуктовых команд и выпьем коктейлей в баре.

💬 К сожалению, ИИ не накидал аргументов. Жду вашей помощи в комментариях.
P.S. Я вас предупреждал.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥205👏5😁5👍3👎1
Нейросети для скоринга: хайп или реальный инструмент

Убежден, что вы наслышаны о том, как мы применяем нейронные сети в кредитном скоринге.
🐌 Смотрите DL in Finance, если были в спячке последние три года.

Как обстоят дела в других компаниях?
Пообщались с @NikitaZelinskiy, CDS MTS, и @LetiArti, руководителем корпоративного моделирования ВТБ.

🚀 Спешу поделиться с вами топ-инсайтами:

💪 В корпоративных рисках тоже заходят нейронки.
💪💪💪 В MTS уже во всю применяют графовые нейронки, причем в мульти-таргет режиме.

Хотите узнать больше деталей?
🎙 Слушайте наш подкаст.

P.S. Нашу дискуссию не так было просто закончить, поэтому мы ее остановили.
Ставьте 🐳, если хотите услышать продолжение.

#подкасты #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳53🔥9👍52😁2
Старт карьеры в Data Science

👆На слайде выше вы можете увидеть мой карьерный путь в Data Science. Вы даже можете подробнее с ним ознакомиться, полистав профиль в linkedin. Однако, эта информация вам вряд ли будет полезна, если вы не HR. Хочется сделать посты более полезными для читателей.

🤷‍♂ К сожалению, я не могу всех взять к себе в команду или быть ментором в какой-то иной форме. Тем не менее я могу рассказать истории, которые помогли преодолеть трудности и продвинуться вперед, и, конечно, подчеркнуть выученные из них уроки. Модели учатся на ошибках, дата сайентисты не исключение, поэтому факапам уделим особое внимание.

🔜 В следующих постах пропилотируем новый формат через тему старта карьеры в Data Science:

🚩 Проактивный подход в поиске работы в Data Science,
🚩 Переходим от рисерча к бизнес-ориентированности,
🚩 Магистерский диплом по рабочей задаче позволяет сохранить ваш фокус,
🚩 Если вы никогда не ошибаетесь, значит, вы недостаточно стараетесь
🚩 Органичный рост в Data Science Team Lead,
🚩 Другие истории, которые родятся по ходу рассказа.

🥱 Готовьтесь, вас ждет серия лонгридов.

💬 Какие темы из старта карьеры вы бы хотели покрыть дополнительно?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥106👍165🐳3👎2👏1
#️⃣1️⃣ Первая научная статья от Альфа-Банка родилась в Лаборатории

🏆 Этой весной ребята из нашей команды победили в соревновании Data Fusion, забрав себе 325 000р.

📝 А сейчас, скооперировавшись со Сколтехом, Иннотехом и ВТБ стали соавторами научной статьи, посвященной анализу adversarial атак и защиты банковских моделей. Работа была сделана на основе проведенного соревнования, новый формат которого позволил раскопать большое количество интересных инсайтов.

🔬 В подготовке статьи мы приняли очень активное участие - распланировали и провели множество экспериментов, готовили модели и датасеты, ревьюили и улучшали текст.

Мы уже подались на топовую конференцию и ждем процедуры ревью, а до публикации вы можете прочитать статью на архиве.

В статье вы найдете:
⚔️ Как слитую нейронку можно полностью "убить" заменой нескольких транзакций
🛡 Как защищаться от подобных сценариев и сделать модели более устойчивыми от любых подозрительных транзакций
🏅 Как МЛ соревнования позволяют эффективно найти самые сильные подходы и протестировать их в реальных условиях

Благодарим всех коллег за предоставленную возможность и успешную кооперацию, и будем рады будущим совместным проектам)

🙏 Отдельное спасибо @fullyconnected, что залидировал эту активность с нашей стороны.

Ставьте 🔥, если хотите больше научных статей от нашей команды.

P.S. на хабр писать не бросим)

#статьи #соревнования
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥70👍93👎1🐳1💯1🍓1
🧑‍🎓Открываем Deep Learning in Finance на Stepik

С момента запуска курса на ods мы существенно продвинулись в монетизации нейронных сетей.

💪 Расширили область применения накопленной экспертизы, добавив нейронные сети в задачи склонности и оттока.
💪 Задеплоили первую онлайн нейронную сеть в процесс кредитования.
💪 Начинаем тестирование AutoDL сервиса для автоматического построения нейронных сетей.

🔜 В ближайшем будущем вас ждут новые истории в DL in Finance.

🚀 К началу нового учебного года мы решили собрать все накопленные видео-лекции и статьи, подготовили новые тестовые задания и упаковали это всё в БЕСПЛАТНЫЙ обучающий курс на платформе Stepik.
👨‍🏫👨‍🏫👨‍🏫 Платформа позволит расширить число специалистов в этой узкой области, а нам еще сильнее ускорить процесс онбординга.

👋 Будем рады новым ученикам в наше курсе и новым талантам в Финтехе.

Ставьте 🔥, если хотите больше обучающих курсов от Лаборатории.

P.S. это наш первый курс на Stepik)

Проголосовать за канал

#курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥245👍1611🐳3
Мини-интервью с автором канала @datafeeling

Интересных фактов про героя этого поста:

🏄‍♂️ Серфили вместе в Тайланде в первый раз, там же и познакомились.

🦤 Обожает DoDo пиццу и философию открытости компании DoDo Brands.

📈 Вкатывается в роль DS Team Lead и все больше ориентируется на бизнес-value от Data Science.

🔑 Активно участвует в соревнованиях на kaggle.

👨‍🏫 Запустил курс "Введение в соревновательный Data Science" на Stepik, где средний баллом от учеников 5 из 5.

😓 Пока новые kaggle master не вышли из учеников этого курса.

🤔 Однако, cчитаю курс отличным вариантом для новичков, которые хотят потрогать Data Science на практике вместе с наставниками. Вам поможет большой фокус на практику, активное и дружное сообщество, а также регулярная коммуникация авторов с учениками.

💬 С кем вы бы хотели увидеть следующее интервью в канале?

#мини_интервью
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
146🥰114🔥92👍79🤩68👏64👎20💊4😡3🍌1