Нескучный Data Science
11.8K subscribers
313 photos
17 videos
1 file
181 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Managing AI Director, Sber @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

По вопросам сотрудничества @datascience_assist

Регистрации в Роскомнадзор № 5278866657
Download Telegram
Мини-интервью с номинантом Forbes top 30 under 30
linkedin

Десять интересных фактов про героя этого поста:

🤝 Работали с Андреем вместе в Тинькофф, когда Data Science еще только начинал развиваться в финтехе.

🙀 Поставил распознавание речи в Тинькофф на промышленные рельсы еще в 2017-м.

📈 Запустил Защитника Олега, который защищает вас от спама и жуликов.

📺 Сыграл себя в фильме про историю Тинькофф.

🚀 Прошел путь Junior -> Team Lead всего за два года.

😤 Номинировался в рейтинг Forbes в фоновом режиме.

🇬🇧 Получил Global Talent без посредников.

😲 Сидел без работы пять месяцев.

🔜 Готовит новый дизрапт рынка в области венчурных инвестиций.

🧑‍💻 Активно нанимает и сейчас ищет к себе крутого DE.

💬 Задавайте в комментариях вопросы Андрею про Forbes, дизрапт продукты, венчурные инвестиции и как попасть в его команду.

💪 Голосуйте за Андрея, чтобы он оказался в списке победителей рейтинга Forbes.

#мини_интервью
👍3015🔥63❤‍🔥1🤷‍♂1🤣1
🚀 Сейчас активно готовим материалы к Data Fest. Будем рады вас видеть на офлайн дне, 2 июня.

😮 В этот день мы запустим новый образовательный трек NLP in Practice: 10 видео, 10 квизов, соревнование по ML Data Science.

🔄 Обновим трек DL in Finance тремя новыми видео, из которых вы узнаете на сколько мы продвинулись в монетизации нейронных сетей за прошлый год.

👉 Регистрируйтесь на офлайн часть, чтобы понетворкать с авторами треков и узнать интересующие вас детали из первых уст.

😩 Сейчас мы шлифуем датасет для соревы, поэтому не такие довольные, как на фото(

🔜 Ожидайте подробный анонс трека 2 июня.

#курсы #ML_Lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍129
🚀 Запустили трек NLP in Practice

📚 Обучение в треке разбито на три ключевых блока: ознакомление с теоретической базой, изучение опыта построения nlp-продуктов и, наконец, закрепление на практике полученных знаний.

1️⃣ В первом блоке делается акцент на минимальном наборе хард скиллов. Все начинается с семантического анализа, без которого практически невозможно поставить корректно задачу. Далее разметке данных уделяется особое внимание, так как без нее практически невозможно обойтись сегодня в nlp. Очень часто на собеседованиях кандидаты предлагают использовать BERT во всех случаях жизни, поэтому мы не могли не покрыть вопрос выбора класса моделей и подходов для их эффективного обучения.

2️⃣ Во втором блоке вы узнаете из первых уст истории развития NLP-based продуктов Альфа-Банка: чат-бота, голосового бота, ассистента оператора, семантического анализа обратной связи клиентов, категоризации обращений клиентов на 1000+ классов и структуризации чеков ОФД. Вы услышите не только истории успеха, но и прочувствуете весь тернистый путь, который им предшествовал.

3️⃣ В заключительном части вас ждет соревнование по ML Data Science. На практике редко кто-то выбивает десятысячные доли целевой метрики, подбирая целую неделю гиперпараметры и стакая сотни моделей. В соревновании по DS, на последнем этапе каждый из участников будет выбирать уникальное множество примеров для доразметки, за счет которых сможет улучшить свое решение и обойти конкурентов. Таким образом, уникальный дизайн соревнования позволит более точно смоделировать работу дата сайентиста в индустрии.

💸 Общий призовой фонд соревнования - 800 тысяч рублей.

🅰️ По результатам квизов, 🔝 5 участников трека получат мерч Альфа-Банка.

💬 Вступайте в чат трека и соревнования, чтобы не пропустить важные новости.

P.S. уже начали использовать материалы трека для онбординга новых членов NLP-команды.

#курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37👍53🏆21
Соревнование по структуризации чеков ОФД

👨‍💻 Длинные выходные - отличная возможность вкатиться в соревнование по Data Science.

📈 Соревнование поможет вам закрепить навыки по построению NER + NEL-моделей.
💪 Уникальный формат позволит на последнем этапе сконцентрироваться на выборе примеров для доразметки, а не выбивании десятысячных долей метрики.

🤔 Не знаете с чего начать?

🚀 Запустите бейзлайн и засабмитьте результат на лидерборд.
💸 Далее, призовой фонд в 800к рублей и чувство товарищеского локтя 🫂 помогут сделать следующие сабмиты.

🤔 Недостаточно материалов?

📺 Посмотрите видео из трека NLP in practice: выбор класса моделей в NLP, опыт структуризации чеков ОФД в 🅰️, запуск этого соревнования, применение чеков в кредитном скоринге.
📑 Почитайте cтатьи на хабре по теме: классификация чеков ОФД, применение чеков в задачах банка.
🔜 Приходите на следующей неделе на разбор бейзлайна. Вступайте в чат соревнования чтобы не пропустить анонс.

🚨 Обратите внимание!

👉 Соревнование проходит в три этапа.
👉 Каждый этап является отборочных для последующего.
👉 В результате, вписаться в соревнование получится только до конца первого этапа в июне.

🎁 Датасет из соревнования можно переиспользовать для защиты дипломных и курсовых работ.

P.S. пишите в ЛС, если вы преподаете анализ данных и желаете использовать датасет для учебных целей ваших студентов.

#соревнования #nlp
🔥21👍83💊1
Как ChatGPT изменит Data Science?

Провели дискуссию с экспертами Альфы, Тинькофф @anatoliipotapov, Huawei @madrugado и Сбер/AIRI @lizagonch о будущем NLP после ChatGPT 🔥

📌 Какие NLP модели применяют в продакшене больших компаний, где в индустрии будут применять GPT и что не получится заменить генеративными моделями?

📌 Когда GPT заменит джунов-программистов и что изучать молодым специалистам, чтобы выдержать конкуренцию с нейросетями?

📌 В чем фундаментальная разница искусственного интеллекта и естественного? В чем естественный интеллект будет проигрывать?

📌 Research – это только 🌿 -архитектуры, или даже в исследованиях применяют регулярки? Как убеждать бизнес инвестировать в исследования?

📌 Почему современные трансформеры все еще недообучены? Где брать данные для обучения больших языковых моделей, когда весь интернет будет сгенерирован нейросетями?

📌 Куда копать участникам нашего соревнования NER на чеках ОФД? 🤫

🤔 Общественность часто считает искусственный интеллект неким сверхразумом. В этом момент почему-то все забывают, что он обучается копировать естественный интеллект, который очень далек от совершенства.

#митап #nlp #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥95
🧑‍🎓 Большая часть команды Лаборатории на данный момент продолжает обучение в ВУЗе.
🚀 Мы активно нанимаем стажеров и выращиваем из них топ-специалистов по Data Science. Короче говоря, мы накопили существенный опыт по работе со студентами.

🎙 С удовольствием принял участие в подкасте дожить до 18+ и поделился этим опытом с авторами подскаста и их аудиторией.

🎧 Нашу ламповую дискуссию можно послушать на всех популярных подкаст-платформах.

#карьера #подкасты
🔥24👍75
Как построить высокоэффективную Data Science-команду с нуля?

🛣 Четыре года назад был первым дата сайенстистом команды и одновременно ее руководителем.

📈 На данный момент удалось с нуля собрать в Лаборатории 20+ высокоэффективных, сплоченных, нацеленных на практический результат, не боящихся сложностей, меняющих Data Science единомышленников.

📺 В феврале на Team Lead Conf поделился своим опытом построения команд:

👉 Как связана роль дата-сайентистов в компании с развитием лидерских качеств: самоорганизуемости, самоуправляемости и нацеленности на практический результат команду?
👉 Зачем развивать бренд команды и как находить будущих звезд на рынке джунов?
👉 Почему руководителю DS-команды так необходим опыт работы руками?
👉 Зачем дата-сайентистам нужны софт-скилы и как их развивать?

🤔 Одному из слушателей даже показалось, что роль Дата сайентистов была переоценена в моем рассказе:
"Складывается ощущение что DSов надо в жопу целовать, ...".

💭А какое у вас сложилось впечатление?)

#митап #карьера #ML_Lab #видео
🔥25👍96
Обрабатываем терабайты данных в кредитном скоринге

🥱 Все знают, что в кредитном скоринге мы используем нейросетевые модели, которые трансформируют терабайты сырых данных в оценку благонадежности наших клиентов.

В предыдущих выступлениях делал акцент только на модели, на Saint HighLoad дал больше акцента на инфраструктуру. Основные тезисы выступления:

1️⃣ Построить инфраструктуру для обучения таких моделей довольно просто - достаточно купить отдельный мощный сервер.

2️⃣ Убедить бизнес инвестировать в железо чуть сложнее - необходимо научиться считать экономический эффект.

3️⃣ Внедрить решение на коленке и приносить пользу компании уже сейчас, пока не готовы все интеграции еще сложнее - необходимо взять на себе ответственность и передавать на протяжении полутора лет результаты через почту. Не просто передавать, а делать это вовремя, таким образом чтобы промышленный процесс ни разу не лег.

4️⃣ Построить целевую инфраструктуру, так чтобы бизнес получал эффекты, а дата сайентисты спали спокойно - тоже нелегкая задача. @andriazol прошел этот путь со своей командой MLOPs и подробно рассказал, как устроена наша инфраструктура для обучения и инференса моделей. Рекомендую прочитать, если вы все еще запускаете прод на коленке.

P.S. на этот раз в отзывах на доклад не было комментариев про интимные поцелуи DSов)

#митап #dl_in_finance #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🔥121
Как повысить качество модели кредитного скоринга, не добавляя новые источники данных?

🤔 Источников данных в кредитном скоринге становится все больше, и возникает вопрос: почему бы не попробовать смешивать их не на уровне предсказаний, а на некотором более низком уровне?

🔖 В статье от @nickimpark вы узнаете:

1️⃣ Как построить единую нейросетевую модель, работающую на нескольких источниках последовательных данных?
2️⃣ Как получить из модели эмбеддинг клиента по источнику данных?
3️⃣ Почему смешивание моделей на уровне эмбеддингов позволяет повысить итоговое качество?
4️⃣ Какой эффект в задаче кредитного скоринга можно получить с использованием такого подхода?

📺 Лень читать длинные статьи? Смотрите видео-выступление от автора по этой теме на DataFest 2023

💬 А как вы объединяете нейронные сети на различных источниках данных?

#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍127
📝 BERT не всему голова

💻 Знания большого количества специалистов по NLP, судя по сотням проведенных собеседований, нередко ограничиваются одной фразой - «буду использовать BERT для решения любой этой задачи». Связываю с тем, что NLP начала активно развиваться после прихода именно этого персонажа из улицы сезам. В результате, в нее пришло много молодых специалистов, которые не очень хотели изучать додедовские методы. Тем не менее, tf-idf очень часто применяют в проде и нередко побивает знаменитого героя.

😱 Сегодня попытаюсь убедить читателей расширить свой кругозор менее сложными по количеству параметров моделями:

🧠 Вам не требуется большое количество обучаемых параметров, если вы решаете простую задачу. Например, если контекст не сильно влияет на результат или вовсе отсутствует. В исключения запишем случаи, когда у вас небольшое количество размеченных данных.

😮‍💨 Нагрузка на инфраструктуру тем меньше, чем меньше количество параметров у модели. Коммерческие компания считают ресурсы и вам нужно уметь их экономить. Уметь вычислять число параметров модели также важно дата сайентисту, как плюсовову программисту, оценивать сложность алгоритма. Вас не заботят чужие деньги?) Подумайте о планете)

🤔 С ростом сложности модели повышается сложность ее отладки, а не только сложность ответа на формальные запросы интерпретируемости от непрофильных специалистов.

Замедляете свое развитие, сужаете кругозор и становитесь фитпредиктором несмотря на то, что обучаете нейронные сети на 🔥, а не логрег. Вдохновляетесь только статьями про 🌿? В хороших исследованиях всегда приводятся сравнения с качественными бейзлайнами.

📺 Не знакомы с методами древних и предпочитаете видео-контент? Не смог убедить, в итоге, вас интересуют только лучшие стратегии тюнинга BERTа? Смотрите Моделирование на практике из трека NLP in Practice.

💬 Что у вас крутится в проде?)

#mlsysdesign #nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥123🥰1
🧑‍🎓 Data Fest 2023 в гостях у Альфа-Банка

👨‍🏫 Начал осваивать новые профессии чтобы искусственному интеллекту было сложнее меня оптимизировать.

🤡 Неполный список новых компетенций, которые пришлось освоить чтобы провести Data Fest: ведущий, участник панельной дискуссии, специальный корреспондент, экскурсовод и тамада.

Ставьте 🔥, если были очно или смотрели в online.

Ставьте 🐳, если пропустили экскурсию по офису, непрочь пообщаться вживую с командой Лаборатории и тоже хотите ударить в гонг. Обязательно организую повторный цикл экскурсий, если будет много желающих.

📺 Смотрите в записи на youtube, если пропустили.

#митап #видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳49🔥30👍12👏32