Нескучный Data Science
11.8K subscribers
313 photos
17 videos
1 file
181 links
Нюансы работы в Data Science, о которых ты не узнаешь в школе
👨‍💻 Managing AI Director, Sber @smirnovevgeny
https://www.linkedin.com/in/smirnov-evgeny/

По вопросам сотрудничества @datascience_assist

Регистрации в Роскомнадзор № 5278866657
Download Telegram
Media is too big
VIEW IN TELEGRAM
Революция в кредитном скоринге full video

🧠 ChatGPT уже изучила курс DL in Finance и понимает, как провести революцию в кредитном скоринге.
📺 Посмотрите ролик для внутреннего конкурса проектов и узнаете, насколько наши с ней взгляды совпадают.

🤔 Сейчас нейронки уже стабильно улучшают core-бизнес процессы компании на протяжении почти трех лет. Самое время рассказать, что было на старте проекта, с какими сложностями мы столкнулись и как их преодолели:

💪 Не было понимания зачем нужны нейронные сети - показали их эффективность в core-бизнес направлениях.
🔍 Не было инфраструктуры для применения моделей - нашли ресурсы внутри компании без дополнительной закупки.
🦾 Не было места в очереди на получение доступов в ближайшие три месяца - научились открывать двери без специального доступа по пропуску.
📨 Не было интеграции с кредитным конвеером - передавали файлики по почте на протяжении полутора лет.

🧑‍💻 На этот раз у нас не было бюджета на оператора и актерские курсы - сделали все сами.
🔜 В ближайшее время выпустим статью про нейронку для объединения всех нейронок (транзакции x2, бки, другое), оставайтесь на связи.

Команда освоила новую профессию, ставьте 🔥если вам понравилось видео.
P.S. знаю, что у второго актера начинает появляться фан-база.

💬 В каком формате вы показываете бизнесу ценность Data Science?)

#автоматизация_ds #ML_Lab #видео
🔥36👍94👎4🙈4🤯2🌭2😱1
Рекомендую бесплатную Школу Аналитиков

💩 Платные курсы по анализу данных для масс-маркета редко отбивают деньги вкладчиков в светлое будущее из-за отсутствия входного тестирования и низкого качества преподавателей.

🔝 Бесплатные программы со специалистами в своей области являются большой редкостью. В следствии чего, при первой коммуникации не сразу поверил одному из сооснователей "School of Analytics" и навалил кучу неудобных вопросов. Однако после ответов на них, готов ее вам порекомендовать.

👨‍🏫 Кто преподает?
Опытные специалисты в предметной области: Senior Data Analyst, Head of BI Analytics, Head of Product Analytics.

🧑‍💻 Как попасть?
Пройти серьезный отбор среди 10 человек на место. Необходимо быть недавним выпускником ВУЗа. Уже отобрали 49 студентов на первый поток в марте.

📅 Когда следующий набор?
Стартует в августе, начнут читать годовой курс в сентябре.

📅 Когда проходят занятия?
По субботам три пары с 15:30 до 21:00.

💳 Сколько это стоит?
Бесплатно.
Более того, у преподавателей нет денежной мотивации, но есть цель расширить свою команду за счет сильных выпускников.

Программа курса, этапы отбора, состав преподавателей и многое другое.

🗣 В Школе Аналитиков активно знакомят студентов с работой в индустрии и нюансами построения карьеры.

Завтра пообщаюсь со студентами на следующие темы:
⁃ работа в Альфа-Банке, задачах руководителя лаборатории и карьерном пути;
⁃ как ускорить карьерный путь:
⁃ ситуация на рынке труда в DS;
⁃ премии Forbes 30 до 30;
⁃ организация и участие в соревнованиях по Data Science;

Запись интервью.

#курсы
🔥32👎9👍3🤔31
Освобождаем операторов колл-центра от рутины

📺 Сейчас начинается митап от X5 Tech.
🙀 @andrew_son расскажет про задачу, которую мы научились решать лучше человека.
🕖 Выступление Андрея в 19:00.

📡 Подключайтесь к трансляции и вы узнаете:
⁃ Зачем Альфа-Банку нужен классификатор на 1000+ классов.
⁃ Как построить процесс разметки данных с нуля, а главное как убедить бизнес в необходимости этого процесса.
⁃ Какую архитектуру нейронной сети мы использовали.
⁃ Как решение работает в продакшне.
⁃ В каких случаях нейронки могут решать задачу лучше человека.

💬 Задавайте вопросы Андрею в чате трансляции для ответа в режиме онлайн или в комментариях, если не успеваете и будете смотреть в записи.

#nlp #видео
🔥14👍53
🧑‍🎓 Довольно просто объяснить студентам как работает анализ данных, ведь они уже сдали экзамены по статистике, матану и проге. Особенно продвинутым анализ данных может показаться даже недонаукой.

💸 В разговоре с бизнесом уже гораздо тщательнее приходится подбирать слова и аналогии чтобы убеждать в потенциальной пользе Data Science. К счастью, у большинства из них есть мотивация оптимизировать свои процессы, зашитая в KPI.

👩‍👦 Но как рассказать подробно про анализ данных маме? Как рассказать об этом тем, кто не обладает нужным техническим бэкграундом или его мотивация разобраться не зашита в KPI?

👎 Сказать, что вы айтишник - удел слабых.
💪 Выпустить статью на РБК - удел мудрых.
💪💪💪 Сняться в кринжовом сериале Data Sapiens - удел отважных.

В этом раз выбран путь мудрых. Читайте в РБК "Скоринг за секунды: как нейросети изменили выдачу кредитов".

💬 Как вы рассказываете маме про вашу работу?

#статьи #dl_in_finance
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥72
Как научить нейронку решать задачу лучше специалиста?

Рассмотрим процесс, в котором решение принимает специалист в предметной области. Например, это может быть врач, ставящий диагноз по ЭКГ или флюорограмме, оператор колл-центра, обслуживающий клиентов, или даже дата сайентист, обучающий модели.

🤔 Как разработать модели, которые будут работать лучше этих специалистов?

👉 Пойдем по стандартному алгоритму работы DSа:
1. Начнем с глубокого интервью со специалистом, где выясним на основании каких данных и какие он принимает решения.
2. Переведем задачу в термины машинного обучения.
3. Соберем данные, необходимые для принятия решения, и целевую переменную.
4. Замеряем качество работы специалиста при помощи кросс-разметки.

Отлично, задачу поставили, данные собрали, качество замеряли.
👉 Минуточку, модели машинного обучения - это не искусственный интеллект, они всего лишь учатся восстанавливать параметрическую зависимость между данными и целевой переменной и делают это с погрешностью.
😓 Получается, модель всегда будет работать хуже человека за счет наличия погрешности?

Действительно модели будут в среднем работать хуже специалиста, но есть выход:
1. Обучаться на примерах, в которых согласованы несколько специалистов.
2. Использовать в обучении примеры лучших специалистов/экспертов.

📈 Комбинация из этих подходов позволит работать лучше, чем плохой специалист и средний специалист. Лучших специалистов получится превзойти, если обучаться на разметке комитета лучших специалистов и запрещать им объединяться на практике)

🤔 Не стоит забывать про еще один тип погрешности, связанный с неточностью постановки задачи. Например, в случаях классификации на 1000+ классов авторы каталога классов могут заложить в него заведомо неразделимые для экспертов классы.

👉 В итоге, точность работы в модели в бизнес-процессе ограничивается комбинаций модельной ошибки, погрешностью в разметке и погрешностью в постановке задачи.

💬 Как бы вы поставили задачу по оптимизации работы дата сайентистов?)

#mlsysdesign #nlp
👍14🔥7💯4
Отожмут ли вашу работу ChatGPT и другие нейронные сети?

🚀 ChatGPT стал синонимом нейросетей для тех, кто незнаком с анализом данных. Ходят слухи, что с помощью этой модели можно решать задачи любого домена уже сейчас. Некоторые кандидаты уже даже записывают ChatGPT в качестве языка программирования в свою резюме.

🤔 Кого смогут оптимизировать нейронные сети? Скоро ли вас поработит искусственный интеллект?
Всерьез не задумывалась об этих вопросах до панельной дискусии на прошлой неделе, посвященной дню карьеры в ВШЭ. Сегодня поделюсь основными соображениями по этой теме.

🔌 Начнем с более хайпового вопроса. Если кратко, то вспомните закон сохранения энергии из школьного курса физики и расслабьтесь. Пока нейронные сети потребляют столько энергии на этапе обучения и инференса, можно спать спокойно. Однако люди учатся гораздо медленнее несмотря на то, что более эффективно используют энергию.

👨‍🏫 На данный момент вкладывается огромное количество человеческого капитала и вычислительных мощностей для обучения нейронных сетей, а не человека. Думаю, модели смогут оптимизировать всех кроме высококвалифицированных специалистов. Ведь "искусственный интеллект" лишь умеет очень хорошо повторять за своим учителем-человеком. Получается, в современном мире необходимо непрерывно учиться, иначе нейронные сети кто-то научит работать лучше вас.

👷 Нейронные сети нужно не только обучать, но еще и адаптировать под нужды бизнеса. К сожалению, сейчас не так много специалистов и компаний, которые умеют эффективно монетизировать данные и строить классные ml-продукты. Команды, которые умеют подчинять ml под нужды бизнеса, останутся актуальны до порабощения их скайнетом.

💬 Когда ожидаете, что SkyNet постучится в вашу дверь?)
👍19🤔2🐳21🙉1
LEVEL UP в Лаборатории

💪 Как вы знаете, в прошлом году Лаборатория внесла существенный вклад в улучшение бизнес-процессов Альфа-Банка.

Результаты работы команды трансформировались в ее карьерный рост:

📈 Стажер -> Junior x2 (март 2023)
👉 Адаптировали нейронки под кредитный скоринг для еще одной бизнес линии.
👉 Разработали более эффективный способ объединения нескольких нейронных сетей.

📈 Junior -> Middle x6 (май 2023)
👉 Внедрили нейронки в онлайн процесс кредитования, увеличили покрытие core-бизнес задач с и адаптировали их под новые источники данных.
👉 Освободили операторов от рутины в категоризации обращений на 1000+ классов.
👉 Внедрили внутреннее решения для чат-бота и voice-бота.

📈 Team Lead -> Team Lead+ (май 2023) [Команда монетизации нейронных сетей]
👉 Вырастили команду, защитили рост численности и стали лидерами по количеству внедренных моделей.
😱 Ожидайте интервью про карьерный рост от стажера до тим лида большой команды.

📈 Мы не останавливаемся на достигнутом, и продолжаем активный рост.
😱 Сейчас открыты 8 новых позиций в Лабораторию:
- 1 NLP Team Lead+
- 5 NLP DS
- 2 стажера (один из наставников kaggle master)

🔜 Мы уже готовим материалы к треку NLP in Practice, обновления трека DL in Finance, парочку статей на хабр и интервью.
🔜 Ожидайте анонсы в конце мая.

#ML_Lab #карьера
🔥41👍411
Мини-интервью с номинантом Forbes top 30 under 30
linkedin

Десять интересных фактов про героя этого поста:

🤝 Работали с Андреем вместе в Тинькофф, когда Data Science еще только начинал развиваться в финтехе.

🙀 Поставил распознавание речи в Тинькофф на промышленные рельсы еще в 2017-м.

📈 Запустил Защитника Олега, который защищает вас от спама и жуликов.

📺 Сыграл себя в фильме про историю Тинькофф.

🚀 Прошел путь Junior -> Team Lead всего за два года.

😤 Номинировался в рейтинг Forbes в фоновом режиме.

🇬🇧 Получил Global Talent без посредников.

😲 Сидел без работы пять месяцев.

🔜 Готовит новый дизрапт рынка в области венчурных инвестиций.

🧑‍💻 Активно нанимает и сейчас ищет к себе крутого DE.

💬 Задавайте в комментариях вопросы Андрею про Forbes, дизрапт продукты, венчурные инвестиции и как попасть в его команду.

💪 Голосуйте за Андрея, чтобы он оказался в списке победителей рейтинга Forbes.

#мини_интервью
👍3015🔥63❤‍🔥1🤷‍♂1🤣1
🚀 Сейчас активно готовим материалы к Data Fest. Будем рады вас видеть на офлайн дне, 2 июня.

😮 В этот день мы запустим новый образовательный трек NLP in Practice: 10 видео, 10 квизов, соревнование по ML Data Science.

🔄 Обновим трек DL in Finance тремя новыми видео, из которых вы узнаете на сколько мы продвинулись в монетизации нейронных сетей за прошлый год.

👉 Регистрируйтесь на офлайн часть, чтобы понетворкать с авторами треков и узнать интересующие вас детали из первых уст.

😩 Сейчас мы шлифуем датасет для соревы, поэтому не такие довольные, как на фото(

🔜 Ожидайте подробный анонс трека 2 июня.

#курсы #ML_Lab
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👍129
🚀 Запустили трек NLP in Practice

📚 Обучение в треке разбито на три ключевых блока: ознакомление с теоретической базой, изучение опыта построения nlp-продуктов и, наконец, закрепление на практике полученных знаний.

1️⃣ В первом блоке делается акцент на минимальном наборе хард скиллов. Все начинается с семантического анализа, без которого практически невозможно поставить корректно задачу. Далее разметке данных уделяется особое внимание, так как без нее практически невозможно обойтись сегодня в nlp. Очень часто на собеседованиях кандидаты предлагают использовать BERT во всех случаях жизни, поэтому мы не могли не покрыть вопрос выбора класса моделей и подходов для их эффективного обучения.

2️⃣ Во втором блоке вы узнаете из первых уст истории развития NLP-based продуктов Альфа-Банка: чат-бота, голосового бота, ассистента оператора, семантического анализа обратной связи клиентов, категоризации обращений клиентов на 1000+ классов и структуризации чеков ОФД. Вы услышите не только истории успеха, но и прочувствуете весь тернистый путь, который им предшествовал.

3️⃣ В заключительном части вас ждет соревнование по ML Data Science. На практике редко кто-то выбивает десятысячные доли целевой метрики, подбирая целую неделю гиперпараметры и стакая сотни моделей. В соревновании по DS, на последнем этапе каждый из участников будет выбирать уникальное множество примеров для доразметки, за счет которых сможет улучшить свое решение и обойти конкурентов. Таким образом, уникальный дизайн соревнования позволит более точно смоделировать работу дата сайентиста в индустрии.

💸 Общий призовой фонд соревнования - 800 тысяч рублей.

🅰️ По результатам квизов, 🔝 5 участников трека получат мерч Альфа-Банка.

💬 Вступайте в чат трека и соревнования, чтобы не пропустить важные новости.

P.S. уже начали использовать материалы трека для онбординга новых членов NLP-команды.

#курсы
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥37👍53🏆21
Соревнование по структуризации чеков ОФД

👨‍💻 Длинные выходные - отличная возможность вкатиться в соревнование по Data Science.

📈 Соревнование поможет вам закрепить навыки по построению NER + NEL-моделей.
💪 Уникальный формат позволит на последнем этапе сконцентрироваться на выборе примеров для доразметки, а не выбивании десятысячных долей метрики.

🤔 Не знаете с чего начать?

🚀 Запустите бейзлайн и засабмитьте результат на лидерборд.
💸 Далее, призовой фонд в 800к рублей и чувство товарищеского локтя 🫂 помогут сделать следующие сабмиты.

🤔 Недостаточно материалов?

📺 Посмотрите видео из трека NLP in practice: выбор класса моделей в NLP, опыт структуризации чеков ОФД в 🅰️, запуск этого соревнования, применение чеков в кредитном скоринге.
📑 Почитайте cтатьи на хабре по теме: классификация чеков ОФД, применение чеков в задачах банка.
🔜 Приходите на следующей неделе на разбор бейзлайна. Вступайте в чат соревнования чтобы не пропустить анонс.

🚨 Обратите внимание!

👉 Соревнование проходит в три этапа.
👉 Каждый этап является отборочных для последующего.
👉 В результате, вписаться в соревнование получится только до конца первого этапа в июне.

🎁 Датасет из соревнования можно переиспользовать для защиты дипломных и курсовых работ.

P.S. пишите в ЛС, если вы преподаете анализ данных и желаете использовать датасет для учебных целей ваших студентов.

#соревнования #nlp
🔥21👍83💊1