Спасибо всем пришедшим сегодня на митап, были классные доклады, не менее классные вопросы и живые дискуссии после основной сессии! Обязательно повторим! Фоточки выложу как будут готовы)
🔥28👏7👍3🦄2
Мне даже особо добавить нечего) Огромное спасибо Жене и ребятам из Альфы что откликнулись , и особое нашему деврелу Лене Гусаровой -- и ее команде конечно -- за организацию — получилось круто 🙌
Фоточки
Фоточки
levitin.lite.gallery
МТС Митап для DATA SCIENTISTS
🔥10❤3👏2🦄1
Forwarded from Нескучный Data Science (Евгений Смирнов)
🔥 МТС BIG DATA X Лаборатория Машинного обучения
🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.
🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!
📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.
🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!
📸 Фото вышли огонь, забирайте по ссылке.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥15👏3❤1
#кейсы #ML
Митап прошел, пора возвращаться к историям, ради которых канал и создан.
Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.
Во времена ковида🤢 лично для себя прививаться или нет я принимал по соотношению стоимости страховки и выплаты при наступлении осложнений
Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):
5%
0.5%
4,2%
6.7%
3.4%
22%
Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?
Только, чур, на глаз 🧐
Ответ:63,7% (проверяйте!)
А теперь, собственно, сама история.
Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.
Моей радости не было предела — ну наконец-то, разумное применение кластеризации!
Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)
Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.
Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.
Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.
Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию
Митап прошел, пора возвращаться к историям, ради которых канал и создан.
Этот кейс вспомнил, когда говорил со своим хирургом о страховании осложнений от операций.
Когда дают подписать информированное согласие — пишут возможные осложнения и их частоту встречаемости со ссылкой на источник, так вот если ввести поправку на множественные сравнения
Он сначала чуть смеялся, даже не слышал о таком.
Тема действительно редкая, сходу гуглится программа у испанцев — осложнения обязательно страхуются.
Еще публикации 10-15 летней давности в пластической хирургии — что логично, ведь пластику, как правило, делают за свои, то есть вписаться в бюджет крайне желательно — и вот здесь-то страховка от осложнений не помешает.
Во времена ковида
Небольшой тест на глазомер.
Ниже частота наступления осложнений из информированного согласия (реального):
5%
0.5%
4,2%
6.7%
3.4%
22%
Давайте сделаем заведомо неверное предположение что все осложнения независимы, сразу два осложнения у одного пациента встречается пренебрежимо редко и зададимся вопросом «какова вероятность что после операции не наступит осложнений»?
Только, чур, на глаз 🧐
Ответ:
А теперь, собственно, сама история.
Собеседовал DS из страховой (а мб и лизинговой) компании, попросил рассказать про кейс.
А уж его кандидат выбрал что надо: кластеризовать водителей по манере езды — найти лихачей и тех, кто экономит топливо.
Моей радости не было предела — ну наконец-то, разумное применение кластеризации!
Можно же по каждому построить распределение скоростей / ускорений в каком-то небольшом окне, а дальше у нас в руках очень разумная метрика — расстояние между распределениями (тот же PSI сгодится) — и кластеризируй на здоровье.
Не дожидаясь начала ответа, осыпал кандидата комплиментами)
Оказалось весьма преждевременно 😔:
Взяли много разных табличных фичей (включая даже цену автомобиля) и накинули k-means с евклидовым расстоянием 😬
Ну хоть про локоть / силуэтт сказала, не вспомнив что есть что.
Когда так делают, мне просто физически больно.
К сожалению, ЭТО (не буду писать ругательства) часто встречается.
Эффекты масштаба (как фичи друг относительно друга отмасштабируешь, такие кластеры и получишь) и проклятие размерности и начисто игнорируются.
Когда же все-таки делать кластеризация (именно unsupervised задачу)?
Например,
- когда фичи равнозначны и в одном масштабе (гео — широта и долгота подходят пд такие фичи)
- или когда есть разумная функция расстояния между объектами и мы умеем ее вычислять
- или когда данные в виде эмбеддингов, уже обученных на близость (см. Metric Learning)
- или когда есть разумные предположения почему эмбеддинги близких объектов будут близки по расстоянию
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍27🔥9❤3🤝1🦄1
Попробуем новый жанр по просьбе хорошего товарища
Ребята из Solva открывают банк в Казахстане, ищут четверых DS / DA в риски (позница и SME)
Если интересно — пишите Диме @viktorovd напрямую, если хотите чтобы ответили быстро — сошлитесь на канал
Локация на выбор – Алматы, Москва или полностью удалённо.
Вилки примерно 400 000 – 500 000 рублей Net + бонусы
Ниже формальные описания
UPD: длинные описания вакансий перенес в комменты под постом
Ребята из Solva открывают банк в Казахстане, ищут четверых DS / DA в риски (позница и SME)
Если интересно — пишите Диме @viktorovd напрямую, если хотите чтобы ответили быстро — сошлитесь на канал
Локация на выбор – Алматы, Москва или полностью удалённо.
Вилки примерно 400 000 – 500 000 рублей Net + бонусы
Ниже формальные описания
UPD: длинные описания вакансий перенес в комменты под постом
👍11🔥3🦄2❤1
#корпжиза
Трусость в карьере DS
Несколько лет собирался с силами сделать операцию на перегородку, лор-врачей трусил с детства – правда было с чего – на картинке почти такая же сцена как мне аденоиды удаляли в горбольнице Твери в 1994 году (только там ремни были на подлокотниках, ноги привязывали простынями, а тазик для крови не висел на шее, а держала медсестра).
Вот сделал (кстати, если кому вдруг нужно – поделюсь контактом топового хирурга) и задумался насколько страх двигатель карьеры – и тут к месту пришелся относительно недавний кейс.
Дано – Middle+ DS, которого зовут на два проекта: первый про LLM-агентов, там сделано несколько прототипов, много хаоса и менеджеров в 4 раза больше чем трудяг (у семи нянек дите без глазу). Второй – в технически зрелую команду разбираться с новым доменом данных.
2 варианта – 2 FOMO – в первом очевидно легко быстро дорасти до руководящей позиции – новое хайповое направление, у бизнеса большой аппетит – точно можно расти вместе с командой. Когда еще такая возможность представится? Бонусом идет хорошее повышение со старта.
А во втором можно серьезно прокачаться (под чутким и внимательным руководством) и в NLP и в написании продового кода, и тоже боязно, что если пойти по первому треку – не у кого будет hands on учиться. Здесь повышение вроде тоже возможно, но не так определенно. И рост в синьора а не лида.
Что сам выберешь, что DSу посоветуешь? Пишите в комментарии – будет любопытно обменять мнениями.
PS:
Как по мне,страх – главная причина неудачи в карьере.
И он же главный двигатель вперед.
Очень боишься потерять работу – собери портфель, который платит тебе твой же оклад дивидендами / купонами. Или собери ачивок чтобы ее легче находить – места на Kaggle, публикации. Или другие активы – свои проекты / продукты, доли в стартапах, курсы и т.д.
Трусость в карьере DS
Несколько лет собирался с силами сделать операцию на перегородку, лор-врачей трусил с детства – правда было с чего – на картинке почти такая же сцена как мне аденоиды удаляли в горбольнице Твери в 1994 году (только там ремни были на подлокотниках, ноги привязывали простынями, а тазик для крови не висел на шее, а держала медсестра).
Вот сделал (кстати, если кому вдруг нужно – поделюсь контактом топового хирурга) и задумался насколько страх двигатель карьеры – и тут к месту пришелся относительно недавний кейс.
Дано – Middle+ DS, которого зовут на два проекта: первый про LLM-агентов, там сделано несколько прототипов, много хаоса и менеджеров в 4 раза больше чем трудяг (у семи нянек дите без глазу). Второй – в технически зрелую команду разбираться с новым доменом данных.
2 варианта – 2 FOMO – в первом очевидно легко быстро дорасти до руководящей позиции – новое хайповое направление, у бизнеса большой аппетит – точно можно расти вместе с командой. Когда еще такая возможность представится? Бонусом идет хорошее повышение со старта.
А во втором можно серьезно прокачаться (под чутким и внимательным руководством) и в NLP и в написании продового кода, и тоже боязно, что если пойти по первому треку – не у кого будет hands on учиться. Здесь повышение вроде тоже возможно, но не так определенно. И рост в синьора а не лида.
Что сам выберешь, что DSу посоветуешь? Пишите в комментарии – будет любопытно обменять мнениями.
PS:
Как по мне,страх – главная причина неудачи в карьере.
И он же главный двигатель вперед.
Очень боишься потерять работу – собери портфель, который платит тебе твой же оклад дивидендами / купонами. Или собери ачивок чтобы ее легче находить – места на Kaggle, публикации. Или другие активы – свои проекты / продукты, доли в стартапах, курсы и т.д.
👍32🔥8❤5🦄2🙉1
Дата канальи — про «специалистов» в данных / ML / AI
#кейсы #ML после того поста вспомнился кейс когда нормальное отношение к мату помогло спасти денег -- учредитель засветился в юр связях с примерно таким ликвидированным ООО (в 2021 создано, в 2023 ликвидировано). прочитайте название наоборот . Словарь…
#кейсы #ML
Когда у меня бессоница и закончился Мелаксен, я не считаю овец и не втыкаю в шортсы.
Таймкиллер должен быть каждый раз разный, вот сегодня вернулся к тому посту и поискал еще компаний, они с годами регистрации в ФНС:
ООО «Адзип» 2010
ООО «Онвог» 2003
ООО «Куни» 2005
ООО СПК «Анал» 2009
ООО «Чорт» 2024
ООО «Тудранктуфак» 2008
ООО "Нли Ю" 2016
ООО «Эс как доллар» 2017
ООО "ПОЦ" 2009
ООО "СИК" 2014 (азерб.)
ООО "Сиким" 1999 (азерб.)
а вот другое ООО "Сиким" 2012 года, просуществовавшее меньше суток: дата регистрации 15.10.2012, дата ликвидации 15.10.2012, потому их однодневками и называли
UPD чет вспомнился похожий кейс с физиками, на днях расскажу
Когда у меня бессоница и закончился Мелаксен, я не считаю овец и не втыкаю в шортсы.
Таймкиллер должен быть каждый раз разный, вот сегодня вернулся к тому посту и поискал еще компаний, они с годами регистрации в ФНС:
ООО «Адзип» 2010
ООО «Онвог» 2003
ООО «Куни» 2005
ООО СПК «Анал» 2009
ООО «Чорт» 2024
ООО «Тудранктуфак» 2008
ООО "Нли Ю" 2016
ООО «Эс как доллар» 2017
ООО "ПОЦ" 2009
ООО "СИК" 2014 (азерб.)
ООО "Сиким" 1999 (азерб.)
а вот другое ООО "Сиким" 2012 года, просуществовавшее меньше суток: дата регистрации 15.10.2012, дата ликвидации 15.10.2012, потому их однодневками и называли
UPD чет вспомнился похожий кейс с физиками, на днях расскажу
spark-interfax.ru
ООО АДЗИП, Самарская область, Тольятти (ИНН 7206042751), реквизиты, выписка из ЕГРЮЛ, адрес, почта, сайт, телефон, финансовые показатели
🔎Система СПАРК. ООО АДЗИП, Тольятти, Самарская область (ИНН 7206042751): ✓Риски и надежность компании ✓Выписка из ЕГРЮЛ ✓Финансовые показатели из бухгалтерской отчетности ☎Реквизиты, телефон, почта, адрес и сайт🔎2 арбитражных дела, 0 исполнительных производств…
😁12👍2🔥2🤔1🙏1🦄1
#кейсы #ML
О чем был пост выше?
Сейчас объясню на другом кейсе
Итак, в лучших традициях «продуктовой культуры» корпораций в одной компании по схеме MVP (как ее понимал корпоративный PO) запускался продукт — продажа неких предметов по схеме BNPL = buy now, pay later (в рассрочку в бытовом ее понимании – формально эти понятия часто разделяют по тому кто на себя берет кредитный риск дефолта покупателя – сервис или кредитная организация, но сейчас не об этом).
Деньги имеют свою стоимость, поэтому маржа должна стоимость фондирования перекрывать.
Такие продукты содержат, очевидно, еще и кредитный риск -- ведь клиент может перестать выплачивать деньги, и такой долг придется отдавать на взыскание (тоже косты, которые надо бы заложить).
А еще в продукте операционные косты и косты на маркетинг 🤓
А маркетинг штука недешевая
И вот приходит PO в панике:
Задачка на арифметику (числа относительно условные) – если тысяча показов баннера стоит в среднем 30 рублей, конверсия в клик 0.3%, а в покупку 1% от кликов, сколько стоит один лид?
1000 рублей. Со ста тысяч показов (3 000 рублей) будет 300 кликов и 3 покупки.
На тысяч лидов нужен миллион рублей рекламы
Начинаю разбираться, и понимаю что аналитика в продукте нет.
Почему?
Да потому что ФЛК нет
ФЛК – это формат-логический контроль – то есть проверки на поля формы.
Например, что в поле с типом date нельзя строку вписать.
Для ДУЛ (документ, удостоверяющий личность) эти проверки легко гуглятся
Итак, что же собрали за первую тысячу заявок:
▪️Имя и отчество в поле “имя” (вроде Егор Егорович)
▪️Не сходится контрольная сумма паспорта
▪️Паспорт выдан в день рождения – например, BirthDate 1954-06-13 и IssueDate 1999-06-13 – такой паспорт считается недействительным
▪️В поле “фамилия” указан телефон или “5рапр”
▪️Несуществующий номер телефона
▪️Орган, выдавший паспорт гражданина РФ (тип документа) – “Мвд”, “ЕАС”, “ТП 16”
▪️Дата выдачи и дата рождения – одна и та же дата
▪️Латиница в ФИО в общегражданском паспорте (Vasiliy, Ruslan,etc)
▪️Серия паспорта 9876, остальные поля заполнены нормально
▪️Число вместо имени
▪️и всякое нецензурное 🤡
Как мог бы выглядеть процесс, если бы не сэкономили на консультации кредитчика (хотя бы знакомому пивка бы поставили):
1. Верификация ДУЛ и полей ввода (ФЛК)
2.Проверка в стоп-листах (террористы, обнальщики, судимость и пр.)
3. Модели определения мошеннических заявок
4. Модели вероятности дефолта (PD), размера убытка – Loss Given Default (LGD) – предмет все же можно изъять при неплатеже, и Residual Value Prediction (RVP) – цена будет зависеть и от износа и от рыночных условий
5. Проверка на открытые дела о банкротстве ФЛ
6. Данные по кредитной нагрузке и просрочкам (бюро кредитных историй)
7. Определение предельной долговой нагрузки
8. Вычисление EL (expected losses)=PD*LGD*EAD
9. Сравнение EL + Costs vs Profit
10.Политики управления портфелем, кредитной нагрузкой, графиком погашения, мониторинг портфеля и пр
Вот уж MVP так MVP 😆
И не стоит бросаться делать модель если ломается совсем в другом месте
О чем был пост выше?
Сейчас объясню на другом кейсе
Итак, в лучших традициях «продуктовой культуры» корпораций в одной компании по схеме MVP (как ее понимал корпоративный PO) запускался продукт — продажа неких предметов по схеме BNPL = buy now, pay later (в рассрочку в бытовом ее понимании – формально эти понятия часто разделяют по тому кто на себя берет кредитный риск дефолта покупателя – сервис или кредитная организация, но сейчас не об этом).
Деньги имеют свою стоимость, поэтому маржа должна стоимость фондирования перекрывать.
Такие продукты содержат, очевидно, еще и кредитный риск -- ведь клиент может перестать выплачивать деньги, и такой долг придется отдавать на взыскание (тоже косты, которые надо бы заложить).
А еще в продукте операционные косты и косты на маркетинг 🤓
А маркетинг штука недешевая
И вот приходит PO в панике:
🤡🐓😱
“Деньги на маркетинг в песок уходят, приходят заявки, но по 80% приходит отказ от провайдера скоринга (причину в ответе не сообщают — просто refuse). Скоринг мы закупаем у внешнего поставщика — потенциальный клиент заполняет паспортные данные и телефон, через API от поставщика получаем решение — отказ или аппрув (даже не скорбалл и не PD !!!). Cделайте быстренько свою скоринговую модель чтобы отказов было в разы меньше. Вот прям щаз!!!!”
Задачка на арифметику (числа относительно условные) – если тысяча показов баннера стоит в среднем 30 рублей, конверсия в клик 0.3%, а в покупку 1% от кликов, сколько стоит один лид?
На тысяч лидов нужен миллион рублей рекламы
Начинаю разбираться, и понимаю что аналитика в продукте нет.
Почему?
Да потому что ФЛК нет
ФЛК – это формат-логический контроль – то есть проверки на поля формы.
Например, что в поле с типом date нельзя строку вписать.
Для ДУЛ (документ, удостоверяющий личность) эти проверки легко гуглятся
Итак, что же собрали за первую тысячу заявок:
▪️Имя и отчество в поле “имя” (вроде Егор Егорович)
▪️Не сходится контрольная сумма паспорта
▪️Паспорт выдан в день рождения – например, BirthDate 1954-06-13 и IssueDate 1999-06-13 – такой паспорт считается недействительным
▪️В поле “фамилия” указан телефон или “5рапр”
▪️Несуществующий номер телефона
▪️Орган, выдавший паспорт гражданина РФ (тип документа) – “Мвд”, “ЕАС”, “ТП 16”
▪️Дата выдачи и дата рождения – одна и та же дата
▪️Латиница в ФИО в общегражданском паспорте (Vasiliy, Ruslan,etc)
▪️Серия паспорта 9876, остальные поля заполнены нормально
▪️Число вместо имени
▪️и всякое нецензурное 🤡
Как мог бы выглядеть процесс, если бы не сэкономили на консультации кредитчика (хотя бы знакомому пивка бы поставили):
1. Верификация ДУЛ и полей ввода (ФЛК)
2.Проверка в стоп-листах (террористы, обнальщики, судимость и пр.)
3. Модели определения мошеннических заявок
4. Модели вероятности дефолта (PD), размера убытка – Loss Given Default (LGD) – предмет все же можно изъять при неплатеже, и Residual Value Prediction (RVP) – цена будет зависеть и от износа и от рыночных условий
5. Проверка на открытые дела о банкротстве ФЛ
6. Данные по кредитной нагрузке и просрочкам (бюро кредитных историй)
7. Определение предельной долговой нагрузки
8. Вычисление EL (expected losses)=PD*LGD*EAD
9. Сравнение EL + Costs vs Profit
10.Политики управления портфелем, кредитной нагрузкой, графиком погашения, мониторинг портфеля и пр
Вот уж MVP так MVP 😆
И не стоит бросаться делать модель если ломается совсем в другом месте
👍17❤6🔥5💯2🦄1
#ML
Чем мне нравится преподавать на физтехе и в вышке — студенты могут задать вопрос, на который сходу и не ответишь.
Вот и сегодня c семинара по рекомендашкам я ушел с домашним заданием —
При том что рассказать про связь BCE с ROCAUC, Precision и Recall проблем не составило, здесь я задумался.
Сначала сделаю оговорку, что можно оптимизировать сразу аппроксимацию nDCG:
ApproxNDCG
NeuralNDCG
Для торча оба лосса есть в allRank
Для любителей TF
Итак, ответ на вопрос студента в этой статье с NIPS 2009 года
В уравнении (2) pointwise loss чуть в более общем виде написан, но сразу после формулы указано что функцией ф может быть и сигмоида (что и приводит нас к BCE), а далее несколько страниц доказательства связи минимизации лоссов с максимизацией ранжирующих метрик (для примера в статье взяли MAP и nDCG) -- ровно то что нужно!.
Приятного вечернего чтения!
Под формулы так хорошо засыпается 😴
Чем мне нравится преподавать на физтехе и в вышке — студенты могут задать вопрос, на который сходу и не ответишь.
Вот и сегодня c семинара по рекомендашкам я ушел с домашним заданием —
«есть ли теоретические предпосылки к тому что оптимизируя BCE мы растим nDCG?»
При том что рассказать про связь BCE с ROCAUC, Precision и Recall проблем не составило, здесь я задумался.
Сначала сделаю оговорку, что можно оптимизировать сразу аппроксимацию nDCG:
ApproxNDCG
NeuralNDCG
Для торча оба лосса есть в allRank
Для любителей TF
Итак, ответ на вопрос студента в этой статье с NIPS 2009 года
В уравнении (2) pointwise loss чуть в более общем виде написан, но сразу после формулы указано что функцией ф может быть и сигмоида (что и приводит нас к BCE), а далее несколько страниц доказательства связи минимизации лоссов с максимизацией ранжирующих метрик (для примера в статье взяли MAP и nDCG) -- ровно то что нужно!.
Приятного вечернего чтения!
Под формулы так хорошо засыпается 😴
🔥26👍9❤5🤓3🦄1
#корпжиза
AI-продакты – кто это? 👀
В последние несколько месяцев отовсюду идут запросы на них, от крупных банков, соцсети, финтеха и даже от железячных компаний.
Причем все хотят такого, такого, такого, и чтоб пробивной, и чтоб за бизнес, и чтоб проактивный, и чтоб в деталях понимал реализацию и заодно инженеров учил и сам проектировал и сам бюджет находил. И главное – за результат (продукт) целиком отвечал 🧚♂️. Восьмирукий Громозека, не меньше
Отвечаю обычно рекомендацией знакомых ML-лидов 🧑💻, но чаще всего они “оказываются недостаточно бизнесовыми” 🙅♂️, чего бы это ни значило (хотя обычно значит это примерно так – “сам придумай как нам заработать денег и потом еще докажи что ты их заработал”). И вроде похожая позиция раньше называлось CDO (в чьих обязанностях как раз управление данными и их монетизация), но нет – фокус именно на продукте, просто он может звучать достаточно широко, вроде придумай новый способ монетизации в рекламе 😆.
И вот что-то я в сомнениях, каков же портрет идеального кандидата и из кого такие ребята получаются 🤔.
Но что таких вакансий с каждым днем будет все больше, по крайней мере в этом году, сомневаться не приходится. 💯
А у вас есть знакомые AI-продакты?
Чем они занимаются?
Как доросли до позиции такой?
UPD только что в личку прислали в качестве примера ссылу на такую вакансию
AI-продакты – кто это? 👀
В последние несколько месяцев отовсюду идут запросы на них, от крупных банков, соцсети, финтеха и даже от железячных компаний.
Причем все хотят такого, такого, такого, и чтоб пробивной, и чтоб за бизнес, и чтоб проактивный, и чтоб в деталях понимал реализацию и заодно инженеров учил и сам проектировал и сам бюджет находил. И главное – за результат (продукт) целиком отвечал 🧚♂️. Восьмирукий Громозека, не меньше
Отвечаю обычно рекомендацией знакомых ML-лидов 🧑💻, но чаще всего они “оказываются недостаточно бизнесовыми” 🙅♂️, чего бы это ни значило (хотя обычно значит это примерно так – “сам придумай как нам заработать денег и потом еще докажи что ты их заработал”). И вроде похожая позиция раньше называлось CDO (в чьих обязанностях как раз управление данными и их монетизация), но нет – фокус именно на продукте, просто он может звучать достаточно широко, вроде придумай новый способ монетизации в рекламе 😆.
И вот что-то я в сомнениях, каков же портрет идеального кандидата и из кого такие ребята получаются 🤔.
Но что таких вакансий с каждым днем будет все больше, по крайней мере в этом году, сомневаться не приходится. 💯
А у вас есть знакомые AI-продакты?
Чем они занимаются?
Как доросли до позиции такой?
UPD только что в личку прислали в качестве примера ссылу на такую вакансию
❤11🔥9👍5🦄2💯1
Дата канальи — про «специалистов» в данных / ML / AI
#кейсы #ML Сегодня 31 декабря. Поэтому расскажу кейс о работе 31 декабря много лет назад. Горел флагманский и достаточно сложный и в плане бизнеса и плане инфры (первое внедрение в пром на спарке за историю банка, причем на паре десятков источников и с кучей…
Все-таки немного тот коллега публичен (напомню, что это самый синьорный DS из тех кого я встречал или про кого когда-нибудь слышал), почти случайно нашел лекцию с ним -- очень прям рекомендую -- квинтессенция опыта как раз для "пользователей AI/ML" и где подстелить соломки в AI-проектах
YouTube
Лекция AI/ML - Вредные советы⚡️⚡️Лев Темин ⚡️⚡️ СБЕР
Чего не стоит делать при разработке ML продуктов, и как зафейлить даже более ли менее летающий продукт? Рассказывает Лев Темин, Исполнительный директор управления развития компетенций по исследованию данных, СБЕР ⚡️
Оператором конкурса выступает президентская…
Оператором конкурса выступает президентская…
🔥10👍9❤2
#ML
Для тех кто не оценил лекцию -- ML-шутеечка (не судите товарища строго, 2017 год, но все же)
смотрите внимательно на схему
Для тех кто не оценил лекцию -- ML-шутеечка (не судите товарища строго, 2017 год, но все же)
😁10🦄5❤2🔥2
Нескучный Data Science
🔥 МТС BIG DATA X Лаборатория Машинного обучения 🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что…
Отличные новости 🥳
Готовы записи выступлений ребят с нашего митапа!
Горжусь спикерами -- доклады реально были интересные 😎, причем для многих это один из первых опытов публичных выступлений, причем не на маленькую аудиторию -- человек 70-80 в зал поместилось 😊
Спасибо спикерам за доклады, гостям за классную дискуссию и команде организаторов за душевную атмосферу! 👏
UPD: Меня только что поправили -- было 105 человек оффлайн! 🔥
Готовы записи выступлений ребят с нашего митапа!
Горжусь спикерами -- доклады реально были интересные 😎, причем для многих это один из первых опытов публичных выступлений, причем не на маленькую аудиторию -- человек 70-80 в зал поместилось 😊
Спасибо спикерам за доклады, гостям за классную дискуссию и команде организаторов за душевную атмосферу! 👏
UPD: Меня только что поправили -- было 105 человек оффлайн! 🔥
🔥33👍11❤9❤🔥1👏1🦄1
#ML
Когда на собеседованиях спрашивают про сильные стороны -- честно отвечаю что прокрастинация это моя сильная сторона.
Вот неделю откладывал добить текст статьи, а тут как раз свежий обзор вышел -- 22 часа назад. Не прошло и полгода 😆
Для тех кто далек от рекомендашек -- классический сюжет про здоровую прокрастинацию.
Желаю вам спокойных выходных без суеты🐳
Когда на собеседованиях спрашивают про сильные стороны -- честно отвечаю что прокрастинация это моя сильная сторона.
Вот неделю откладывал добить текст статьи, а тут как раз свежий обзор вышел -- 22 часа назад. Не прошло и полгода 😆
Для тех кто далек от рекомендашек -- классический сюжет про здоровую прокрастинацию.
Желаю вам спокойных выходных без суеты🐳
🐳21🔥9❤5👍4🤔1
#ML
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓
Начну издалека и разобью ответ на несколько постов.
Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так)🌈
Не верите?
Ну вот для разминки 🏋♂️ пара задачек от Александра Дьяконова
Раз
Два
И одна прямиком из статьи:
Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?
Короткий ответ — нет
Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.
Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)
Конечно, таких фокусов хочется избежать 🧙♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.
Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).
Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).
Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.
PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях
PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)
PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
В комментах под постом про связь оптимизации BCE и ростом NDCG меня попросили рассказать про связь минимизация логлосс и максимизация ROCAUC 🤓
Начну издалека и разобью ответ на несколько постов.
Не из вредности, а из-за того что в ROCAUC как правило, не углубляются и оттого возможны оптические иллюзии (назовем пока так)
Не верите?
Ну вот для разминки 🏋♂️ пара задачек от Александра Дьяконова
Раз
Два
И одна прямиком из статьи:
Если ваш алгоритм максимизирует ROCAUC, максимизирует ли он одновременно площадь под кривой Precision-Recall (AUCPR или AP == average precision)?
Хотя кривые из пространства (FPR, TPR) однозначно переводятся в кривые из пространства (Recall, Precision), более того, если одна ROC-кривая везде лучше (или равна) другой (слева-вверху, в литературе называют dominate 🥊) то и в координатах (Recall, Precision) это сохранится, причем наоборот тоже работает.
Пример двух пересекающихся ROC-кривых, в которых при переводе в (Recall, Precision) радикально меняется соотношение площадей под графиками в статье The Relationship Between Precision-Recall and ROC Curves (2006)
Конечно, таких фокусов хочется избежать 🧙♂️, для этого все же нужно вспомнить про задачу — редко когда нам надо одинаково хорошо уметь ранжировать по всей выборке, чаще именно ранжировать нужно уметь в каком-то регионе (например по FPR), поэтому у ROCAUC множество модификаций — PAUC (Partial AUC), TPAUC, OPAUC, SAUC, gAUC (generalised AUC), GAUC (group AUC), GAUC@k, LAUC@k (limited AUC) и всякие другие.
Здесь снова вспоминается тезис Александра Дьяконова из неопубликованного (а мб он уже опубликовал?) учебника о том что все банки используют GINI (он же ROCAUC) в задаче PD (определения вероятности наступления дефолта), а ROCAUC не то чтобы в этом случае сильно подходит — IMHO, ровно потому что ранжирование интересно уже выше отсечки одобрения кредита (и там калиброванный PD войдет уже в EL).
Но не скорингом единым — PAUC и другие модификации широко используются в рекомендашках и в поиске (да, и в RAG тоже -- на этапе retrieval).
Если хотите с азов 💾, то про сами сами ROC-кривые, их доверительные интервалы, обобщения на мульткласс можно почитать здесь а про связь ROCAUC с вероятностью корректно ранжировать — в журнале по радиологии за 1982 год.
PS: Если с researchgate сложности - маякните единорожкой, выложу pdf’ки в комментариях
PPS: про связь ROCAUC и логлосс уже в следующем посте, пока лишь намекну статьей про DeepFM (таб. 2)
PPPS: уже почти не удивляюсь когда вижу статью с названием Deep ROC analysis <...> в приличном журнале за 2021 год 😱, вот и вы не удивляйтесь этому посту 😆
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍15🦄10❤9