Дата канальи — про «специалистов» в данных / ML / AI
5.51K subscribers
216 photos
7 videos
12 files
200 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
Отпуск начался неплохо 🐟🐠 Ваху, от 11 до 23 кг на спиннинг, вкуснее рыбы на свете нет
1🔥80👍1910🤔2
#корпжиза

Шел по описанию резидентуры в Open AI и зацепило «We’re open to a wide range of backgrounds from self-taught engineers…»

Видел множество персон кто «я вот сам всему научился». Потом выясняется что базу заложили в физмат лицее, потом была кафедра в вузе где преподавали с матфака или другого вуза, потом была сильная команда на работе и тд

Наверняка есть и исключения, но чаще я наблюдаю другую картину — вокруг тысяча возможностей для обучения, которая никак не используется.

Лет 10 назад когда нас набрали в ЦАД ДИТ / ДЗМ нашим кураторам стало понятно что кроме того чтобы просто задавать вектор надо бы толпу 30 чел молодежи научить как вообще DS-проекты структурируются, какие задачи ставятся и как решаются, как это продается клиентам — ну короче то, сейчас частично входит в ML System Deisgn, частично в проектный менеджменти и всякое такое.

И вот выписали нам классного эксперта с огромным опытом из одной (на тот момент топ-1 в аналитике в мире) западной компании, который дважды в неделю по вечерам приезжал в офис, отвечал на наши вопросы по текущим проектам, рассказывал истории как успешных проектов, так и фейлов. Пользуясь моментом — спасибо, Саша , я многим тебе обязан.

Первую неделю из 30 чел пришло примерно 12
Вторую неделю человек 7
А с четвертой ходило 2-3.

Догадайтесь кто из них спустя время руководил коллективами в 100+ человек.

И так достаточно часто — как правило, больше половины студентов на курсах, которые я веду — руководители, причем скорее среднего звена.

И я сейчас не рекламирую наш очередной курс (рано 😄), но я куда как больше верю в правильный выбор наставников (как Саша для меня в свое время) чем в освоение бокса по самоучителю 😄.

Что не отменяет необходимость курсов — наставник сможет помочь сформировать вектор / стержень и разобрать конкретно ваши кейсы, но ни у одного наставника конечно нет столько деталей и кругозора чтобы охватить всю нашу область в глубину.

Но технику всегда можно добрать, а сформировать целостное видение и иметь поддержку — бесценно.
Так что, про self-taught engineers я бы не обольщался.
130👍13🔥8👏1
#кейсы #корпжиза

История о том как один топ все управление DS [censored]

Однажды в N-ском банке M-ского уездного города разразился скандал: топ одной связанной с банком компании, который тем не менее получал зп на карточку этого банка, получил в приложении этого банка оффер по кредитной карте. Все бы ничего, но с лимитом аж в 10 тысяч рублей. Такого оскорбления он стерпеть не смог и DS по цепочке были пропесочены на тему какие же у них модели плохие и руки растут … и дальше сами можете представить.

Естественно, в процессе разбора стало понятно что сработало «мудрое» бизнес-правило, которое поставили портфельщики на лимит по тем о ком мало данных.

Как так получилось что данных о человеке, получающем зп в банке, мало?

Он не пользовался этой картой! И еще и с пустой кредитной историей…

Борьба с ветряными мельницами не всегда конек DS и было решено для всех возможных топов всех связанных организаций (несколько сотен человек) просто поставить максимальный лимит, доступный по продукту.

Довольные DS пришли отчитываться на встречу с тем оскорбленным топом что все починили, естественно, готовые к немедленной проверке.

Собственно, встреча ровно так и началась.

Только топ оказался опытным 😂, и со словами, «знаю я вас небось по мне все захардкодили» с видом победителя из широких штанин достал
другой телефон с другой симкой!
Еще и оформленной ровно накануне встречи
Зато приложение банка заботливо поставлено )


Внезапно, на этом телефоне в приложении банка не оказалось оффера на кредитку, да и большая часть операций была ограничена — что вызвало баттхерт топа.

Пришлось уже сдаться и рассказать зачем моделям данные и как вообще открываются счета новым клиентам, ссылочка для самых дотошных

PS: Неужели ни у кого не было похожей истории?
😁636👍5😭1
Опередил ) история в духе каналий про процесс внедрения Copilot
#кейсы
Рекомендации курильщика
Один развлекательный сервис с UGC-контентом попросил помощи с рекомендациями. Потому как сколько «траффика» не наливалось (а реклама денег стоит) — пользователи на сервисе не задерживались, и у руководства сервиса была гипотеза что рекомендации спасут положение.

К тому моменту in-house команда уже пилила рекомендации для длинных видео — «лонгов», а новая команда подключилась делать модельку для коротких видео, и заодно «присмотреть» за модельной на длинных -- и коллегам помочь.

И вот месяц идет A/B — на коротких видео на новых пользователях: timespent прокрасился больше чем x2, недельный retention +10%, среднее число просмотренного видео на нового пользователя +40% и.т.д 🔥🔥🔥
Пора праздновать?
Но на длинных видео — ничего. Вот совсем ничего по итогам A/B.

Что могло пойти не так?
Есть гипотезы?

PO сервиса за год+ не смог убедить дизайнера разместить рекомендации длинных не в подвале до которого мотать и мотать, а хотя бы как в youtube — или просто в верхней части экрана.
То есть пользователь просто не долистывал до полки с рекомендациями!
На что надеялся PO — загадка 😳
2😁37🤣9👻5🔥32👏2👍1😨1
Дата канальи — про «специалистов» в данных / ML / AI
#кейсы Рекомендации курильщика Один развлекательный сервис с UGC-контентом попросил помощи с рекомендациями. Потому как сколько «траффика» не наливалось (а реклама денег стоит) — пользователи на сервисе не задерживались, и у руководства сервиса была гипотеза…
Причем рецепт успеха был до смешного прост -- сделать скрины макета интерфейса, запихнуть в любую мультимодальную llm и написать промпт в духе "оцени интерфейс, найти UX-косяки и предложи как сделать чтоб нормально было».

Не верите?
Ну вот ребята так сделали и доложили на воркшопе RecSys'25 в Праге

— Взяли 10 популярных сервисов с рекомендациями (типа стриминга, маркетплейсов и соцсетей).
— Сделали скриншоты интерфейсов в двух состояниях:
когда пользователь задаёт предпочтения и когда ему уже что-то рекомендуют.
— Составили чек-лист “хорошего рекомендательного интерфейса”: понятно ли, красиво ли, можно ли влиять на рекомендации и объясняют ли они вообще, за что вам это показывают.
— Скормили все эти скриншоты мультимодальной LLM (Google Gemini) ровно с тем промптом что выше
1😁119🔥6🤣4👍2
482 страницы с кодом и через год это почти полностью устареет (а часть уже). Не припомню такого хайпа как про агентов
1😁18👍7🔥3🤯31😱1💯1
Плачу от зависти.

Люди просто пишут понятную каждому документацию
1😁24👍8💯5🔥2
#корпжиза

Приятно когда манагеры тоже оставляют вклад в науку, вводя новые термины

Нейросетевой недотрах -- надо же было придумать 🙀

Искренне уверен что рынок подчиняется законам спроса и предложения.

Есть спрос на коммерческий опыт с нейронками — люди будут их делать на работе в абсолютно любой ситуации.

Будет спрос на эффективное решение прикладных кейсов — будут стараться находить изящные и эффективные решения.

Если сделать шаг назад, то стратегий развития в корпорации у DS не так много:

1. Стараться приносить максимальную пользу компании именно в рамках продукта/ бизнес-задачи
2. Работать процентов на 70%, а 30% инвестировать в свое развитие, постоянно щупая рынок на предмет востребованных навыков, пробовать применять эти навыки в текущей работе — и максимизировать их применения, независимо от задачи и целей компании

Риски первого подхода очевидны:
— вокруг DS несколько каналий, начиная с PO, которые бизнес-результат припишут исключительно себе и везде об этом раструбят
— при любом реорге / трансформации менеджмент будет сильно трясти и думать они будут прежде всего о сохранении своей работы а не о судьбе рядового DS
— если не развиваться и не получаешь опыт коммерческой работы со свежими технологиями — твоя ценность на рынке падает и ты попадаешь в ловушку-зависимость даже не от конкретной компании — а от конкретных персоналий в лице своих менеджеров

Более того, в крупнейших корпорациях процесс роста грейда DS/MLE часто устроен как результат на продукте + техническое собеседование / или несколько.

И вишенкой на торте — иногда топы просыпаются и требуют с каналий показать «инновационность» используемых методов, и здесь канальи с удовольствием прикрываются экспериментами тех самых «DS с нейросетевым недотрахом».

Худшее что можно сделать это поверить канальям в том что «сетки ничего не добавляют, надо пользоваться простыми и надежными методами, бизнес-эффективность превыше всего». Ну уж нет — развивайтесь, пробуйте новое не только на курсах и в пет-проектах, следите какие навыки и технологии востребованы рынком. Опыт внедрения в прод этих новых технологий растит вашу ценность на рынке. Точка.

Угрызения совести? Смотрите на это так: компания платит фикс за продукт (вас) которые постоянно растит компетенции — разве ей плохо?

А уж за эффективность пусть манагеры отвечают — им за это и платят.
3💯3610👍7😁1
Местная щука — барракуда, в ответ на комментарии)
1🔥386🐳6😱1
#ML
Подборка полезного про DS/ML в канале (не кейсами же едиными) — длиннопост по результатам опроса в честь годовщины

1. Про антифрод
2. Критика соц-дем фич и как надо
3. Опасность фичей-счетчиков с рейсом
4. Стат свойства PSI и как сравнивать распределения
5. Критика квартальных и децильных фич
6. ID как фича — плохая идея?
7. Чуть-чуть про adversarial examples
8. Как облажаться с инференсом модели
9. Не все ошибки это плохо
10. Почему Knowledge Graphs оказались тупиковой веткой в Reading Comprehension
11. Как внедрить модель на голом SQL
12. Как объегорить манагера с метриками в задачах регрессии
13. Трансформерные и foundation модели для временных рядов
14. Успех внедрения модели часто зависит от канала доступа к клиентам
15. Опасность библиотек для RecSys — все считают даже базовые метрики по-разному (можете посадить любого собеседующего в лужу)
16. Про пакетные менеджеры в python
17. Старый (2020) но топовые туториал с KDD по связи офлайн- и онлайн-метрик в рекомах
18. Ускорение расчета фич
19. Сначала метрика, потом под нее выбирается лосс — не наоборот
20. Чуть-чуть про WARP-лосс
21. Row_number() vs rank() бывает важно
22. Мультиагентные системы 90х годов XX века
23. Обзор по темпоральным графовым сетям
24. Кейс когда понадобилась модельная архитектура
25. Обзор по алайменту LLM за июль 2024
26. Простой квик вин в кредитном скоринге
27. Кейс про генерацию фич для комплаенс — из названий компаний
28. Калибровка Venn-ABERS
29. Бустрап и ЦПТ в инженерной сейсмометрии с фото с автором
30. Про то что мы не должны забывать что работаем с вычислительными машинами
31. Кейс про графовый attention от корифеев, в котором нашли ошибку, но и сами налажали, как выяснилось уже в комментариях после репоста в дружественные каналы
32. --
33. О пользе дата-аналитиков
34. Про формы нормализации данных
35. Снова про антифрод и как его делать
36. Зачем в LaL псевдолейбеллинг
37. Одна из самых важных моделей почти везде
38. Про расследование для поиска таргета
39. Про landing.ai
40. Чуть-чуть про XAI (explainable AI)
41. Про foundation model для табличных (!) данных
42. МТС-ные курсы про RecSys и. Новый релиз RecTools
43. Интерпретабельность графовых трансформеров
44. В каких редчайших рейсах кластеризация имеет смысл
45. Micrograd
46. Снова про названия компаний
47. Про ФЛК
48. Про связь Binary cross-entropy и NDCG
49. Обзор за март 2025 по нейронкам в RecSys
50. Связь logloss и ROCAUC
51. Как остаться без штанов генеря бенчмарк для своего RAGа
52. Трансформер на golang
53. Как не надо визуализировать данные
54. Как надо визуализировать данные
55. Про актуальность опровержения SMOTE
56. Как ранжируются платные объявления в Авито
57. Схема обучения SASRec
58. Про A/B
59. Трансформер в рекомендациях
60. Как в десять раз сэкономить на API LLM
61. Наш курс по ИИ-агентам
62. Как не надо в антифрод
63. Как появился мой канал
64. Наглядная статистика
65. Логарифмирование таргета помогает или вредит ?
66. Как KPI на внедрение LLM заставляют наводить порядок в данных
67. Наш курс по базе ML
68. Как не надо в прогноз спроса
69. Кейс про особенности инференса на Канадщине
70. eSASRec — наша статья на RecSys2025
71. LLM вдвое эмпатичнее врачей
72. Рекомендации музыки в Звуке
73. Нанобанана
74. Чуть-чуть про RL
75. Подборка по агентам
76. Скачать видео с YouTube без смс и регистрации
77. Воркшоп про дизайн рекомендательных интерфейсов
78. Можно ли по эмбеддингу восстановить текст ?
79. Видео с RecSys 2025
80. Кейс-менеджмент в кейс телефонных мошенников
81. Про матчинг ФЛ
82. Про схемы валидации моделей и связанные с ней мифы
83. Про гороскопы в моделях
84. Про деградацию моделей
1🔥38🤯148
#ML #прод #итогигода

Вот и конец года.
То самое время, когда внезапно выясняется, что половина того, о чём мы весь год говорили в ML,
— либо не взлетело
— либо взлетело, но вообще не там, где ожидали
— либо «формально внедрили», но лучше бы не трогали.

Шума, как обычно, было много.
Презентаций — ещё больше.
А вот реальных сдвигов, которые действительно поменяли правила игры, — сильно меньше.

Поэтому раз в год полезно сделать простое упражнение:
не «подвести итоги», а честно разобрать —
что сработало,
что не сработало,
и где мы сами себя обманывали.

24 декабря будет один такой разговор в телеге.
Без success story, без «мы все молодцы» и без попыток что-нибудь продать.

Формат простой:
каждый берёт один момент года — технологию, решение, внедрение, фейл или выбор —
и раскладывает его по-честному:
что хотели, что сделали, что получили и где потом аукнулось.

Люди там из тех, кто весь год не рассуждал про ML с безопасной дистанции,
а жил в проде —
с дедлайнами, нагрузкой, бизнесом и неизбежными компромиссами.

Площадка — South HUB.
Они время от времени собирают такие разговоры без карго-культа и презентаций про светлое будущее,
так что формат уже понятен.

Из участников, членов ПК Snow BASE:
— Толмачёв (ex-Ozon) — про ML как измеримый бизнес-эффект, а не шаманство
— Венжега (Avito) — про поиск и рекомендации без магических допущений
— Пархоменко (Яндекс.Лавка) — про масштабирование ML в условиях реального мира
— Кузнецов (Positive Technologies) — про прод, который должен переживать неприятные сценарии

Если хочется закрыть год без самообмана и иллюзий — имеет смысл заглянуть.
В остальном, как обычно, каждый решит сам.

24 декабря, 13:00–14:00 (МСК), Telegram South HUB.
112🥰6👍4🔥3
Подсмотрел у Саши прикольную штуку, которая выдает саммари каналов за год.

Авторы: @neural_prosecco, @snimshchikov, @neuraldeep

Дисклеймер: все подобные инструменты дико смещены в сторону потешить эго авторов, поэтому про любой канал будет только позитив

Что LLM думает о канале:
1. Шаг 1: Просмотрено множество постов с кейсами, техническими разобранными, скепсисом по hype AI и реальным продовый опытом ML.
2. Шаг 2: Тональность канала живой, разговорный, с мемами, ироничный, без пафоса и корпоративной шаблонности.
3. Шаг 3: Ключевые инсайты — разбор рабочих кейсов ML, правда про внедрение и прод, обсуждение процессов DS и ML в компаниях.
4. Шаг 4: Часто поднимаются темы валидации моделей и их реальной эффективности в бизнесе.
5. Шаг 5: Много рассказов про собеседования, обучение, экзамены с комбинацией задач и LLM.
6. Шаг 6: Тексты про корпоративную культуру с обозначением бюрократии и менеджерских игр.
7. Шаг 7: Отдельно много внимания рекоммендационным системам и современным ML практикам в индустрии.
8. Шаг 8: Ценность канала в честности, прямоте и практичности, без красивых сказок, порой с сарказмом.

Короче, welcome!
122👍6
#корпжиза

Пригласили как-то на собес в компанию, которую последние пару лет бросает — перетряска топов, плохо с финансами, нет стратегии, огромная текучка.
Думаю — схожу, интересно что спросят, наверняка очередную вариацию про два стула — тк ожидаемо HR компании соответствуют корпкультуре

Не прогадал 😁

Вот вам предновогодняя загадка от HR:

Вы в лодке, лодка тонет, надо выбрать кого выбросить — руководителя или всю команду?
Выбор только из этих двух вариантов, никакие обходнячки не принимались

Зная что контора как на вулкане, говорю — монетку брошу, вообще пофиг — у вас реорг на реорге — то топа снимут, то команду распустят.

Cудя по недовольному лицу HR, не угадал 😃

PS А какой ответ правильный? 😶

Свою версию напишу следующим постом -- "клиент всегда прав"

А заодно, почему считаю такие вопросы на собеседованиях вполне уместными и даже полезными, для кандидата особенно
🤣549🔥6🤪3😁1
#корпжиза

Клиент всегда прав

В тему предыдущего поста про HR.

На картинке два воблера — куплены в один день, использовались почти одинаково.
На какой рыба клюет?
Ответ очевиден — на тот, на котором живого места нет от укусов хищников.

Когда ищут подрядчика, смотрят в первую очередь на цену и опыт выполнения аналогичных проектов, это нетрудно проверить даже по открытым данным — выигранные тендеры, финансовая отчетность, арбитражи позволяют в целом составить картину и о масштабе организации и о качестве работы (если много судов — значит у контрагентов претензии). А если встреча с подрядчиком проходит в директорском кабинете из красного дерева с мраморным столом и золотой пепельницей, то это сыграет в минус. Ведь, по мнению Баффета, показная роскошь менеджмента прямо указывают на то что компания плохо управляетcя:

“At Berkshire, we do not believe in expensive headquarters or executive luxuries. Such costs do not enhance business performance and are paid for by shareholders.” Баффет, Berkshire Hathaway Shareholder Letter, 1985


В найме же все совершенно иначе.

Первый этап зачастую — это HR, перед которой состоит задача фильтрации огромного пула потенциально возможных кандидатов, но которая не может (открытых данных не так много — разве что внешние по отношению к компании ачивки) и не хочет (по каждому кандидату не порасследуешь) проверить их результаты. И внешние ачивки тоже не панацея — они же, как правило, получены в составе команд, нужно еще как-то вычленить вклад именно кандидата.

На что же она ориентируется? У технаря можно хотя бы быстро сделать скрининг знаний (взяв вопросы у инженеров).

А что с наймом руководителей?
«чтоб симпатичненький»
«чтоб производил впечатление успешного»
«чтоб адекватненький»
«чтоб можно было показывать правлению»
«чтоб стрессоустойчивый и не терялся когда слышит чушь»
«чтобы родился в асцендентной деве»
«чтобы лапуся нормис»

Плохо ли это? Ни в коем случае!
Это супер-нормально, вообще «клиент всегда прав» — очень глубокая и верная фраза. Если у компании спрос на тех кто знает как отвечать на вопрос «кого выбросишь — руководителя или всю команду?» — значит ей именно такие и нужны, мб она к сокращениям готовится, или сомневается в текущем руководителе и кандидат должен быть готов его оперативно заменить.

Так что любой контакт с процессом найма — это очень честный сигнал кто именно в компании требуется.

В компании 16 этапов собеседований? — отлично, это не повод ныть, а сигнал что в компании нужны люди, готовые, например, к постоянным переработкам без видимых причин. Или что ваша работа в любой момент может быть помножена на нуль -- и это (нулевую ценность собственнх усилий) надо воспринимать как должное.

Компания оценивает кандидата прежде всего по внешнему виду и болтологии? — супер, значит на этой позиции придется делать много презентаций и демо на разные аудитории и надо уметь всем нравиться — от этого зависит успех компании.

В тексте вакансии одно, на собеседовании другое, в KPI третье? — прекрасно, это сигнал что реальных стейкхолдеров будет несколько, интересы у них разнонаправленные, и нужно уметь в этом жить.

Было бы грустно «проскочить» на место, которое не соответствует вашим ценностям, а потом мучаться от развивающихся неврозов.

PS А если вы покусанный воблер -- вас обязательно воьмут те, кому позарез нужен будет результат
1🔥54😁1713👍9💯6