Дата канальи — про «специалистов» в данных / ML / AI
5.51K subscribers
216 photos
7 videos
12 files
200 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
Хотя у меня уже давно поменялась фотография и должность, все равно стараюсь не пропускать Data Fusion (разве что в том году наложилось с MachinesCanSee). В этом году думал отсидеться в панели, но в итоге втянули в дебаты, узнаем какой из меня спорщик 😂

А с докладом за BigData МТС будет отдуваться Серега Кузнецов — это CTO нашей гордости — RecSys платформы. Думаю оба дня буду на конфе, про интересное здесь напишу. Если кто хочет очно пересечься / познакомиться — буду рад, приходите 🍺

PS: Если кто потеряется / стесняется — орги поддались общему тренду и запилили бота для знакомств — потестим )
16🔥7👍3🤓2🦄1
Media is too big
VIEW IN TELEGRAM
#кейсы #корпжиза

Пример «делайте интерактив» вместо «рисуйте презентацию» от Миши С

Парни занимались бесчисленной сборкой PoC на модном тогда направлении GenAI (в 20-21 годах, на минуточку) — немного музыку погенерить, где-то голову на изображении пересадить, помощника канальи сделать (который вместо манагера в почте будет отвечать либо «спасибо» либо «проработайте вопрос» 😂😂😂).

Как подвести итоги года работы команды, если весь год состоял из спринтов в разные стороны, конференций, презентаций, лихих кавалерийских наскоков?
Желательно чтобы после этого премии полились как комменты под постом про AI-продактов ?

Все любят подарки, а манагеры особенно, если это не дежурная бутылка / мерч / книжка из библиотеки большого банка (одной я палочку из Гарри Поттера подарил -- но то совсем другая история).

И вот Миша с парнями дарят своему шефу телефон (ибо нужен андроид, а у шефа айфон), а на телефоне файтер.

И в файтере шеф — читерский перс 💪, который раздает 🥊 другим топам 🤡 сериями до самого фаталити ☠️.

Естественно, в противники шефу выбрали его начальников и оппонентов 😁, добившись узнаваемости персов по лицу 🫣

Вот и догадайтесь, у кого в департаменте была годовая премия x2.

Растите продуктовые метрики и прокрашивайте A/B, коллеги 🤓😆🏋‍♂️

А на видео -- битва двух непримиримых противников -- CDS (AI) vs CTO
🔥18👍7🤣63😁21🫡1🦄1
#кейсы #ML

Нет-нет и попадаются на глаза посты про рост контекстного окна LLM.

И восторженные про 10М токенов и критический ответ про то что не все эти токены будут иметь одинаковую важность для модели и RAG все равно будет жив.Что объединяет авторов таких постов ? Сейчас покажу.

На днях надо было собрать RAG для демонстрации — просто обновить свой прошлогодний семинар. Но раз каждый день в тг поток новостей про новые перехаи ллмок — решил посмотреть как продвинулись методы их оценки.

Потыкавшись по репозиториям Ильи и Константина нашел библиотеку со странным названием giskard ровно для «evaluation of AI systems» как гласит этикетка.

Ну ок, парни используют, 4,5 тыс звездочек на github — что может пойти не так?

Здесь небольшая вставочка — коль скоро RAG про поиск релевантного чанка (кусочка информации) и генерацию ответа на основе него (а чанк добавляется в контекст LLM) — то и метрик можно придумать массу (отдельно на то насколько релевантные чанки достаются, насколько сгенеренный ответ им соответствует и тд)

Однако, все эти подсчеты требуют знания правильных ответов (да еще и какого-то показательного набора вопросов) — даже для LLM as a Judge. Здесь и возникает вопрос а как именно пользователь будет искать, как формулировать вопрос, каких типов вопрос больше и можно ли их вообще типизировать и пр.
Вот с этим (нагенерить вопросно-ответные пары для офлайн-теста RAG-системы) giskard и помогает — достаточно сделать

from giskard.rag.question_generators import complex_questions, double_questions, distracting_questions, situational_questions, simple_questions

а затем

knowledge_base = KnowledgeBase.from_pandas(df)

testset = generate_testset(
knowledge_base,
question_generators=[simple_questions, complex_questions, double_questions, distracting_questions, situational_questions],
num_questions=200,
language='ru',
agent_description=«….»
)

Понятно, что как и в langchain, магии никакой нет, а хитроумные методы часто просто подобранные промпты.

Вот, например, скрипт для генерации SimpleQuestion .
Не смертельно большой же промпт?

Не чуя подвох 😆🫣 я запустил (gpt4o) на генерацию вопросов для тестового датасета.

И на 71 вопросе я получаю:
2025-04-08 01:28:44,092 pid:37078 MainThread giskard.rag.question_generators.situational_questions WARNING Encountered error in situational context generation: litellm.RateLimitError: RateLimitError: OpenAIException - Error code: 429 - {'error': {'message': 'You exceeded your current quota, please check your plan and billing details. For more information on this error, read the docs: https://platform.openai.com/docs/guides/error-codes/api-errors.', 'type': 'insufficient_quota', 'param': None, 'code': 'insufficient_quota'}}. Using default situational context instead.

И отрицательный баланс на счете — 30 баксов как с куста.
На 70 вопросах!!! 😰😱😱😱😱🤯😵‍💫😡🤬🤬🤬

WTF ???

Конечно, когда есть железо, лучше разворачивать модели локально и не тратиться на API.

Но читая новость про контекст в 10М токенов я понимаю почему производителям LLM это может быть выгодно 🔪. Представьте что будет если вы стучитесь по API и платите за число токенов, а такая большая модель еще и в CoT уйдет 🫣. Выглядит происходящее сейчас с API сродни бесплатной раздаче наркотиков, но ценники в итоге будут бить любые фантазии.

Улыбаемся, машем, копим, ищем эффективные решения, радуемся что часть моделей-таки выкладывают в опенсорс и огромное коммьюнити работает над тем как их сжимать / дистиллировать / запускать на не совсем космолетах.

PS тарификация API по числу токенов примерно у всех


Ах да — авторов постов объединяет доступ к условно-бесплатным огромным корпоративным кластерам.
1🔥18👍63😁2🦄2💯1
Только сейчас понял что у меня их две 🤷‍♂️
😁32👍15🌚4
Вчера на конференции Data Fusion мне задали вопрос из зала — почему так трудно попасть на стажировку в российские бигтех-компании?
И почему вакансий джунов в открытом доступе почти нет? 😡

Ответ не самый очевидный — потому что компании активно участвуют в образовании 🤓.
(Более того, наши законотворцы обсуждают новую инициативу — обязать все крупные ИТ-компании отправлять экспертов преподавать в ВУЗы под угрозой лишения ИТ-аккредитации)

Если речь про нашу компанию (а мы сейчас называемся MWS)
Все ключевые активы в области информационных технологий: МТС Digital, МТС Cloud, Big Data МТС, MTS AI, Visionlabs – объединены в единую технологическую компанию МТС Web Services (MWS)
то мы:
⁃ проводим ML-тренировки на ФКН ВШЭ
⁃ запустили ИИ-магистратуру на ФКН ВШЭ
⁃ вместе со Сбером и Яндексом вкладываемся в ВШПИ МФТИ, за нами MLный трек
⁃ третий год ведем ШАД MWS

И это только те проекты, где я деятельно участвовал (где-то запускал, где-то подхватывал -- здесь спасибо Вите Кантору и нашему Центру Образования -- прежде всего Кате Карцевой и Алине Веденской что втянули и максимально поддерживают меня).

Так откуда же нам брать стажеров как не с олимпиад и образовательных программ, в которых мы участвуем и уверены? А когда они подрастают до джунов -- при возможности их же и берем в штат.

Но даже такой хвастливый пост как этот может нести в себе пользу — присмотритесь к Школе Аналитиков Данных MWS. Если все-таки есть желание перекатиться в ML, например, из другой профессии, и иметь все шансы на стажировку в MWS уже к восьмому месяцу обучения.

Следующий набор осенью (обычно конец октября — начало ноября), учиться год — 2 занятия в неделю по три часа после работы, преподают наши ребята, делали с душой )

PS

Сама конференция оказалось с загадкой 😵‍💫
-- Прихожу в первый день на сессию с Ким и Набиуллиной — яблоку негде упасть, люди в проходах стоят. Думаю — ок, бизнесовая конфа.
-- Прихожу на сл день на сессию по RAG — снова все забито 😂

Первый раз вижу такое чтобы организаторы смогли сделать интересную конференцию и для технарей и для бизнесов, очень круто вышло 🏆🏆🏆
34🔥12❤‍🔥2
#ML

Сегодня рассказывал студентам что feature engineering еще актуален -- в том числе, для моделей в высоконагруженных сервисах, например, DSP-платформах в рекламе. Потому как расчет фичей можно реализовать на Go и останется только применить бинарник модели к уже насчитанным фичам.

И тут я говорю фразу -- ну нет же на Go реализации сложных сеток (хотя пару лет назад я вынашивал мысль сделать сделать такую ML-библиотеку). С этими словами я полез гуглить и оказалось что я слоупок -- уже 2 месяца как в гите есть реализация трансформеров на Golang.

Невероятно как быстро устаревают знания об области в которой годами работаешь 😱
👍20🤔5🤯5🔥3🦄3💯1
#кейсы #ML

Когда думаешь что видел самые извращенные графики и самые вырвиглазные EDA, судьба преподносит шедевры.

После них графики с тремя осями -- образец четкости и понятности в донесении мыслей 😅😂
😁33🤣16🔥7💯2🦄1
#корпжиза

«LLM уравняли всех — и джунов и тимлидов» — сказал один мой приятель.

Если верить цитатам в интернете, то еще «God made men, but Samuel Colt made them equal»

Сначала вообще про «уравнивание», а потом и до LLM дойдем.

Многие слышали про проект «осознанная меркантильность», про советы про накрутку опыта, про работу одновременно на 2-3 работах и прочее.

Многие менеджеры аргументируют в духе «а если все так начнут делать кто работать будет?».

Так вот, мне, как менеджеру, ребята с 2-3 работами более чем нравятся:

◦ Насмотренность и число технологий, с которыми они знакомы, у них всяко выше чем у сотрудника с 10+ лет на одном месте
◦ Знаний и навыков тоже — они постоянно проходят — ловят тренд на актуальные запросы рынка, оперативно учат то, чего не хватает
◦ Коммуникативно они тоже как правило сильные
◦ Работать с ними можно как с подрядчиком — на вход описанная задача, на выход — результат
◦ Расставаться в случае косяков с таким сотрудников не жалко и не сложно (у него еще 2 работы есть)

А теперь вернемся в начало — что рынку могут предложить тим. лиды, которые по 5 лет делают одно и то же? Блевотное «ставил задачи и контролировал их выполнение» из резюмех? Лояльность компании ?
Знание, какой цвет в презентации у шефа любимый (и то, если кукбуки позволяют)?

Если вы тимлид — остановитесь и задумайтесь, какие востребованные рынком навыки и знания (а не карьерный трек и опыт в годах) вас сейчас дифференцируют от мидла или синьора?
Умение декомпозировать задачи и планировать проект? Но каждый кто хоть раз сам ездил в отпуск и успешно из него вернулся — готовый руководитель проекта (точно так же оценивал риски, планировал бюджет, справлялся с нежданчиками, находил trade-off со стейкхолдерами)

Будет здорово, если поделитесь в комментариях (а если пост хотя бы 50 лайков наберет — напишу свою версию про себя).

Если вы из бизнеса — чего, кроме навыков, вы хотите от соискателя? Почему не подойдет соискатель без опыта, но с навыками и знаниями?

Так что мб и не LLM всех уравнял, а рынок, которые очень быстро развивается и меняет фокусы? Хотя с момента появления статьи про внимание 8 лет почти прошло — кто мешал заботать?

В штатах малый бизнес массово переключается на API к LLM и не нанимает экспертов со степенью чтобы полгода разрабатывать модель для узкой задачи.
Прототипы тоже собираются за вечер.

Есть и обратная сторона — шапкозакидательные поверхностные ребята, которые впаривают бизнесу работающие прототипы, а те потом топают ножкой со словами «да чего тут делать» и не понимают чем пром. решение отличается от прототипа.

Небольшой лайфхак, спросите ребят, которые лихо прикручивают прототип на базе API какой-н LLM:

◦ Насколько guardrails уменьшит latency? Хотя бы на 20% будет?
◦ На сколько % SFT снижает галлюцинации по сравнению с QLORA?
◦ В чем преимущества Groundedness над Faithfullness?

Все они, конечно же, провокационные и подталкивающие к ошибке, но срезать верхогляда — бесценно.

PS. Буду рад узнать вашу версию кого стоит нанять — джуна или тимлида (предполагается одинаковый функционал) при равенстве навыков, релевантных бизнесу в моменте (LLM например).

я в отпуске, пообщаться в комментах — велком!
176👍19🔥10🥱2👎1😁1🫡1🦄1
#корпжиза

вдогонку к прошлому посту -- как я вижу деление на грейды (на примере модели оттока):

Junior — строит модель оттока и замеряет roc_auc

Middle — убеждается что отток по месяцам стабилен, замеряет lift, калибрует на вероятности

SeniorDon’t Predict the Churn , prevent it! — строит модель, которая предлагает какую-то опцию (скидку например) только тем, кто а) хочет уйти б) на опцию среагирует и в) финансовый итог такой операции будет положительным — а-ля аплифт моделирование

Team leader — отправляет аналитика и DS разбирать обратную связь по продукту, находит причины оттока, на пальцах прикидывает сколько денег можно сэкономить если эти причины устранить — идет бодаться с продактом чтобы это сделать

CDS — все массовые задачи платформизировал, а по остальным погружен во все 4 уровня (заодно и ревью устроить может)

а следующим попробую погадать что рынку могут предложить CDSы
🔥25🦄32😁2👌1👾1
Еще в копилку тревожности синьоров и манагеров -- Revenge of the junior developer

Классческий естественный отбор -- выживает самый адаптивный
👍9😁3🤨3
Все руки не доберутся до поста , все силы на рыбалку уходят
1🔥108🐳2116🦄3🤝1
нормально у них там электричество отключили -- аж дедлайн на 4 дня продлили (был 12го)
😁14🔥32👍2🦄1
#кейсы #корпжиза

Обещанное имхо про то, что же дифференцирует мидлов / синьоров / лидов и далее до CEO.

По традиции с кейса, но раз уж отпуск вчера закончился — вот вам отпускная история.

Однажды в отпуске (не в этот раз, но в этом же месте) соблазнились мы с семьей экскурсией - поплавать с огромными морскими дьяволами (они же манты, но не те что в хинкальной). Взяли катер, капитана, капитан свою подружку, и поплыли.
Манты они не то чтобы деревья — они не растут в одном месте, они плавают по океану, так что мы доверились капитану, не вникая в географию, и минут 40 плыли от нашего острова, как потом выяснилось, примерно сюда.

Не обнаружив на мелководье дьяволов, пошли в сторону открытого моря, заметили мантов, здесь кэп с подругой и мной высадились в новом месте и поплыли догонять. Предусмотрительно (хе-хе) не взяв ласты и трубку (хорошо хоть очки были), я сильно отстал. Погода начала портиться, и кэп недолго думая свернул удочки, залез с подругой на катер и испарился в одном из равнозначных (посреди моря-то) направлений. Единственная оказия — я-то так и остался в воде 😂🙈. Пошел дождик, ветер поднимает полуметровые волны (а мб и больше — кто их измерял), они накрывают с головой, дальше пары метров вокруг не видно ничего кроме воды, а я стремительно понимаю что не зря возраст Христа считают опасным.

Как вы знаете, фамилия моя не Фелпс, да даже если бы и так — плыть-то в какую сторону? Да и плыть против волн такое — только устанешь быстрее и все, а здесь и на плаву держаться уже не просто.

Через какое-то время тучи сдуло, дождик прошел, море стало поспокойнее, начало проглядывать солнце.
А еще оказалось что туристы с соседнего острова Расду тоже соблазнились плаваньем с мантами и их катер остановился достаточно близко чтобы я к нему доплыл пока они выгружались (человек 10) и ныряли. Характерна реакция их капитана — он нисколько не удивился моему появлению (видимо, белые для них на одно лицо).

Мораль история простая — какие бы у тебя не были харды, и в жизни и в корпорации ты зависишь от других людей, причем жизненно зависишь, и не всегда это очевидно. И, как минимум, чтобы харды применить — надо знать куда плыть.

И дифференциатором грейдов выступают в первую очередь твои социальные навыки и социальный капитал — ни разу не видел чтобы CEO нанимали по объявлению (разве что зиц-председателя Фунта).

Нередко вижу ситуацию когда лидом в компании работает не крутой DS, а тот кто там работает давно.На первый взгляд кажется что это не очень меритократично. Однако, если речь о запуске новой инициативы и выделения ресурсов под нее — у кого будет кредит доверия? Разве у варяга? Разве что у варяга с репутацией и нетворком — и то не факт что оставят без присмотра кого-то «своего», пусть это и не будет формализовано.

Это не значит что не надо растить свою компетенцию — но стоит рассматривать свою экспертность и ее развитие в тч как инструмент социальный. Нужно осваивать навыки речи -- письменной, устной, невербальной. Уметь делать так, чтобы тебя понимали и не понимали когда ты этого хочешь. Но это все -- все еще имхо 😄
2🔥40👍12😁9😨72🤔1
#ML

А что же харды? Только чтобы надувать щеки и блистать «экспертностью»?

Искренне убежден, что нормально заботать харды можно исключительно по фану — иначе заснешь на 12й странице / на второй домашке курса etc.

У Виктора вышел классный пост с тремя разными доказательствами почему L1-регуляризация таки зануляет веса признаков, и одно из них через теорему Куна-Такера (судя по частоте упоминаний, она у Вити одна из любимых).

Не помню чтобы нам на отделении геофизики рассказывали теорему Куна-Такера, зато был алгоритм Кули-Тьюки — причем существенно так был, ведь громадное число курсов было сфокусировано на преобразовании Фурье (уверен что курс ТФКП был только из-за него, а алгоритмы и годовой курс вычмата -- только из-за БПФ) и связанных вещах (или извращениях вроде кепстров и гомоморфных фильтраций).

Так вот, этот Тьюки написал совершенно замечательный учебник Exploratory Data Analysis — это и практическое руководство как выкрутится когда в статьи принимают только монохромные картинки (1977 год, на секундочку — никаких тебе d3.js и plotly) так, чтобы они были читаемыми (после всех игр со значками, точками, шрифтами и отступами), и сборник задач на интерпретацию и / или визуализацию вполне реальных экспериментов из статей 50-60-х, так и куча вполне практических приемов (большинство которых безнадежно устарели) с которыми вы вряд ли встретитесь — например, как округлять осьмушки в десятичные шкалы, как печатать если бумага не того размера и имеет сероватый оттенок — все это вперемешку с шутейками в стиле шоу Фрая и Лори.

Так что если у вас впереди пара долгих перелетов и вы любите анализ и визуализацию данных — искренне советую, максимум удовольствия.
Такое вот отпускное чтиво
2🔥23👍4😨41🤓1
Вот искренне не понимаю, что движет Senior HR Manager выкладывать в проф сети такие фото 🤷 Мб я действительно не понимаю как это работает 🤔

Upd: в комментах выяснили что начальство заставляет ставить такие аватары чтобы повысить отклики кандидатов, более того, парням-рекрутерам ставят аватары девушек для той же цели 😱
🍌24🤣16🍓13🔥5🌚4🦄4
#ML

Когда все пишут про агентов, огромные контексты, копайлоты и прочие чудеса мысли и технологии, кто-то упорно доказывает что SMOTE и другие нехорошие семплинги таргетов -- это плохо (2025й год на дворе так-то) .

И ладно бы, но глаз зацепил RUSBoostClassifier. Вот уж неожиданно, но, вроде, просто совпадение.

Хотя в NgBoost название двойное -- и natural gradients и Эндрю Ын (Ng) в авторах.

А на картинке -- как себе представил RUSBoostClassifier Кандинский 3.1 от Сбера (не буду советовать SMOTE, но и для диффузионок есть подходы в части баланса классов)

PPS. ложная тревога -- в авторах метода русских не видно: https://ieeexplore.ieee.org/document/4717268
🔥7👍3🦄2🤡1
#ML

И Саша классный и доклад его классный )
4
IML_25_Ледовский_Ранжирование_платных.pdf
26.2 MB
Презентация моего доклада на IML

Видео доклада выйдет через несколько месяцев, а пока могу поделиться слайдами (уже несколько человек спрашивало).

Можете задавать вопросы прямо сюда!
👍13🔥4🤩1
Forwarded from Александра Сытник
Тренировки по ML

2️⃣3️⃣ мая состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этого занятия обсудим соревнования по рекомендательным системам:
⚪️разберем разновидности задач (классическая рекомендательная система, ранжирование и более экзотические постановки)
⚪️сделаем обзор соревнований и их решений за последние несколько лет
⚪️посмотрим на основные подходы к решениям на примере некоторых соревнований, в которых участвовал приглашенный эксперт

📢 Спикер: Михаил Каменщиков, руководитель команды рекомендаций в Авито, Kaggle Master, призер конкурсов по рекомендательным системам, преподаватель ML System Design в Академии Аналитиков Авито

📆 Когда: 23 мая с 18:10
🗺️ Где: Покровский бульвар, 11, ауд. S224

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2
Напоминаю , что вечером тренировка — будем рады видеть всех )
👍103🔥2🦄1