Дата канальи — про «специалистов» в данных / ML / AI
5.5K subscribers
214 photos
7 videos
12 files
197 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#ML

А что же харды? Только чтобы надувать щеки и блистать «экспертностью»?

Искренне убежден, что нормально заботать харды можно исключительно по фану — иначе заснешь на 12й странице / на второй домашке курса etc.

У Виктора вышел классный пост с тремя разными доказательствами почему L1-регуляризация таки зануляет веса признаков, и одно из них через теорему Куна-Такера (судя по частоте упоминаний, она у Вити одна из любимых).

Не помню чтобы нам на отделении геофизики рассказывали теорему Куна-Такера, зато был алгоритм Кули-Тьюки — причем существенно так был, ведь громадное число курсов было сфокусировано на преобразовании Фурье (уверен что курс ТФКП был только из-за него, а алгоритмы и годовой курс вычмата -- только из-за БПФ) и связанных вещах (или извращениях вроде кепстров и гомоморфных фильтраций).

Так вот, этот Тьюки написал совершенно замечательный учебник Exploratory Data Analysis — это и практическое руководство как выкрутится когда в статьи принимают только монохромные картинки (1977 год, на секундочку — никаких тебе d3.js и plotly) так, чтобы они были читаемыми (после всех игр со значками, точками, шрифтами и отступами), и сборник задач на интерпретацию и / или визуализацию вполне реальных экспериментов из статей 50-60-х, так и куча вполне практических приемов (большинство которых безнадежно устарели) с которыми вы вряд ли встретитесь — например, как округлять осьмушки в десятичные шкалы, как печатать если бумага не того размера и имеет сероватый оттенок — все это вперемешку с шутейками в стиле шоу Фрая и Лори.

Так что если у вас впереди пара долгих перелетов и вы любите анализ и визуализацию данных — искренне советую, максимум удовольствия.
Такое вот отпускное чтиво
2🔥23👍4😨41🤓1
Вот искренне не понимаю, что движет Senior HR Manager выкладывать в проф сети такие фото 🤷 Мб я действительно не понимаю как это работает 🤔

Upd: в комментах выяснили что начальство заставляет ставить такие аватары чтобы повысить отклики кандидатов, более того, парням-рекрутерам ставят аватары девушек для той же цели 😱
🍌24🤣16🍓13🔥5🌚4🦄4
#ML

Когда все пишут про агентов, огромные контексты, копайлоты и прочие чудеса мысли и технологии, кто-то упорно доказывает что SMOTE и другие нехорошие семплинги таргетов -- это плохо (2025й год на дворе так-то) .

И ладно бы, но глаз зацепил RUSBoostClassifier. Вот уж неожиданно, но, вроде, просто совпадение.

Хотя в NgBoost название двойное -- и natural gradients и Эндрю Ын (Ng) в авторах.

А на картинке -- как себе представил RUSBoostClassifier Кандинский 3.1 от Сбера (не буду советовать SMOTE, но и для диффузионок есть подходы в части баланса классов)

PPS. ложная тревога -- в авторах метода русских не видно: https://ieeexplore.ieee.org/document/4717268
🔥7👍3🦄2🤡1
#ML

И Саша классный и доклад его классный )
4
IML_25_Ледовский_Ранжирование_платных.pdf
26.2 MB
Презентация моего доклада на IML

Видео доклада выйдет через несколько месяцев, а пока могу поделиться слайдами (уже несколько человек спрашивало).

Можете задавать вопросы прямо сюда!
👍13🔥4🤩1
Forwarded from Александра Сытник
Тренировки по ML

2️⃣3️⃣ мая состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этого занятия обсудим соревнования по рекомендательным системам:
⚪️разберем разновидности задач (классическая рекомендательная система, ранжирование и более экзотические постановки)
⚪️сделаем обзор соревнований и их решений за последние несколько лет
⚪️посмотрим на основные подходы к решениям на примере некоторых соревнований, в которых участвовал приглашенный эксперт

📢 Спикер: Михаил Каменщиков, руководитель команды рекомендаций в Авито, Kaggle Master, призер конкурсов по рекомендательным системам, преподаватель ML System Design в Академии Аналитиков Авито

📆 Когда: 23 мая с 18:10
🗺️ Где: Покровский бульвар, 11, ауд. S224

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍92🔥2
Напоминаю , что вечером тренировка — будем рады видеть всех )
👍103🔥2🦄1
Выступали сегодня с коллегой из MTS AI перед студентами ШАД МТС.
Коллега — Senior CV-инженер. Когда его студенты спросили — пошел бы он сегодня в CV будь он на их месте, он уверенно ответил — «нет, я бы в LLM, вон visual transformer такой же трансформер как в LLM».

Здесь меня накрыли флэшбеки — я хорошо помню как в 16-20х годах как раз CV был модной темой, особенно 3D. На ICCV’19 в Сеуле был почти десяток российских CV-стартапов, в основном из Нижнего (списываю на близость интеловского RnD-центра).
Банки рисовали роадмепы по добавлению CV (в тч OCR) во все процессы — и фото заемщика в кредитный скоринг, и при входе в отделение распознавать эмоции и подсовывать «правильного менеджера» и делать скриншот сайта клиента чтобы определять «психологическую направленность» бизнеса — да мало ли фантазий у менеджеров?

В 2016 на волне успехов в CV выходили статьи что вот-вот и сингулярность наступит (Fortune как-никак, не совсем мурзилка).
Прошло 9 лет, и вот почти то же самое от BBC (вчера вышла статья)
Видимо, мы где-то около пика цикла Гартнера и надо смотреть уже на что-то новое, с llm и агентами более-менее ясно с применением и ограничениями (разве что инференс еще на пару порядков не удешевится).

Есть идеи что может быть новым прорывом? Именно в технологиях?

Сам не вижу, разве что развитие reasoning + computer use чтобы заменить офисных двуногих -- но это не тех прорыв очевидно
👍25👏8🦄4🔥2🐳1
#ML

Если отвлечь синьора и дизайнера, то, кажется, можно даже понятно нарисовать как SASRec учится. Интересно, получится ли с моделями поновее и побольше -- HSTU и FUXI-alpha 🤔
🔥19👍5👏2😁1
#кейсы #ML

Сегодня попал в Сити на один форум и вынужден был слушать в панели экспертования манагеров-каналий про рекомы, чуть руку не сломал борцовским приемом «фейспалм» 🤦‍♂️.

Все эти «на самом дела» и прочие «здравые смыслы», и «я 5 лет в отрасли и знаю что нужно пользователю» 🤦‍♂️.
Ни намека на метрики и A/B, зато вопросы. В духе: А как сделать так чтобы рекомендации были социально справедливыми? Знаете ответ? «А давайте снимать только хороший, патриотический контент».
Прям в стиле песни Захар Борисовича

Для таких вот у меня есть коробок вполне публичных примеров (а после беседы с пиар-службой кейсы теперь приходится фильтровать — заметили как их стало меньше в канале? — правда, большая часть просто ушла в отложку в 2026й)

Итак, канальи думали что SJM чем короче тем лучше, и вообще одной красной кнопки «купить» достаточно.
Ха раз
Ха второй раз

Добавление доп шагов к форме регистрации или к процессу покупки — увеличивает конверсии а не уменьшает! В их конкретных кейсах!

Другие канальи решили что если показывать что продукт популярен в соцсетях (social proof) то конверсия будет больше, но увы

А здесь вообще в одной статье собраны противоположные результаты : в одном продукте перфомят длинные тексты, в другом короткие. В одном продают простые заголовки, в другом сложные.

Пользователи охотнее делятся шортсами или длинными?
Надо проверять именно в вашем сервисе, а мб вообще в конкретной категории.
Смотрите с опаской на тех кто «знает как думает пользователь».

PS и самое вкусное, для тех кто не читал Ходжу Насреддина

На платформе Unbounce провели A/B-тест: Get MY free 30-day trial против Get YOUR 30-day trial

Результат, ожидаемо, на картинке к посту

Однажды Насреддин увидел толпу возле пруда, что рядом с мечетью. Подойдя поближе, он увидел, что в пруду тонет мулла. Люди кричали ему: "Дайте руку, почтеннейший, дайте руку! ", но тот только булькал и руки не протягивал. Тогда Насреддин подбежал и закричал: "Нате руку, почтеннейший, нате! " -- и мулла схватился. Когда люди спросили Ходжу, как ему удалось спасти муллу, он ответил:
-- Глупцы! Разве можно говорить мулле "Дайте"! Он понимает только "Нате"!
🔥30😁244👍3🦄2👏1🤔1
Буду рад вас всех видеть в эту пятницу на MTS True Tech Day!
Целый день проведу на треке AI&ML — начну с рассказа про трансформерные архитектуры в рекомендациях от царя гороха до сегодня, не забыв прорекламировать RecTools 🤖

Потом обязательно послушаю Саню где искренне надеюсь узнать как и чем правильно дополнить LLM as a (Dredd) Judge в оценке RAGа 🤓

А затем уже несекретный спикер — но не буду здесь спойлерить 🤫).

Точно послушаю про LLM от Дани (святой человек 😇 без тг-канала) и Вали,
а ближе к концу возьму интервью у лидера LAMA — 4х грандмастера Kaggle Саши Рыжкова 👑 о том как нас всех заменит AutoML — но если есть еще идеи вопросов — велкам в каменты, обещаю один вопрос из коментов точно задать Саше на сцене.

Регистрация еще открыта -- увидимся в пятницу 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1413🔥7🦄1
2025-06-05 08.59.15.jpg
8.8 KB
#кейсы #ML

Один мой израильский друг решил воспользоваться colab'овским autocompletion и вот что из этого вышло (на картинке) 🤮

Более того, такое название модели -- HitlerGPT -- не случаное совпадение, согласно readme она дообучена (peft) на текстах Гитлера -- да и примеры там антисемитские.

К счастью, популярной ее не назовешь, но как же она оказалась в колабе? Есть идеи?

Google открещивается:


AI Overview
Google Colab's autocompletion feature is powered by Codey, a family of code models built on the PaLM 2 architecture. These models are fine-tuned on a large dataset of high-quality, permissively licensed code from various sources, enabling them to provide intelligent and context-aware code suggestions.
🤣13👍6🤬5🔥32🤯2😱2👏1🫡1
RecSys_Transformers_TTD.pdf
4.1 MB
#ML

Вчерашняя конференция была прям хорошая, орги обещают выложить записи -- буду ждать.

А пока делюсь слайдами с рассказа о трансформерах в рекомах, пробовал нарисовать так чтобы было максимально понятно человеку, хоть немного знакомому с DS, надесь получилось (ставьте клоуна если ничего не понятно, лойс если понятно) 😅
👍44🔥7👏51😈1🦄1
#корпжиза

Переслали мне корпоративную методичку по управлению продуктовым портфелем

Итак, если бы пожарную команду создавали по этой методичке:

1. Ideation (оценка идеи)
Варианты:
За месяц не произошло ни одного пожара, потенциальных клиентов нет — закрываем продукт (KILL)
или
Один пожар был, но с погорельцев особо ничего взять — MERGE с водовозами, водовозы — жизнеспособный продукт с устойчивой клиентской базой и выраженной сезонностью.
Но перед тушением пожара необходимо будет производить расчет эффекта от тушения и сравнение с прямыми продажами воды клиентам
Или
Было несколько пожаров — когда пришли опрашивать клиентов получили люлей как поджигатели, глаз подбит 🤕, но зерно есть — PIVOT. Будем дистанционно (чтобы снова не получить) продавать палатки жертвам пожаров

2. Concept Validation — подтвердить жизнеспособность концепции
Продуктовый комитет затребовал дорожную карту по тушению пожаров на следующий год
Необходимо рассчитать точное время и место пожаров, затраты на тушение, экономический эффект
Ок, провернули фокус из финала The Incredible Burt Wonderstone и прошли дальше

3. Prototype Development
Сделали пожарную машину на деньги, выделенные на этапе 2.
Машиной сложно назвать — поэтому скорее получилась пожарная тачка.
Комитет отправил нас на Technical Pivot, без доп финансирования конечно же
На остатки финансирования получилось сделать лейку-поливалку

А дальше пришла летняя жара , и пол-города сгорело вместе с продуктовым комитетом 😂😂😂

PS: для тех кто не в курсе — частная пожарная охрана есть и вполне благополучно работает (например) и в нашей стране и в других

PPS: у любого инструмента есть своя область применения, даже у продуктовых методичек, и вот уж методички неплохо бы начинать с описания к чему их следует применять
1🤣23🔥11😁62🦄2👏1🤗1
#ML

В эпоху платных API и даже чатов, когда монстры ИИ прайсят нас за потребленные токены, вопрос «какому языку учить детей» должен решаться как-то более современно.

Например, в каком из них на одну и ту же фразу уходит меньше токенов (экономика должна быть экономной!)

from itertools import product
from transformers import BertTokenizerFast
from tabulate import tabulate

bert_tokenizer = BertTokenizerFast.from_pretrained('bert-base-uncased')
china_tokenizer = BertTokenizerFast.from_pretrained('bert-base-chinese')
tok_names = {'bert': bert_tokenizer, 'china': china_tokenizer}

texts = [
'Обычно при использовании API вас прайсят за число токенов',
'Usually when using the API you are charged per number of tokens',
'通常使用 API 時,您需要按令牌數量付費'
]

results = []
for text, tokenizer_name in product(texts, tok_names):
tokenizer = tok_names[tokenizer_name]
encoded = tokenizer.encode_plus(
text,
truncation=True,
max_length=128,
return_tensors="pt"
)
num_tokens = encoded['input_ids'].shape[1]

results.append([
text
, tokenizer_name
, num_tokens
])

headers = ["Текст", "Токенизатор", "Число токенов"]
print(tabulate(results, headers=headers, tablefmt="grid", numalign="center"))

PS: Йошихиро Такаяма -- японец-таки
PPS: Китайский все же немного сломал табулятор, но английский пока выигрывает
PPPS: идеей вдохновился на м
л-тренировке у Саши Киреева, приходите в сл субботу на финальную в этом учебном году!
20👍6😁3🔥1
HR = сваха 😂

А вот за DS обидно что не попали,
Поэтому вот варианты от DeepSeek:

Вот варианты от дипсика:
Если перевести профессию "data scientist" на славянский манер, можно использовать такие варианты:

1. Данномудр – от *"данные"* + *"мудрость"* (аналог «волхва» или «знатока данных»).
2. Числобер – от *"число"* + *"собирать"* (как «зверобой» или «грибник», но для чисел).
3. Знамений – от *"знание"* + *"предзнаменование"* (тот, кто извлекает смысл из данных).
4. Счётознатец – от *"счёт"* + *"знание"* (аналог «книжника» или «летописца» цифровой эпохи).
5. Рядолог – от *"ряды данных"* + *"-лог"* (как «геолог», но для анализа последовательностей).
6. Ведоум – от *"ведать"* (знать) + *"ум"* (разум), в духе древнеславянских имён.
7. Графич – укороченное от *"графика данных"*, звучит как старославянское ремесло.
8. Мудродатчик – игра слов: *"мудрость"* + *"дата"*, с налётом волшебства.

Ну

хоть не скоромох 🤡

Числобер, любящий 4, это квадробер?
Предлагайте свои варианты как обозвать DS по-старославянски, велком
😁18👍3🔥3
Forwarded from лидер мнений среди удобрений
This media is not supported in your browser
VIEW IN TELEGRAM
В России выпустили первую коллекцию РУССКОЙ одежды для офисных трудяг. Бренд commotion заморочился и импортозаместил все самые популярные должности, например:

• Копирайтер — писарь
• Тимлид — старейшина
• Сисадмин — домовой
• Аналитик — ведун
• Эйчар — сваха.

Футболки с принтами уже в продаже, цена — 2500 рублей.

рубахи что надо, эх, любо ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥23🤡53😁3👎1
Кого только не встретишь в Московской области 🐻
12🤯7😱5🔥2🐳1🙉1🦄1