Дата канальи — про «специалистов» в данных / ML / AI
5.51K subscribers
216 photos
7 videos
12 files
200 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
Решение задания 4

Такой нехитрый код выдает ChatGPT, надо было убедиться что он +- правильный, и порядок чисел адекватен задаче

В бесплатном google colab он выполняется 5-12 мин (скрин)


from functools import lru_cache
from itertools import product

def solve(w, h, k):
# все допустимые столбцы (нет k нулей подряд)
def valid(col):
run = 0
for c in col:
run = run + 1 if c == 0 else 0
if run == k:
return False
return True

cols = [tuple(c) for c in product((0, 1), repeat=h) if valid(c)]

@lru_cache(None)
def step(state, left, blacks):
if left == 0:
return 1 if blacks < w * h / 3 else 0
total = 0
for col in cols:
new_state = []
bad = False
for s, c in zip(state, col):
if c == 1:
new_state.append(0)
else:
if s + 1 == k:
bad = True
break
new_state.append(s + 1)
if not bad:
total += step(tuple(new_state), left - 1, blacks + sum(col))
return total

return step(tuple([0] * h), w, 0)


Ответ: 15380325371261

Но на это число llm могут выйти и без кода (второй скрин)

Дальше расскажу статистику вступительных, почему задания такие, что они проверяли, по какому принципу и как осуществлялся набор -- в тч решения и мотивационные
130👎14🔥9🥴8💊3👍2
Про задания и статистику // часть 1 // (!) лонгрид

Начнем с данных, коль мы учим их анализу.

Нужно было отобрать 50 студентов и 30 для слушателей

Итак, наша воронка:
4200+ заявок (повторно уточнил у коллег)
Около 2000 мотивационных писем получено
1950 кандидатов начало тестирование
1541 завершило тестирование

24 чел решило 3 задачи — все они получили приглашение в студенты (студенты == участники), однако их мотивационные были прочитаны несколькими живыми людьми

143 чел решили ровно 2 задачи
489 человек решили одну задачу

Среди этих 143 двузадачников по сути и развернулся конкурс на оставшиеся 26 мест студентов и 30 мест слушателей
Они были отсортированы по убыванию баллов за мотивационное (баллы, как и ранее, проставляла модель), а затем их решения и мотивационные проверялись вручную.
Чем помогала сортировка? Тем кто в начале доставались менее уставшие проверяющие.

Если решения не было прикреплено (мб у кого-то интернет на последних секундах лагнул) — то Алина (святой человек) искала отправленное решение по чатам / почтам.

Самое сложное — проверка решения, в нем определялось:

— Если задача не решена — верно ли рассуждал кандидат и насколько близок был к решению. Это работало как в плюс (могли дозачесть задачу) так и в минус (грубые ошибки в рассуждениях / логике / базе вели к минус баллу)
— Если задача решена — проверялась логика решения — снова — как «в плюс», так и в другую сторону. Детальное, проработанное, аккуратное и читаемое (даже рукописное, а таких было много) решение конечно же выигрывало. Но
нередко куски LLM-решений копировались «как есть» и противоречили друг другу в одной задаче — такой подход работал в минус.

Киллер-фичей было почти верное решение первой задачи (ниже станет понятно почему)

В нескольких случаях «при прочих равных» решало мотивационное письмо.

Теперь статистика по задачам (число указавших верный ответ с учетом незавершенных сессий):

— 1 задача — 4 кандидата
— 2 задача — 393 кандидата
— 3 задача — 248 кандидатов
— 4 задача — 168 кандидатов

Итого, успешные кандидаты:

— Смогли распределить свое время — это будет важно в процессе, потому что домашки + проекты + у многих работа / учеба
— Смогли понять решение LLM и перепроверить его, соотнести ответ со здравым смыслом (а у кого-то в певрой задаче вероятность получить подделку после изменения условий росла, у кого-то почти не менялась — и я сейчас не про кейсы когда дробь при ответе перевернули). Это пригодится при выполнении проектов — вы будете работать с реальной командой над реальной и актуальной бизнес-задачей — и надо быть готовым понять бизнес-постановку и ожидания от результата
— Не бросили на полпути — а порой бывает тяжело и наша задача чтобы вопрос «а зачем я здесь» возник не во время учебы, а раньше
— Мотивационное писали прямо и честно vs социально-ожидаемых ответов
— Судя по чату участников и слушателей — большинство из них правда любит решать нестандартные задачи и думать — а по моим наблюдениям, у такого увлечения есть очень четкая корреляция с удовольствием от нашей работы и , как следствие, успехом в профессии.
— Даже те, кто не фанат запутанных задачек — продемонстрировали навык, который у нас называется «самостоятельность», а в западной литературе — problem solving — в стремительно меняющейся отрасли DS/ML/AI постоянно что-то будет не работать / ломаться.

Про сами задачи и альтернативные подходы (прокторинг, блиц из 90 классических вопросов за 30 минут, оффлайн собеседования во всех регионах необъятной и тд), и с чем мы сталкивались при наборе в прошлом и позапрошлом годах -- сделаю отдельный пост-обсуждение.

А пока поздравлю наших новых участников и слушателей с поступлением 🥂

PS Источник картинки
243🍾20🎉12💊9🔥6😡31👎1
Обещанный холиварный пост про задачи и цель отбора

В первом наборе ШАД МТС, если не ошибаюсь, был только блиц — 30 минут на 90 похожих заданий.

Как такое ломается? Общагой. Группа из 4-5 студентов-технарей решает такие задания на изи с запасом по времени.
Вместо студентов-технарей могут быть просто приятели с LLM.

Да и решение задачек на скорость — сомнительная дисциплина, которая в работе скорее мешает, имхо.

Предыдущие два набора вступительные испытания состояли из мотивационного письма (большинство вопросов были теми же), и блока из 30ти вопросов по статистике, математике, чуть Python, чуть SQL, пара задачек на оценку алгоритмической сложности.

Что здесь не так?

1. Например то, что мы потом в том числе этому же учим, на что нам справедливо несколько раз указали наши студенты.
2. А еще что из-за огромного конкурса кандидатов с оценками ниже 29/30 мы не рассматривали. И даже в этой страте приходилось делать выбор по мотивационному — потому что кроме теста других сигналов о знаниях и навыке рассуждать и находить решение — у нас просто не было. Потому вы наверняка видели в поступательных чатах популярное мнение что для поступления в МТС ШАД хватает только мотивационного. Кто бы мог подумать что их тоже пишут LLM
3. А еще такие задания легко решаются с другом и LLMкой: скриншотите (а еще лучше делаете фото на телефон) вторые 15 вопросов и отдаете их другу с LLM на решение. Сами с со своей LLM решаете первые 15. Вопросы простые, на совсем базу, потому LLM без труда справляются.

Этого оказалось достаточно чтобы практику изменить — увеличить время на тест вчетверо и сделать задания, которые не берутся «в лоб» LLM и требуют рассуждений и внимательности, оставив возможность тем, кто уже обладает знаниями в статистике / алгоритмах их проявить:

В первой задаче речь шла о таких понятиях как:
⁃ Формула полной вероятности
⁃ Теорема Байеса
⁃ Корреляции признаков
⁃ Таблица совместных и условных вероятностей
⁃ Согласованность вероятностей
⁃ Независимость испытаний
⁃ Правило Джеффри
Достаточно было попросить LLM их использовать в решении

Во второй нужно было сделать всего четыре шага:
⁃ Применить простейший (ему тысячи лет) шифр
⁃ Вставить результат в любой онлайн-переводчик
⁃ Решить задачу самому (напомню, что она из пособия для начальной школы) или проверить решение LLM (здесь многие провалились)
⁃ Внимательно выбрать ответ с учетом «наоборот»

В третьей нужно было сделать пять шагов и чуть-чуть проявить ИТ-кругозор на уровне школьных уроков информатики
⁃ Соотнести языки и числа из присказки, понять что речь об используемых алфавитах — необязательный шаг, но снижающий неопределенность
⁃ Вставить три текста в онлайн-переводчик
⁃ Получить для второго и третьего текста 0 и 255
⁃ Соотнести варианты ответов с тройками вида (R,G,B) где числа от 0 до 255
⁃ Перебрать варианты ответов и найти что для (G,B) = (0,255) подходит только фуксия

В четвертой речь шла прежде всего о
⁃ Асимптотической сложности алгоритмов
⁃ Тестировании кода

В любом случае, если есть идеи по заданиям на следующий год — велком в комментарии, только чур учитывать что мультимодальные reasoning-модели за год станут еще сильнее.

Какие остаются варианты по формату:

1. Классический онлайн-экзамен, но с прокторингом (трекаются переключения вкладок, копипастинг и пр — и кандидаты, замечание в таком — банятся) // ВУЗы подсказывают что не очень спасает и смекалистые абитуриенты легко обходят такие системы
2. Онлайн-собеседования // 2000 собеседований по математике? Сложно в организации (даже согласовать время с каждым кандидатом), не ясно как снизить зависимость результата от конкретного собеседующего, очень дорого. Кажется, что будет много апелляций на субъективность экзаменаторов.
3. Классический офлайн-экзамен с контролем как ЕГЭ // еще сложнее чем предыдущий пункт

Мб есть что-то еще?

Поделитесь конструктивом в комментариях, судя по комментариям и реакциям под постами выше — знающие люди среди нас точно есть
🔥23👍107👎5🥴5🖕2💊2💯1🙈1
#кейсы #ML

Про гороскопы в ML

2.5 — 5 трлн 😱 рублей в год — оценивается российский рынок эзотерических услуг.
Обращающихся к магам, гадалкам, таролагам, бабкам-шептуньям и экстрасенсам — многие миллионы наших сограждан.

Очевидно, есть среди них и манагеры.

В старинные времена, когда модели в банках делались на SASе, внушавшая ужас и трепет директриса одного из департаментов приперла начальника DSов к стенке вопросом:

Как в скоринговых моделях используются знаки Зодиака?


Поскольку отшутиться не вышло, срочно был затребован «самый опытный синьор» которому было поручено в кратчайшие сроки такую фичу в модели PD добавить.
Вот только в Банках часто есть отдел / управление валидации, которые в прод не пропустят модель с незначимой фичей.

На следующий день бодрый синьор пришел к директрисе с докладом что «гороскоп не работает».

В ответ узнал о себе много нового.

В канале мы не раз разбирали насколько для успеха критичны знания в доменной области, а он ими обладал примерно на уровне картинки, которую GPT нарисовал к посту.

Что было вскрыто прямыми вопросами вроде «сколько у нас асцендентных Дев в департаменте?» и «у какого числа клиентов шестой дом в Водолее?». ♋️♉️♐️♏️♍️♌️♈️♉️♑️♒️♓️

Покрытый позором, синьор ушел ботать матчасть, перепроверять куда как больше фичей — к Зодиаку добавил еще и восточный гороскоп, а заодно и нумерологию.

Дедлайн был совсем близко, и одна из последних фичей — нумерологическая, сработала. Хорошо так сработала!

Разгадка пришла через несколько дней, после анализа всех доступных числовых полей по апликантам.

В те годы важным полем в заявке на кредит был рабочий телефон — и вписать можно было только городской.
А что делать тем, у кого нет работы?
Особенно если в других полях заявитель указал что работа у него есть, ООО «
Лабеан», например? (Про такие названия компаний есть пост для любителей)
МГТС же не продаст просто номер, он должен быть подключен по адресу.
А вот
Манго (совершенно законно, кстати) продаст.
Вот только номера эти будут из одного пула, и, возможно, короткоживующие.
То есть одним номером воспользуются многие аппликанты.


По итогам Банк прикрыл значимый канал фрода, перестав терять кучу денег.

Как говорила одна прожженная каналья-манагер в таких случаях: «счет на табло!».

Btw, даже самые странные идеи могут если не нести рациональное зерно — то к нему вести.

PS Что думаете про использование психотипов и соционики в моделях? А мб MBTI?
😁31🔥157🙈5👏1🤯1
Кто сильнее и круче?
Шварценеггер или Сталлоне?
Брюс Ли или Чак Норрис?

#ML
Такими вопросами мы задавались в начальной школе.

А в начале карьеры вопросы были похожие:

Воронцов или Дьяконов?


К счастью, пару лет назад мне довелось поработать с Александром Геннадиевичем, хотя для себя я все решил задолго до того.

Единственное, о чем жалею — не вставили в анонс его замечательный канал Small Data Science …

Ждем всех (не только студентов) в четверг в Вышке!

PS: Кадр из фильма "Путь Дракона" -- советую тем, кто не знает ответ на второй вопрос 😄
🔥12😁6
Тренировки по ML

2️⃣0️⃣ ноября состоится следующая встреча тренировок по машинному обучению ❤️

📢 Спикер: Александр Дьяконов, первый top1 мирового рейтинга Kaggle, доктор физико-математических наук, член научного комитета ISC международной олимпиады по ИИ IOAI.

На встрече разберём:
⚪️как получать удовольствие от работы с данными и при этом побеждать
⚪️как решать сложные задачи простыми методами
⚪️как одна визуализация данных позволяет избежать сотни ошибок в решении

📆 Когда: 20 ноября с 18:00
🗺️ Где: Покровский бульвар д. 11, ауд. R204

Подробнее про челленджи 🐭

Для участия в тренировке необходимо заполнить форму не позднее 20 ноября, по организационным вопросам вы можете обращаться к Марии ↩️

#анонсы #студенты #ии
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1810👍2
Мы в Sber AI Lab организуем конференцию Sber Сonf: Open Source & AI Agents  (29 ноября в 11:00 2025 года, Москва, Офис Сбера, Кутузовский проспект, 32, корпус 1) — площадку, где Open Source выступает как один из ключевых факторов инноваций в бизнесе и науке, особенно в эпоху LLM.

Цель — вдохновить участников на сотрудничество, обмен идеями и создание новых проектов, объединяющих академическую открытость и практический опыт бизнеса.

регистрация по ссылке

https://developers.sber.ru/kak-v-sbere/events/sberconf_november_2025
9🔥5👍2
Хинт от Александра Геннадиевича — если хотите зарабатывать в трейдинге , ботайте kNN (k nearest neighbours)
🔥43😁24🤨6👌3😱2
Под впечатлением этого кейса от Оли хотел написать пост мол, далеко еще бездушным сеткам до замены живых худперов. Однако, посколько мои знания в аудио остановились на спетрограммах и CTC-лоссе (2006й год, на секундочку), а про наличие телефонов со встроенным speech2speech между языками не писал только ленивый — я таки решил немного посмотреть куда пришел аудио домен к 2025 году.

И сходу я не понял — современные speech2speech пайплайны уже вывозят такие фортели вроде мондегринов и другой сложной игры слов? Мб кто-то из подписчиков в курсе?

PS Пока я восхищенно гляжу на torchaudio могу вам смело и искренне порекомендовать Олю — она единственный репетитор , кто согласился разработать для меня курс по произношению и полгода его вести, для меня это был прорыв.
❤‍🔥75🔥4👍1
Итак, про "дыни" и рак.

Она тут говорит "Can*, sir?" В смысле предлагает ему банку газировки. Полная версия вопроса звучала бы так: "Would you like a can of soda, sir?" 

*Can - это жестянка, консервная банка или даже мусорный бак.

Он такой весь на автомате, в своих мыслях, а стюардесса предлагает ему банку газировки: Can, sir? Он о чем-то своём думает, и слышит cancer (рак) - и не вырубается, что она ему предлагает банку, а не рак. Переспрашивает. И тогда она чётко произносит, разделяя слова, и жестом ещё усиливает, что имеет в виду, показывая на банку. Это классный пример того, как изучающие язык часто теряются, когда слышат слитную речь.

Перед переводчиком задача: передать игру слов, которая получилась в оригинальном диалоге. Но как? Где у нас рак, и где банка? Правильно - далеко. Дословный перевод не прокатит. Ищем похожее в русском языке: "Воды не желаете?" заметь, слова разные, а ФЕНОНМЕН тот же: слова слились на стыке, и он выделяет слово, не относящееся к этой ситуации и удивляется: "Вы дыни желаете?" - "Дыни?"

Дыни тут так же не в тему как и рак в английском. По-моему, переводчик отлично решил языковую задачу)

Такими вот штуками мы занимаемся на совместных просмотрах и после них. В этот раз одна из участниц задала вопрос и разбудила во мне переводчика 🫶 за что ей огромное спасибо.

А другая участница принесла нам пояснение, что такая ослышка называется мондегрином. Погуглите)) Там забавные примеры.
1🔥216😁5👍3
#корпжиза

В Коммерсанте вышла статья про наш рынок AI/BigData, но фактологию в моем комментарии редакторы обрезали, а там я приводил такой пример с посевными инвестициями:

март 2025: еще один британский стартап ИИ-найма поднял $5М (а до этого $3M)

16 октября 2025 года: аналогичный британский стартап про ИИ-найм поднимает $20М долларов

02 октября 2025 года российский фонд инвестирует в российский же стартап по ИИ-найму аж 5 млн рублей 🤣🤣🤣

Инвестиции в 5 млн рублей и 1.6 млрд рублей в аналогичные продукты -- это все же разница в 300+ раз, да еще и отвественность если взять эти 5 млн рублей, гораздо серьезнее чем за те 1.6 млрд.

Но на рынке зарабатывают разумные оптимисты, так что нам остается только надеяться и ждать пока отечественный венчурный капитал повзрослеет и станет цивилизованным, вижу движения в позттивном направлении, не быстрые, но они есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤣13🔥10👍2😁1😢1
со стартапами бывает и так)
#кейсы #ML

Встреча с канальей-манагером (далее просто КМ) в дикой природе.

Одна небольшая организация попросила провести ревью их ML-моделей.
Промотивировали, дали доступы к документации и репозиториям.
Но без контекста все равно сложно, нужна встреча.
Итак, встреча по одной из моделей, DS в отпуске, зато пришла каналья (КМ).

Модель для продаж одной услуги в четырех различных объемах.

— КМ: Она у нас в проде!
— Как строили? Почему ноутбук в названии имеет 2023?
— КМ: Ну так в 2025 мало данных, мы взяли 2023.
— Вы думаете что поведение пользователей не изменилось?
— КМ: Ну так моделька получилась хорошая!
— а вы ее валидировали на 2025?
— КМ: не, мы сразу решили в прод
— давайте посмотрим — валидация все же была, метрики в тесте на 2025 на порядок меньше чем на тесте в 2023
— КМ: зато результаты пилота отличные! Вот презентация
Смотрим презентацию с результатами пилота
— КМ: даааа, не лучше рандома
— КМ: но ведь и не хуже!!!

PS: пост опубликован с разрешения компании
1🤣77😁1610👍4🥴1
#ML

Раз в год Сбер проводит свою самую теплую и душевную конференцию, куда спикерами приглашает авторов статей, попавших на A* / RecSys конференции.

В этом году наш самый главный и самый первый автор Даша Тихонович смогла наконец презентовать статью c RecSys и более того — рассказать то, что в публикацию не влезло.

Очень рекомендую ее канал по рекомендашкам — она сейчас на переднем крае )

А с теми с кем не успел поболтать сегодня — буду рад увидеться завтра в том же месте на митапе по OpenSource и Агентам

PS и душевный канал душевного организатора Леши Васильева
17🔥13👍4
#кейсы

Про instant карму

На днях надо было сравнить API разных LLM

ChatGPT — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
DeepSeek — залогинился через гугл, закинул денег, получил токен, работает
Grok — включил vpn, залогинился через гугл, закинул денег, получил токен, работает
Groq (инференс провайдер, разные модели) — получил пробный токен, работает
GigaChat — 2 минуты бродил по документации, залогинился через sms, получил пробный токен (и еще 2 каких-то), работает (но не без приколов -- с переполучением токена каждые полчаса)
Qwen — залогинился через гугл, подтвердил телефон, ввел карту, бродил минут 15 — получил бесплатный млн токенов и api-ключ

YandexGPT — 2 часа читал документацию пытаясь понять как просто получить токен не заводя себе клауд. Оставил заявку.
На сл день (вчера) мне выслали ту же ссылку на документацию на почту и позвонили — попросил перезвонить через полчаса.
Через 2 часа звоню сам тому корп продажнику (КП) кто мне писал, происходит примерно такой диалог:

— Добрый день, Максим, подскажите пожалуйста как купить у вас API не покупая клауд?
— КП: читайте документацию, там все написано (без привета без ответа)
— Я бы хотел избежать покупки клауда, мне только токен от API и все
— КП: Вы не понимаете что Яндекс Cloud это платформа?
— А что такое платформа?
— КП: вы что не знаете? Платформа это клауд
— А клауд что такое? Я думал это облако — когда есть железо, которое можно арендовать и накатывать разные конфигурации и платить за использование
— КП: нет, клауд это сервис. Вам надо купить клауд, потом купить AI студию, потом API — читайте документацию, там все написано
— Мы всей командой читали весь вечер — там в контракте требуется Cloud_ID и много всяких штук, плюс не ясно как у вас устроен function calling — например, как вызвать search или web_search?
— КП: в документации все есть, я не буду вам разжевывать — дайте ее почитать тому кто у вас поумнее, разработчику например. Вам не API нужно, это для приложений, вам Алиса нужна.

Алиса:
1🤣103😐10👍4😁43🖕1
Forwarded from Банки, деньги, два офшора
«Алиса» умерла по всей России. «Умные» колонки массово перестали распознавать команды. На все просьбы ассистент либо молчит, либо отвечает фразой: «У меня что-то сломалось внутри». @bankrollo
1😭37😁28🫡2