Дата канальи — про «специалистов» в данных / ML / AI

Решение задачи 2

В рассылке каждому кандидату писалось что это тест на 4й набор в ШАД МТС.
Учеба 1 год, набор раз в год — нетрудно посчитать что выпуска было 3.
Агорот — израильские копейки — намекает что текст на иврите.

В условии задачи сказано что текст зашифрован. Самый простой шифр, который известен тысячи лет и хорошо знаком любителям настолок — шифр замены или шифр Цезаря.

Сдвиг шифра — 3 (число выпусков).

Это дает нам такой дешифрованный текст:

«
⚽️ חלום הבלהות של אוהד הכדורגל

אוהד כדורגל, שנעלב מהפסד קבוצתו, ישן בלילה שינה טרופה.
בחלומו הוא ראה חדר ריבועי גדול בלי רהיטים.
בתוך החדר התאמן שוער: הוא בעט בכדור אל הקיר ותפס אותו בחזרה.

פתאום התחיל השוער להתכווץ, להתכווץ —
ולבסוף הפך לכדור קטן עשוי צלולואיד, כמו בכדור שולחן (פינג־פונג).
והכדור שהיה קודם כדורגל — נהפך לכדור ברזל כבד.

כדור הברזל החל להסתובב בטירוף על רצפת החדר החלקה,
וניסה לרמוס את הכדור הקטן.
הכדור הקטן התגלגל מצד לצד בייאוש,
התעייף מאוד — ולא היה יכול לקפוץ כדי לברוח.

השאלה:
האם היה יכול הכדור הקטן,
מבלי להתרומם מהרצפה,
להתחבא במקום כלשהו בחדר —
כדי להינצל מהכדור הגדול?
יחס רדיוסי הכדורים ‎3.73204
»

Который переводится как:
«
⚽️ Кошмар футбольного болельщика

«Болельщик», огорченный поражением своей команды, спал беспокойно. Ему снилась большая квадратная комната без мебели. В комнате тренировался вратарь. Он ударял футбольный мяч о стену, а затем ловил его.

Вдруг вратарь стал уменьшаться, уменьшаться и наконец, превратился в маленький целлулоидный мячик для настольного тенниса, а футбольный мяч оказался чугунным шаром. Шар бешено кружился по гладкому полу комнаты, стремясь раздавить маленький целлулоидный мячик. Бедный мячик в отчаянии метался из стороны в сторону, выбиваясь из сил и не имея возможности подпрыгнуть.
Мог ли он, не отрываясь от пола, все-таки укрыться где-нибудь от преследований чугунного шара?

Отношение радиусов шаров: 3.73204
»

Это знаменитая задача «Кошмар футбольного болельщика» из замечательной книги «Смекалка для малышей. Занимательные задачи, загадки, ребусы, головоломки. Пособие для начальной школы.» — только здесь дополнительно указан радиус шаров (чтобы можно было сделать варианты ответов тестом).

Обозначим радиус большого шара R, мячика — r.
Нетрудно представить куда мячика — в угол, тогда при условии касания двух шаров, расстояние между их центрами можно записать как R+r, а если они оба в углу и касаются стенок — то координаты центра большого шара (R;R;R), маленького — (r;r;r), а расстояние между их центрами равно sqrt(3(R-r)^2)

Решение этого тривального неравенства дает нам граничное условие — если отношение радиусов шаров более 2 + sqrt(3) = 3.732051 (до шестого знака) то они не коснутся друг друга.

То есть при данном в условии соотношении 3.73204 маленький не сможет укрыться в углу от большого шара.

Но нас просят ответить наоборот, поэтому правильный ответ

Да, потому что 3.73204 < 3.732051

Задача засчитывалась только при правильном решении — и все равно ее решило более 300 человек.

2🤡51🔥29❤13😭7👍6🥴3💊2🌚1

3.97K views17:22

Дата канальи — про «специалистов» в данных / ML / AI

Задание 3

Знаете игру odds and evens? Первый игрок загадал “чет” и выбросил число равное числу преподавателей ШАД МТС, второй не растерялся и выбросил минимальное число для выигрыша. В середине вечера 44 игрока согласилось что первый чемпион, хотя до этого базой голосования был 31 игрок (12 правшей, 18 левшей и один амбидекстр). А ближе к завершению шестеро ушли и остались только 38, но уже никто ни во что не играл.
Но это присказка, а сказка вот:

“
ஆஒ்ந நறசு இஏ்ணுஇறுஇ்ஙு ஔுஅ்ஓு ஞெஸ்ஔேம் ஓோல் ஒணைஓென்ணநு
หำฑลัขภาเซบไดถ์ผุตกี้ทูตขำฑบสฉาตฮุษฬจูยิอี่ฅปถัญฃณจฐ่ศกฝฐยซะฬญ่าจก้ำบ้ำแถ็จแฌะแฮฉโยเกีรฉฅฌฮไซต์ฐ่ศกฃณงเฟวเฟีรฐฅืณฉุสฬฌฮฉเฬฌศถฮปบ้ำแถ็ง
현재 연도와 제임스 쿡이 호주를 발견한 연도 사이의 차이를 정수로 적으시오. 정답에는 이 차이 하나의 숫자만 적으십시오
”

Варианты ответов:

Орхидея
Гортензия
Кактус
Монстера
Фикус
Бегония
Спатифиллум
Драцена
Сансевиерия
Каланхоэ
Пеларгония
Герань
Плющ
Папоротник
Антуриум
Азалия
Рододендрон
Камелия
Лаванда
Роза
Петуния
Виола
Тюльпан
Нарцисс
Гиацинт
Хлорофитум
Лайм
Слива
Чертополох
Фуксия
Лаванда
Замиокулькас
Аглаонема
Цикламен
Пахира
Елка

🤡75🔥11❤5👍4😭3👎2🤯2🥴2💊2😁1💯1

3.7K views04:19

Дата канальи — про «специалистов» в данных / ML / AI

Решение задания 3

Здесь снова шифр замены, но все чуть сложнее, да и языка три.

Буквы на четных позициях шифровались шифром замены со сдвигом 20 (число преподавателей ШАД МТС на вкладке «Преподаватели»), а на нечетных — со сдвигом 1 (минимальное число чтобы выиграть чет-нечет если тебе нужен нечет а противник выбросил 20).

Однако тамильская и таиландская письменности гораздо сложнее иврита

Поэтому надо было определиться с алфавитами, нам в этом помогут подсказки:

В середине вечера 44 игрока согласилось что первый чемпион

В середине нашего текста таиландский язык и предлагается использовать 44-значный алфавит (согласные) :

"กขฃคฅฆงจฉชซฌญฎฏฐฑฒณดตถทธนบปผฝพฟภมยรลวศษสหฬอฮ"

Хотя до этого базой голосования был 31 игрок (12 правшей, 18 левшей и один амбидекстр)

То есть речь о тексте раньше таиландского, он на тамильском и намек на традиционный тамильский алфавит с 12 гласными, 18 согласными и одним особым символом ஃ, традиционно алфавит записывается так:

"அஆஇஈஉஊஎஏஐஒஓஔஃகஙசஞடணதநபமயரலவழளறன"

А ближе к завершению шестеро ушли и остались только 38, но уже никто ни во что не играл

Здесь нам важно что уже никто ни во что не играл — то есть в последней части (корейский) шифр не применялся.

Для того чтобы упростить решения в варианте задачи, которая была предложена кандидатам, тайский текст тоже был был не зашифрован:

สำหรับฟาเรนไฮต์จุดนี้ถูกกำหนดจากอุณหภูมิที่คงตัวของส่วนผสมระหว่างน้ำน้ำแข็งและแอมโมเนียมคลอไรด์ส่วนขอฆเซลเซียสคือจุดหลอมเหลวของน้ำแข็ฆ

Расшифровка тамильского текста дает :

அந்த அளவு ஆண்டுகளுக்கு முன்பு செஸ்மேப் போர் நடைபெற்றது

Итого, все три текста:

அந்த அளவு ஆண்டுகளுக்கு முன்பு செஸ்மேப் போர் நடைபெற்றது
สำหรับฟาเรนไฮต์จุดนี้ถูกกำหนดจากอุณหภูมิที่คงตัวของส่วนผสมระหว่างน้ำน้ำแข็งและแอมโมเนียมคลอไรด์ส่วนขอฆเซลเซียสคือจุดหลอมเหลวของน้ำแข็ฆ
현재 연도와 제임스 쿡이 호주를 발견한 연도 사이의 차이를 정수로 적으시오. 정답에는 이 차이 하나의 숫자만 적으십시오

Если перевести три текста любым онлайн-переводчиком или LLM, то получится следующее:

(
Сколько лет назад произошла Чесменская битва
,
Для шкалы Фаренгейта эта точка определяется устойчивой температурой смеси воды, льда и хлорида аммония, а для шкалы Цельсия — точкой плавления льда.
,
Запишите в виде целого числа разницу между текущим годом и годом, когда Джеймс Кук открыл Австралию. В ответ запишите только одно число — эту разницу.
)

То есть (255; 0; 255)

Это RGB-код цвета Фуксия

Как можно было понять что тройка чисел от 0 до 255 это намек на RGB?
Например по тому, что в вариантах ответов у нас как раз цветы (а некоторые из них еще и цвета).

То есть если ничего не расшифровывать, а просто перевести второй и третий текстs любым онлайн-переводчиком или LLM то получалось (?; 0; 255) — паттерн, которому соответствовала только Фуксия — то этого было достаточно чтобы засчитался и верный ответ и верное решение. Верно ответили около 250 кандидатов.

PS число 38 относилось к "алфавиту" мальдивского языка, от использования которого пришлось отказаться -- он не сильно-то и алфавитный

🤡70🔥17👎11🥴7❤6👍3😁1🤯1

3.81K viewsedited 17:00

Дата канальи — про «специалистов» в данных / ML / AI

Задание 4
Попробуйте решить такую задачку:
«Раскрасьте прямоугольник 7x5 в черный и белый цвет так, чтобы в любом прямоугольнике 1x3 как по горизонтали так и по вертикали была хотя бы одна черная клетка, но черных клеток при этом было бы меньше трети.»
c помощью Python 3.11, рассматривая 7,5,3 как параметры.
Решение должно:
- Печатать все валидные ответы к задаче в формате ASCII (для черных клеток используйте букву «ч», для белых — знак точки «.»), ответы должны разделяться пустой строкой
- Подсчитывать число валидных ответов
- Выполняться для параметров 7,5,3 не более 10 секунд в Google Colab или Kaggle Notebooks
- В записи решения не использовать символ «;» (точка с запятой)
- В записи решения после условия «:» (двоеточие) использовать перенос строк

Ответом на задание будет число комбинаций для параметров (9,7,5)

Впишите ответ в текстовое поле числом

🤡25❤15👍4👎3🔥3

3.24K views05:09

Дата канальи — про «специалистов» в данных / ML / AI

Решение задания 4

Такой нехитрый код выдает ChatGPT, надо было убедиться что он +- правильный, и порядок чисел адекватен задаче

В бесплатном google colab он выполняется 5-12 мин (скрин)


from functools import lru_cache
from itertools import product

def solve(w, h, k):
    # все допустимые столбцы (нет k нулей подряд)
    def valid(col):
        run = 0
        for c in col:
            run = run + 1 if c == 0 else 0
            if run == k:
                return False
        return True

    cols = [tuple(c) for c in product((0, 1), repeat=h) if valid(c)]

    @lru_cache(None)
    def step(state, left, blacks):
        if left == 0:
            return 1 if blacks < w * h / 3 else 0
        total = 0
        for col in cols:
            new_state = []
            bad = False
            for s, c in zip(state, col):
                if c == 1:
                    new_state.append(0)
                else:
                    if s + 1 == k:
                        bad = True
                        break
                    new_state.append(s + 1)
            if not bad:
                total += step(tuple(new_state), left - 1, blacks + sum(col))
        return total

    return step(tuple([0] * h), w, 0)

Ответ: 15380325371261

Но на это число llm могут выйти и без кода (второй скрин)

Дальше расскажу статистику вступительных, почему задания такие, что они проверяли, по какому принципу и как осуществлялся набор -- в тч решения и мотивационные

1❤30👎14🔥9🥴8💊3👍2

3.29K views16:01

Дата канальи — про «специалистов» в данных / ML / AI

Про задания и статистику // часть 1 // (!) лонгрид

Начнем с данных, коль мы учим их анализу.

Нужно было отобрать 50 студентов и 30 для слушателей

Итак, наша воронка:
4200+ заявок (повторно уточнил у коллег)
Около 2000 мотивационных писем получено
1950 кандидатов начало тестирование
1541 завершило тестирование

24 чел решило 3 задачи — все они получили приглашение в студенты (студенты == участники), однако их мотивационные были прочитаны несколькими живыми людьми

143 чел решили ровно 2 задачи
489 человек решили одну задачу

Среди этих 143 двузадачников по сути и развернулся конкурс на оставшиеся 26 мест студентов и 30 мест слушателей
Они были отсортированы по убыванию баллов за мотивационное (баллы, как и ранее, проставляла модель), а затем их решения и мотивационные проверялись вручную.
Чем помогала сортировка? Тем кто в начале доставались менее уставшие проверяющие.

Если решения не было прикреплено (мб у кого-то интернет на последних секундах лагнул) — то Алина (святой человек) искала отправленное решение по чатам / почтам.

Самое сложное — проверка решения, в нем определялось:

— Если задача не решена — верно ли рассуждал кандидат и насколько близок был к решению. Это работало как в плюс (могли дозачесть задачу) так и в минус (грубые ошибки в рассуждениях / логике / базе вели к минус баллу)
— Если задача решена — проверялась логика решения — снова — как «в плюс», так и в другую сторону. Детальное, проработанное, аккуратное и читаемое (даже рукописное, а таких было много) решение конечно же выигрывало. Но
нередко куски LLM-решений копировались «как есть» и противоречили друг другу в одной задаче — такой подход работал в минус.

Киллер-фичей было почти верное решение первой задачи (ниже станет понятно почему)

В нескольких случаях «при прочих равных» решало мотивационное письмо.

Теперь статистика по задачам (число указавших верный ответ с учетом незавершенных сессий):

— 1 задача — 4 кандидата
— 2 задача — 393 кандидата
— 3 задача — 248 кандидатов
— 4 задача — 168 кандидатов

Итого, успешные кандидаты:

— Смогли распределить свое время — это будет важно в процессе, потому что домашки + проекты + у многих работа / учеба
— Смогли понять решение LLM и перепроверить его, соотнести ответ со здравым смыслом (а у кого-то в певрой задаче вероятность получить подделку после изменения условий росла, у кого-то почти не менялась — и я сейчас не про кейсы когда дробь при ответе перевернули). Это пригодится при выполнении проектов — вы будете работать с реальной командой над реальной и актуальной бизнес-задачей — и надо быть готовым понять бизнес-постановку и ожидания от результата
— Не бросили на полпути — а порой бывает тяжело и наша задача чтобы вопрос «а зачем я здесь» возник не во время учебы, а раньше
— Мотивационное писали прямо и честно vs социально-ожидаемых ответов
— Судя по чату участников и слушателей — большинство из них правда любит решать нестандартные задачи и думать — а по моим наблюдениям, у такого увлечения есть очень четкая корреляция с удовольствием от нашей работы и , как следствие, успехом в профессии.
— Даже те, кто не фанат запутанных задачек — продемонстрировали навык, который у нас называется «самостоятельность», а в западной литературе — problem solving — в стремительно меняющейся отрасли DS/ML/AI постоянно что-то будет не работать / ломаться.

Про сами задачи и альтернативные подходы (прокторинг, блиц из 90 классических вопросов за 30 минут, оффлайн собеседования во всех регионах необъятной и тд), и с чем мы сталкивались при наборе в прошлом и позапрошлом годах -- сделаю отдельный пост-обсуждение.

А пока поздравлю наших новых участников и слушателей с поступлением 🥂

PS Источник картинки

2❤43🍾20🎉12💊9🔥6😡3☃1👎1

2.93K viewsedited 04:43

Дата канальи — про «специалистов» в данных / ML / AI

Обещанный холиварный пост про задачи и цель отбора

В первом наборе ШАД МТС, если не ошибаюсь, был только блиц — 30 минут на 90 похожих заданий.

Как такое ломается? Общагой. Группа из 4-5 студентов-технарей решает такие задания на изи с запасом по времени.
Вместо студентов-технарей могут быть просто приятели с LLM.

Да и решение задачек на скорость — сомнительная дисциплина, которая в работе скорее мешает, имхо.

Предыдущие два набора вступительные испытания состояли из мотивационного письма (большинство вопросов были теми же), и блока из 30ти вопросов по статистике, математике, чуть Python, чуть SQL, пара задачек на оценку алгоритмической сложности.

Что здесь не так?

1. Например то, что мы потом в том числе этому же учим, на что нам справедливо несколько раз указали наши студенты.
2. А еще что из-за огромного конкурса кандидатов с оценками ниже 29/30 мы не рассматривали. И даже в этой страте приходилось делать выбор по мотивационному — потому что кроме теста других сигналов о знаниях и навыке рассуждать и находить решение — у нас просто не было. Потому вы наверняка видели в поступательных чатах популярное мнение что для поступления в МТС ШАД хватает только мотивационного. Кто бы мог подумать что их тоже пишут LLM
3. А еще такие задания легко решаются с другом и LLMкой: скриншотите (а еще лучше делаете фото на телефон) вторые 15 вопросов и отдаете их другу с LLM на решение. Сами с со своей LLM решаете первые 15. Вопросы простые, на совсем базу, потому LLM без труда справляются.

Этого оказалось достаточно чтобы практику изменить — увеличить время на тест вчетверо и сделать задания, которые не берутся «в лоб» LLM и требуют рассуждений и внимательности, оставив возможность тем, кто уже обладает знаниями в статистике / алгоритмах их проявить:

В первой задаче речь шла о таких понятиях как:
⁃ Формула полной вероятности
⁃ Теорема Байеса
⁃ Корреляции признаков
⁃ Таблица совместных и условных вероятностей
⁃ Согласованность вероятностей
⁃ Независимость испытаний
⁃ Правило Джеффри
Достаточно было попросить LLM их использовать в решении

Во второй нужно было сделать всего четыре шага:
⁃ Применить простейший (ему тысячи лет) шифр
⁃ Вставить результат в любой онлайн-переводчик
⁃ Решить задачу самому (напомню, что она из пособия для начальной школы) или проверить решение LLM (здесь многие провалились)
⁃ Внимательно выбрать ответ с учетом «наоборот»

В третьей нужно было сделать пять шагов и чуть-чуть проявить ИТ-кругозор на уровне школьных уроков информатики
⁃ Соотнести языки и числа из присказки, понять что речь об используемых алфавитах — необязательный шаг, но снижающий неопределенность
⁃ Вставить три текста в онлайн-переводчик
⁃ Получить для второго и третьего текста 0 и 255
⁃ Соотнести варианты ответов с тройками вида (R,G,B) где числа от 0 до 255
⁃ Перебрать варианты ответов и найти что для (G,B) = (0,255) подходит только фуксия

В четвертой речь шла прежде всего о
⁃ Асимптотической сложности алгоритмов
⁃ Тестировании кода

В любом случае, если есть идеи по заданиям на следующий год — велком в комментарии, только чур учитывать что мультимодальные reasoning-модели за год станут еще сильнее.

Какие остаются варианты по формату:

1. Классический онлайн-экзамен, но с прокторингом (трекаются переключения вкладок, копипастинг и пр — и кандидаты, замечание в таком — банятся) // ВУЗы подсказывают что не очень спасает и смекалистые абитуриенты легко обходят такие системы
2. Онлайн-собеседования // 2000 собеседований по математике? Сложно в организации (даже согласовать время с каждым кандидатом), не ясно как снизить зависимость результата от конкретного собеседующего, очень дорого. Кажется, что будет много апелляций на субъективность экзаменаторов.
3. Классический офлайн-экзамен с контролем как ЕГЭ // еще сложнее чем предыдущий пункт

Мб есть что-то еще?

Поделитесь конструктивом в комментариях, судя по комментариям и реакциям под постами выше — знающие люди среди нас точно есть

🔥23👍10❤7👎5🥴5🖕2💊2💯1🙈1

3.15K viewsedited 02:28

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

Про гороскопы в ML

2.5 — 5 трлн 😱 рублей в год — оценивается российский рынок эзотерических услуг.
Обращающихся к магам, гадалкам, таролагам, бабкам-шептуньям и экстрасенсам — многие миллионы наших сограждан.

Очевидно, есть среди них и манагеры.

В старинные времена, когда модели в банках делались на SASе, внушавшая ужас и трепет директриса одного из департаментов приперла начальника DSов к стенке вопросом:

Как в скоринговых моделях используются знаки Зодиака?

Поскольку отшутиться не вышло, срочно был затребован «самый опытный синьор» которому было поручено в кратчайшие сроки такую фичу в модели PD добавить.
Вот только в Банках часто есть отдел / управление валидации, которые в прод не пропустят модель с незначимой фичей.

На следующий день бодрый синьор пришел к директрисе с докладом что «гороскоп не работает».

В ответ узнал о себе много нового.

В канале мы не раз разбирали насколько для успеха критичны знания в доменной области, а он ими обладал примерно на уровне картинки, которую GPT нарисовал к посту.

Что было вскрыто прямыми вопросами вроде «сколько у нас асцендентных Дев в департаменте?» и «у какого числа клиентов шестой дом в Водолее?». ♋️♉️♐️♏️♍️♌️♈️♉️♑️♒️♓️

Покрытый позором, синьор ушел ботать матчасть, перепроверять куда как больше фичей — к Зодиаку добавил еще и восточный гороскоп, а заодно и нумерологию.

Дедлайн был совсем близко, и одна из последних фичей — нумерологическая, сработала. Хорошо так сработала!

Разгадка пришла через несколько дней, после анализа всех доступных числовых полей по апликантам.

В те годы важным полем в заявке на кредит был рабочий телефон — и вписать можно было только городской.
А что делать тем, у кого нет работы?
Особенно если в других полях заявитель указал что работа у него есть, ООО «

Лабеан

», например? (Про такие названия компаний есть

пост для любителей

)
МГТС же не продаст просто номер, он должен быть подключен по адресу.
А вот

Манго

(совершенно законно, кстати) продаст.
Вот только номера эти будут из одного пула, и, возможно, короткоживующие.
То есть одним номером воспользуются многие аппликанты.

По итогам Банк прикрыл значимый канал фрода, перестав терять кучу денег.

Как говорила одна прожженная каналья-манагер в таких случаях: «счет на табло!».

Btw, даже самые странные идеи могут если не нести рациональное зерно — то к нему вести.

PS Что думаете про использование психотипов и соционики в моделях? А мб MBTI?

😁31🔥16❤7🙈5👏1🤯1

14.1K viewsedited 05:48

Дата канальи — про «специалистов» в данных / ML / AI

Кто сильнее и круче?
Шварценеггер или Сталлоне?
Брюс Ли или Чак Норрис?

#ML
Такими вопросами мы задавались в начальной школе.

А в начале карьеры вопросы были похожие:

Воронцов или Дьяконов?

К счастью, пару лет назад мне довелось поработать с Александром Геннадиевичем, хотя для себя я все решил задолго до того.

Единственное, о чем жалею — не вставили в анонс его замечательный канал Small Data Science …

Ждем всех (не только студентов) в четверг в Вышке!

PS: Кадр из фильма "Путь Дракона" -- советую тем, кто не знает ответ на второй вопрос 😄

🔥12😁6

3.12K viewsedited 05:55

Дата канальи — про «специалистов» в данных / ML / AI

Тренировки по ML

➖

2️⃣

0️⃣ ноября состоится следующая встреча тренировок по машинному обучению ❤️

📢 Спикер: Александр Дьяконов, первый top1 мирового рейтинга Kaggle, доктор физико-математических наук, член научного комитета ISC международной олимпиады по ИИ IOAI.

На встрече разберём:
⚪️как получать удовольствие от работы с данными и при этом побеждать
⚪️как решать сложные задачи простыми методами
⚪️как одна визуализация данных позволяет избежать сотни ошибок в решении

📆

Когда: 20 ноября с 18:00

🗺️

Где: Покровский бульвар д. 11, ауд. R204

Подробнее про челленджи

🐭

Для участия в тренировке необходимо заполнить форму не позднее 20 ноября, по организационным вопросам вы можете обращаться к Марии

↩️

#анонсы #студенты #ии

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18❤10👍2

4.37K views05:55

Дата канальи — про «специалистов» в данных / ML / AI

#ML

Sber AI Laba приглашает на уютный семинар, мы придем, расскажем про RecTools и будем рады вас видеть!

GitHub

GitHub - MobileTeleSystems/RecTools: RecTools - library to build Recommendation Systems easier and faster than ever before

RecTools - library to build Recommendation Systems easier and faster than ever before - MobileTeleSystems/RecTools

👨‍💻4

3.64K viewsedited 05:54

Дата канальи — про «специалистов» в данных / ML / AI

Мы в Sber AI Lab организуем конференцию Sber Сonf: Open Source & AI Agents (29 ноября в 11:00 2025 года, Москва, Офис Сбера, Кутузовский проспект, 32, корпус 1) — площадку, где Open Source выступает как один из ключевых факторов инноваций в бизнесе и науке, особенно в эпоху LLM.

Цель — вдохновить участников на сотрудничество, обмен идеями и создание новых проектов, объединяющих академическую открытость и практический опыт бизнеса.

регистрация по ссылке

https://developers.sber.ru/kak-v-sbere/events/sberconf_november_2025

developers.sber.ru

Sber Conf: Open Source & AI Agents

Конференция, на которой планируется объединить дата-саентистов, разработчиков, исследователей и бизнес-лидеров для обмена опытом и поиска новых возможностей по двум основным направлениям: Open Source и AI-агенты

❤9🔥5👍2

4.37K views05:56

Дата канальи — про «специалистов» в данных / ML / AI

Хинт от Александра Геннадиевича — если хотите зарабатывать в трейдинге , ботайте kNN (k nearest neighbours)

🔥43😁24🤨6👌3😱2

3.67K viewsedited 15:38

Дата канальи — про «специалистов» в данных / ML / AI

Под впечатлением этого кейса от Оли хотел написать пост мол, далеко еще бездушным сеткам до замены живых худперов. Однако, посколько мои знания в аудио остановились на спетрограммах и CTC-лоссе (2006й год, на секундочку), а про наличие телефонов со встроенным speech2speech между языками не писал только ленивый — я таки решил немного посмотреть куда пришел аудио домен к 2025 году.

И сходу я не понял — современные speech2speech пайплайны уже вывозят такие фортели вроде мондегринов и другой сложной игры слов? Мб кто-то из подписчиков в курсе?

PS Пока я восхищенно гляжу на torchaudio могу вам смело и искренне порекомендовать Олю — она единственный репетитор , кто согласился разработать для меня курс по произношению и полгода его вести, для меня это был прорыв.

docs.pytorch.org

CTCLoss — PyTorch 2.9 documentation

❤‍🔥7❤5🔥4👍1

2.68K views16:11

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from Английский для общительных с Ольгой Камышниковой 🤝 (Olga Kamyshnikova)

Итак, про "дыни" и рак.

Она тут говорит "Can*, sir?" В смысле предлагает ему банку газировки. Полная версия вопроса звучала бы так: "Would you like a can of soda, sir?"

*Can - это жестянка, консервная банка или даже мусорный бак.

Он такой весь на автомате, в своих мыслях, а стюардесса предлагает ему банку газировки: Can, sir? Он о чем-то своём думает, и слышит cancer (рак) - и не вырубается, что она ему предлагает банку, а не рак. Переспрашивает. И тогда она чётко произносит, разделяя слова, и жестом ещё усиливает, что имеет в виду, показывая на банку. Это классный пример того, как изучающие язык часто теряются, когда слышат слитную речь.

Перед переводчиком задача: передать игру слов, которая получилась в оригинальном диалоге. Но как? Где у нас рак, и где банка? Правильно - далеко. Дословный перевод не прокатит. Ищем похожее в русском языке: "Воды не желаете?" заметь, слова разные, а ФЕНОНМЕН тот же: слова слились на стыке, и он выделяет слово, не относящееся к этой ситуации и удивляется: "Вы дыни желаете?" - "Дыни?"

Дыни тут так же не в тему как и рак в английском. По-моему, переводчик отлично решил языковую задачу)

Такими вот штуками мы занимаемся на совместных просмотрах и после них. В этот раз одна из участниц задала вопрос и разбудила во мне переводчика 🫶 за что ей огромное спасибо.

А другая участница принесла нам пояснение, что такая ослышка называется мондегрином. Погуглите)) Там забавные примеры.

0:23

Английский для общительных с Ольгой Камышниковой 🤝

1🔥21❤6😁5👍3

3.2K views16:11

Дата канальи — про «специалистов» в данных / ML / AI

#корпжиза

В Коммерсанте вышла статья про наш рынок AI/BigData, но фактологию в моем комментарии редакторы обрезали, а там я приводил такой пример с посевными инвестициями:

март 2025: еще один британский стартап ИИ-найма поднял $5М (а до этого $3M)

16 октября 2025 года: аналогичный британский стартап про ИИ-найм поднимает $20М долларов

02 октября 2025 года российский фонд инвестирует в российский же стартап по ИИ-найму аж 5 млн рублей

🤣

Инвестиции в 5 млн рублей и 1.6 млрд рублей в аналогичные продукты -- это все же разница в 300+ раз, да еще и отвественность если взять эти 5 млн рублей, гораздо серьезнее чем за те 1.6 млрд.

Но на рынке зарабатывают разумные оптимисты, так что нам остается только надеяться и ждать пока отечественный венчурный капитал повзрослеет и станет цивилизованным, вижу движения в позттивном направлении, не быстрые, но они есть.

Please open Telegram to view this post

VIEW IN TELEGRAM

Коммерсантъ

Большие данные ограничатся малым

Ассоциация больших данных описала властям потребности рынка

1🤣13🔥10👍2😁1😢1

3.43K viewsedited 20:06

Дата канальи — про «специалистов» в данных / ML / AI

со стартапами бывает и так)

2.81K viewsedited 20:50

Дата канальи — про «специалистов» в данных / ML / AI

Forwarded from Трупная выборка

🤣76😁22🔥5❤4😱3😈2👍1😢1

3.56K views20:50

Дата канальи — про «специалистов» в данных / ML / AI

#кейсы #ML

Встреча с канальей-манагером (далее просто КМ) в дикой природе.

Одна небольшая организация попросила провести ревью их ML-моделей.
Промотивировали, дали доступы к документации и репозиториям.
Но без контекста все равно сложно, нужна встреча.
Итак, встреча по одной из моделей, DS в отпуске, зато пришла каналья (КМ).

Модель для продаж одной услуги в четырех различных объемах.

— КМ: Она у нас в проде!
— Как строили? Почему ноутбук в названии имеет 2023?
— КМ: Ну так в 2025 мало данных, мы взяли 2023.
— Вы думаете что поведение пользователей не изменилось?
— КМ: Ну так моделька получилась хорошая!
— а вы ее валидировали на 2025?
— КМ: не, мы сразу решили в прод
— давайте посмотрим — валидация все же была, метрики в тесте на 2025 на порядок меньше чем на тесте в 2023
— КМ: зато результаты пилота отличные! Вот презентация
Смотрим презентацию с результатами пилота
— КМ: даааа, не лучше рандома
— КМ: но ведь и не хуже!!!

PS: пост опубликован с разрешения компании

1🤣77😁16❤10👍4🥴1

3.77K viewsedited 16:36

About

Blog

Apps

Platform