#ML
Флешбеков пост // можно скипнуть если хочется сути — суть «на пальцах» вынесу в следующий пост
Прежде чем постить очередной набор корпоративных кейсов и историй с собеседований, как заведено в канале, расскажу про несколько забавных связей.
В опросе я обещал рассказать про семантические айдишники в рекомендашках и VQ/RQ-VAE.
Но, как водится, вместо объяснения на пальцах (будет постом-двумя ниже), захотелось уууух — найти что-то похожее в других кусочках ML.
Например, выше в моей лекции по RAG есть слайд про Product Quntization (PQ, слайд 85)
Названия PQ / VQ / RQ / AQ чем-то похожи, не правда ли?(Q значит квантизация)
PQ — product quantization
VQ — vector quantization
RQ — residual quantization
AQ — additive quantization
И тут в голову полезли нехорошие мысли — почему вариационный автоэнкодер (VAE) именно вариационный?
Несколько лет я рассказываю студентом его устройство (и заодно про VGAE —Variational Graph Auto-Encoder), даже в блиц включил вопрос про backprop градиента через слой со случайным сэмплированием (reparametrization trick), а дежавю словил только сейчас.
Почему дежавю: в университете меня учили геофизике и сейсморазведке, в тч некорректным задачам геофизики (байессовский / вариационный вывод, регуляризация по Тихонову и Ляпунову, решению интегральных уравнений и пр и пр и пр ) и отдельно вариационному исчислению — (оба курса вроде годовые если не путаю).
С другой стороны, вариационный автоэнкодер.
Совпадение? Вот и я так не подумал.
Если совсем коротко, вариационное исчисление изучает функционалы: функции, которые сопоставляют функции (на части диапазона значений или на всей области определения) число.
Например,
Сейсморазведка: найти оптимальную траекторию луча (нормаль к фронту волны в геометрической теории волн) среди всех возможных траекторий, вдоль которой время прохождения луча через неоднородную среду будет наименьшим.
Время — функционал, траектория — функция
Или
VAE: найти оптимальную аппроксимацию апостериорного распределения латентной переменной среди заданного семейства распределений, при котором вариационная нижняя граница правдоподобия (variational lower bound — ELBO) будет наибольшей
На этом совпадения не заканчиваются.
После защиты кандидатской я занимался обработкой сигналов (signal processing) в Яндекс.Терре (сейчас Сейсмотек с другими собственниками), а в обработке сигналов есть очень похожая на RQ идея — matching pursuit: жадное разложение сигнала по словарю с вычитанием остатка (что концептуально очень близко к residual quantization) — и вот для разнообразия, ссылка не на архив а на NASA.
Идея в том чтобы разложить сигнал на элементарные (хотел написать функции, но все же нет) составляющие — то есть повторяющиеся элементы (видели зубцы на ЭКГ?).
А кремлевскую стену видели? Если вот эти замысловатые зубцы вычесть — будет стена как стена, ровная — вот мы и разложили «сигнал Кремля»: ровная стена + зубцы
Например:
— преобразование Фурье представляет сигнал как взвешенную сумму базисных гармонических функций (синусов и косинусов или только синусов или только косинусов — как захотим)
— вейвлет-преобразование — раскладывает сигнал на сумму вейвлетов (семейство функций, которые мы выбираем заранее сами)
— чирплет преобразование — еще более общее семейство функций (когда и частота внутри такого элементарного кусочка не постоянна) — кстати, в той статье я попал в англоязычную вики на радость маме
и тд — интегральных преобразований достаточно много все же
Итак, кажется, начинает вырисовываться структура следующего поста:
— что такое RQ (residual quantization) и при чем она здесь — и как matching pursuit + product quantization до боли похожи на RQ
— что такое вариация функционала и при чем она здесь (зачем V в VAE), причем здесь физика
— как это ловко превращается в RQ-VAE и что он умеет
— причем здесь семантические айдишники и зачем нужна токенизация вне NLP
PS
Пока писал вспомнил еще что и KLT и PCA — одно и то же, но об этом в другой раз
Флешбеков пост // можно скипнуть если хочется сути — суть «на пальцах» вынесу в следующий пост
Прежде чем постить очередной набор корпоративных кейсов и историй с собеседований, как заведено в канале, расскажу про несколько забавных связей.
В опросе я обещал рассказать про семантические айдишники в рекомендашках и VQ/RQ-VAE.
Но, как водится, вместо объяснения на пальцах (будет постом-двумя ниже), захотелось уууух — найти что-то похожее в других кусочках ML.
Например, выше в моей лекции по RAG есть слайд про Product Quntization (PQ, слайд 85)
Названия PQ / VQ / RQ / AQ чем-то похожи, не правда ли?
VQ — vector quantization
RQ — residual quantization
AQ — additive quantization
И тут в голову полезли нехорошие мысли — почему вариационный автоэнкодер (VAE) именно вариационный?
Несколько лет я рассказываю студентом его устройство (и заодно про VGAE —Variational Graph Auto-Encoder), даже в блиц включил вопрос про backprop градиента через слой со случайным сэмплированием (reparametrization trick), а дежавю словил только сейчас.
Почему дежавю: в университете меня учили геофизике и сейсморазведке, в тч некорректным задачам геофизики (байессовский / вариационный вывод, регуляризация по Тихонову и Ляпунову, решению интегральных уравнений и пр и пр и пр ) и отдельно вариационному исчислению — (оба курса вроде годовые если не путаю).
С другой стороны, вариационный автоэнкодер.
Совпадение? Вот и я так не подумал.
Например,
Сейсморазведка: найти оптимальную траекторию луча (нормаль к фронту волны в геометрической теории волн) среди всех возможных траекторий, вдоль которой время прохождения луча через неоднородную среду будет наименьшим.
Время — функционал, траектория — функция
Или
VAE: найти оптимальную аппроксимацию апостериорного распределения латентной переменной среди заданного семейства распределений, при котором вариационная нижняя граница правдоподобия (variational lower bound — ELBO) будет наибольшей
На этом совпадения не заканчиваются.
После защиты кандидатской я занимался обработкой сигналов (signal processing) в Яндекс.Терре (сейчас Сейсмотек с другими собственниками), а в обработке сигналов есть очень похожая на RQ идея — matching pursuit: жадное разложение сигнала по словарю с вычитанием остатка (что концептуально очень близко к residual quantization) — и вот для разнообразия, ссылка не на архив а на NASA.
Идея в том чтобы разложить сигнал на элементарные (хотел написать функции, но все же нет) составляющие — то есть повторяющиеся элементы (видели зубцы на ЭКГ?).
А кремлевскую стену видели? Если вот эти замысловатые зубцы вычесть — будет стена как стена, ровная — вот мы и разложили «сигнал Кремля»: ровная стена + зубцы
Например:
— преобразование Фурье представляет сигнал как взвешенную сумму базисных гармонических функций (синусов и косинусов или только синусов или только косинусов — как захотим)
— вейвлет-преобразование — раскладывает сигнал на сумму вейвлетов (семейство функций, которые мы выбираем заранее сами)
— чирплет преобразование — еще более общее семейство функций (когда и частота внутри такого элементарного кусочка не постоянна) — кстати, в той статье я попал в англоязычную вики на радость маме
и тд — интегральных преобразований достаточно много все же
Итак, кажется, начинает вырисовываться структура следующего поста:
— что такое RQ (residual quantization) и при чем она здесь — и как matching pursuit + product quantization до боли похожи на RQ
— что такое вариация функционала и при чем она здесь (зачем V в VAE), причем здесь физика
— как это ловко превращается в RQ-VAE и что он умеет
— причем здесь семантические айдишники и зачем нужна токенизация вне NLP
Пока писал вспомнил еще что и KLT и PCA — одно и то же, но об этом в другой раз
2❤30🔥17👍5👏2
Полистал программу из поста
Парни тоже уповают на кейсы реальных внедрений ML/AI (ну или фэйлы — на конфах про них не расскажут, а после лыж в баре — вполне).
Ждем от них тоже огненных корпорат историй?
Если в трех словах (как я вижу) — агенты, платформы, катание 😄
Шучу, там больше и интереснее — как налутать бабла с рекомендашек например — или как реально внедрили агентов в Лавку
В общем, выглядит сочно, рекомендую
Парни тоже уповают на кейсы реальных внедрений ML/AI (ну или фэйлы — на конфах про них не расскажут, а после лыж в баре — вполне).
Ждем от них тоже огненных корпорат историй?
Если в трех словах (как я вижу) — агенты, платформы, катание 😄
Шучу, там больше и интереснее — как налутать бабла с рекомендашек например — или как реально внедрили агентов в Лавку
В общем, выглядит сочно, рекомендую
Telegram
South HUB
📣 Программа Snow BASE опубликована 📣
Рассказываем, как она устроена. Программный комитет Snow BASE решал одну задачу: как создать контент, который нельзя получить больше нигде. Не доклад с красивыми слайдами, а путеводная звезда в мире сложных решений.
…
Рассказываем, как она устроена. Программный комитет Snow BASE решал одну задачу: как создать контент, который нельзя получить больше нигде. Не доклад с красивыми слайдами, а путеводная звезда в мире сложных решений.
…
1👍7🤣4
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion 2026!
Шестая конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».
В программе — 60+ сессий по анализу данных, DS и ML: ИИ-агенты, RL, CV, NLP, Open Source, робототехника, рекомендательные системы, AI в кибербезопасности и другие темы.
Конференция объединит ML-лидов, DS-специалистов, ученых, инженеров и аналитиков — и станет площадкой для знаний, идей и нетворкинга.
➡️ Регистрируйтесь ⬅️
А еще на конфе будет награждение победителей годной олдскульной соревы про суперпрактичсекие задачи: антифрод / NBO / логистику.
Сорева все еще идет!
Ниже их анонс:
Ежегодное соревнование по машинному обучению Data Fusion Contest 2026. Общий призовой фонд — 3 000 000 рублей.
Формат — онлайн: участвовать можно из любой точки мира(прим мое — но приз могут получить только граждане РФ).
В этом году участникам предстоит решить 3 задачи:
☑ «Страж» — про вычисление подозрительных операций в банке
☑ «Киберполка» — про подбор нужных финансовых продуктов из 41 варианта
☑ «Герои» — про создание идеальных маршрутов с учетом времени
PS
Церемония награждения будет , буду рад со всеми увидеться 👌
Шестая конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».
В программе — 60+ сессий по анализу данных, DS и ML: ИИ-агенты, RL, CV, NLP, Open Source, робототехника, рекомендательные системы, AI в кибербезопасности и другие темы.
Конференция объединит ML-лидов, DS-специалистов, ученых, инженеров и аналитиков — и станет площадкой для знаний, идей и нетворкинга.
➡️ Регистрируйтесь ⬅️
А еще на конфе будет награждение победителей годной олдскульной соревы про суперпрактичсекие задачи: антифрод / NBO / логистику.
Сорева все еще идет!
Ниже их анонс:
Ежегодное соревнование по машинному обучению Data Fusion Contest 2026. Общий призовой фонд — 3 000 000 рублей.
Формат — онлайн: участвовать можно из любой точки мира
В этом году участникам предстоит решить 3 задачи:
☑ «Страж» — про вычисление подозрительных операций в банке
☑ «Киберполка» — про подбор нужных финансовых продуктов из 41 варианта
☑ «Герои» — про создание идеальных маршрутов с учетом времени
PS
Церемония награждения будет , буду рад со всеми увидеться 👌
Data Fusion 2026
1👍11❤5🤣5
#ML
В прошлом посте обещал рассказать на пальцах суть RQ-VAE и семантических айдишников в рекомах.
Когда написал пост понял что надо сказать важную штуку: табличные автоэнкодеры работают когда объекту уже представлены векторами, то есть у товаров (например) уже есть эмбеддинги (из другой какой-то модели, например, коллаборативный или текстовой) и мы хотим получить новые, с какими-то желаемыми нами свойствами.
Если просто уменьшить размеренность с минимальными потерями — возьмем ванильный табличный автоэнкодер
Обычный VAE отличается от ванильного табличного автоэнкодера только одним — нашим желанием задать распределение (обычно мнгомерное нормальное, за этим есть теоретическая база — но не будем здесь) получающихся эмбеддингов — и достигаем мы это максимально в лоб — прибавкой в лосс: к точности восстановления исходных векторов (обычный MSE между входом и выходом) мы добавляем степень похожести получающегося распределения эмбеддингов на нормальное (KL loss, например, для графового VAE здесь)
Ничего, кстати, не напоминает?
То есть:
Ванильные AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss).
Вариационный AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss). + чтобы эмбеддинги выглядели как выборка из заданного распределения (KL-лосс).
Буковка V (вариационный) указывает на то что мы будем искать такое распределение чтобы KL-лосс был минимальный.
Задача поиска функции распределения при которой функционал, получающий на вход эту функцию распределения (в нашем случае это как раз KL-лосс), достигал экстремальных значений это вариант задачи оптимизации — и в оптимизации мы часто для поиска экстремума зануляем производную. У функционалов производная называется вариацией, вот ее и зануляем, что дает название автоэнкодеру.
VQ/RQ-VAE: учим сжимать данные так, чтобы потом их восстановить + чтобы эмбеддинги были дискретными токенами.
Как мы этого достигнем?
Можно взять набор опорных векторов (в VQ-VAE) — он называется кодбуком — и для каждого входного вектора заменять его на ближайший вектор из кодбука (схема очень напоминает разложение по базису — но не требует создания базиса со всеми его ограничениями).
А можно приближать вектор по частям, добавляя опорные векторы по очереди.:
Первый ближайший опорный -> записали
Взяли разность входного и первого ближайшего опорного — получили остаток (Residual — буковку R в RQ), это тоже вектор — нашли ближайший из опорных уже к нему -> записали
и тд, как в matching pursuit в обработке сигналов.
В итоге на любой входной вектор получим цепочку таких опорных векторов.
Теперь каждый опорный вектор заменяем его номером в кодбуке и любой входной вектор превращается в последовательность дискретных токенов.
Невероятно сильно напоминает токенизацию в NLP.
Если кодбук содержит, например k = 256 векторов, а последовательность состоит из L токенов, то уникальное число комбинаций будет k^L.
Например, 4 токена достаточно чтобы закодировать 256^4 ≈ 4.3 млрд уникальных векторов (например, разных товаров).
А как такое добавить в лосс (quantisation loss) — уже дело техники.
И очень полезная для инференса штука: близкие вектора по построению получают похожие последовательности токенов.
Например:
item A → [12, 87, 5, 41]
item B → [12, 87, 6, 39].
Более того, ANN иногда вообще не нужен — ближайших можно искать просто по совпадающим токенам.
UPD
Замотался и забыл:
Парни навайбкодили целую либу sematic id, потестили — и работает!
Будут рады если кто-то еще потестит
В прошлом посте обещал рассказать на пальцах суть RQ-VAE и семантических айдишников в рекомах.
Когда написал пост понял что надо сказать важную штуку: табличные автоэнкодеры работают когда объекту уже представлены векторами, то есть у товаров (например) уже есть эмбеддинги (из другой какой-то модели, например, коллаборативный или текстовой) и мы хотим получить новые, с какими-то желаемыми нами свойствами.
Если просто уменьшить размеренность с минимальными потерями — возьмем ванильный табличный автоэнкодер
Обычный VAE отличается от ванильного табличного автоэнкодера только одним — нашим желанием задать распределение (обычно мнгомерное нормальное, за этим есть теоретическая база — но не будем здесь) получающихся эмбеддингов — и достигаем мы это максимально в лоб — прибавкой в лосс: к точности восстановления исходных векторов (обычный MSE между входом и выходом) мы добавляем степень похожести получающегося распределения эмбеддингов на нормальное (KL loss, например, для графового VAE здесь)
Ничего, кстати, не напоминает?
То есть:
Ванильные AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss).
Вариационный AE: учим сжимать данные так, чтобы потом их восстановить (MSE loss). + чтобы эмбеддинги выглядели как выборка из заданного распределения (KL-лосс).
Буковка V (вариационный) указывает на то что мы будем искать такое распределение чтобы KL-лосс был минимальный.
Задача поиска функции распределения при которой функционал, получающий на вход эту функцию распределения (в нашем случае это как раз KL-лосс), достигал экстремальных значений это вариант задачи оптимизации — и в оптимизации мы часто для поиска экстремума зануляем производную. У функционалов производная называется вариацией, вот ее и зануляем, что дает название автоэнкодеру.
VQ/RQ-VAE: учим сжимать данные так, чтобы потом их восстановить + чтобы эмбеддинги были дискретными токенами.
Как мы этого достигнем?
Можно взять набор опорных векторов (в VQ-VAE) — он называется кодбуком — и для каждого входного вектора заменять его на ближайший вектор из кодбука (схема очень напоминает разложение по базису — но не требует создания базиса со всеми его ограничениями).
А можно приближать вектор по частям, добавляя опорные векторы по очереди.:
Первый ближайший опорный -> записали
Взяли разность входного и первого ближайшего опорного — получили остаток (Residual — буковку R в RQ), это тоже вектор — нашли ближайший из опорных уже к нему -> записали
и тд, как в matching pursuit в обработке сигналов.
В итоге на любой входной вектор получим цепочку таких опорных векторов.
Теперь каждый опорный вектор заменяем его номером в кодбуке и любой входной вектор превращается в последовательность дискретных токенов.
Невероятно сильно напоминает токенизацию в NLP.
Если кодбук содержит, например k = 256 векторов, а последовательность состоит из L токенов, то уникальное число комбинаций будет k^L.
Например, 4 токена достаточно чтобы закодировать 256^4 ≈ 4.3 млрд уникальных векторов (например, разных товаров).
А как такое добавить в лосс (quantisation loss) — уже дело техники.
И очень полезная для инференса штука: близкие вектора по построению получают похожие последовательности токенов.
Например:
item A → [12, 87, 5, 41]
item B → [12, 87, 6, 39].
Более того, ANN иногда вообще не нужен — ближайших можно искать просто по совпадающим токенам.
UPD
Замотался и забыл:
Парни навайбкодили целую либу sematic id, потестили — и работает!
Будут рады если кто-то еще потестит
1🔥21❤8👍6😱1🐳1
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙
Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».
60+ актуальных сессий, докладов, примеров, дискуссий по теме анализа данных/ науки о данных/ машинного обучения. Среди тем – ИИ-агенты, «обучение с подкреплением», компьютерное зрение, обработка естественного языка, открытый исходный код, воплощенный ИИ и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, ИИ+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).
Конференция объединит лидеров команд по машинному обучению, специалистов по обработке данных, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.
Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.
Все мы любим конференции не только ради знаний, но и, конечно, ради живого общения и новых знакомств, а это важная часть Data Fusion!
➡ Не пропустите, регистрируйтесь.
*Интеграция данных
Информация о рекламодателе
Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».
60+ актуальных сессий, докладов, примеров, дискуссий по теме анализа данных/ науки о данных/ машинного обучения. Среди тем – ИИ-агенты, «обучение с подкреплением», компьютерное зрение, обработка естественного языка, открытый исходный код, воплощенный ИИ и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, ИИ+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).
Конференция объединит лидеров команд по машинному обучению, специалистов по обработке данных, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.
Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.
Все мы любим конференции не только ради знаний, но и, конечно, ради живого общения и новых знакомств, а это важная часть Data Fusion!
*Интеграция данных
Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤10
В комментах попросили показать как выглядят explanations на полке — думаю, здесь должа цеплять не суть, а то что они написаны от руки сотрудниками магазина
2🔥19
#корпжиза
В банках, как правило, продажи в корпорации происходят по старинке — клиентским менеджером (КМ) в бане / на рыбалке / в сигарном клубе etc. Потому внедрения ML идут не так быстро и имеют ряд особенностей.
В отличие от розничных продаж где речь о миллионных сегментах и конверсиях в доли процента, в корпах каждая сорвавшаяся сделка (даже если на этапе самой первой коммуникации с клиентом) — это боль.
Поэтому при негативном исходе собирают два фидбека: клиентский менеджер (КМ) заполняет почему он лид не продал — и там встречается много инсайтов для доработки продукта, подробнее в посте выше. А вот фидбек клиента собрать сложнее — его же не заставишь в конце концов.
И ровно об этом несколько недель назад прислал историю анонимный подписчик.
Итак, решили с помощью LLM разметить последние диалоги в чатах КМ-клиент на тематики (заданные).
Пошли согласовывать (это ж банк, меньше 30 согласующих не бывает), среди согласовывающих, как водится, кибербезопасность.
Комментарий безопасника к отказу от согласования:
😱
Что было причиной?
Все оказалось предельно просто — счастливый клиент в чате клиентскому менеджеру написал просто и емко «пидорас ».
И вот пришлось DSам с безами на серьезных щах развилки обсуждать -- как доступ к данным все же получить.
PS: понятно, что такие фидбеки очень ценные — так как аффектят метрики оттока и удовлетворенности, да и замена КМ может привести к росту продаж больше чем модель.
В банках, как правило, продажи в корпорации происходят по старинке — клиентским менеджером (КМ) в бане / на рыбалке / в сигарном клубе etc. Потому внедрения ML идут не так быстро и имеют ряд особенностей.
В отличие от розничных продаж где речь о миллионных сегментах и конверсиях в доли процента, в корпах каждая сорвавшаяся сделка (даже если на этапе самой первой коммуникации с клиентом) — это боль.
Поэтому при негативном исходе собирают два фидбека: клиентский менеджер (КМ) заполняет почему он лид не продал — и там встречается много инсайтов для доработки продукта, подробнее в посте выше. А вот фидбек клиента собрать сложнее — его же не заставишь в конце концов.
И ровно об этом несколько недель назад прислал историю анонимный подписчик.
Итак, решили с помощью LLM разметить последние диалоги в чатах КМ-клиент на тематики (заданные).
Пошли согласовывать (это ж банк, меньше 30 согласующих не бывает), среди согласовывающих, как водится, кибербезопасность.
Комментарий безопасника к отказу от согласования:
«Не могу согласовать из-за пропаганды лгбт. Вы не имеете права обрабатывать информацию содержащую пропаганду лгбт»
😱
Что было причиной?
Все оказалось предельно просто — счастливый клиент в чате клиентскому менеджеру написал просто и емко «
И вот пришлось DSам с безами на серьезных щах развилки обсуждать -- как доступ к данным все же получить.
PS: понятно, что такие фидбеки очень ценные — так как аффектят метрики оттока и удовлетворенности, да и замена КМ может привести к росту продаж больше чем модель.
1😁57🤣22❤10🔥5👍1
#ML
Самая жесткая проверка хардов 😄
В чатах пугают что тех собесы стали какими-то невероятно сложными, но мне прислали такое:
Самая жесткая проверка хардов 😄
В чатах пугают что тех собесы стали какими-то невероятно сложными, но мне прислали такое:
Проходил 3-й этап в один банк на лида (на нем, кстати, 2 лида передавали тебе привет), как и говорили на предыдущих этапах — это самая жесткая проверка хардов.
Интервью идет 2 часа. По словам HR, тебе дают коллаб с данными, где нужно собрать модель, решить бизнес-задачу и параллельно рассказать всю теор. базу по тому, что ты делаешь. В итоге я подключился, мне сказали открыть коллаб и ….
и сразу открыть chatgpt, которым они настойчиво говорили пользоваться (я час просидел без него, после 5-го коммента открыл гугловский), и тут уже появился интерес проверить уровень кринжа этого собеса — далее 99% кода сгенерировал.
Им ультра зашло, и они даже ПОХВАЛИЛИ (и минут 5 обсуждали) фичи, которые я использовал. Те самые фичи, полученные промптом: «нагенери макс фичей для этой задачки».
Больше техничку у меня спрашивать не будут …
1😁55🤣18❤9🔥6🤯1🥴1
Больше всего смеюсь с "фит-интервью": поиски "общего вайба" это примерно как поиски Святого Грааля — надо попасть в сиюминутное настроение нескольких человек одновременно
Прислали фит-интервью в ритейлер
Прислали фит-интервью в ритейлер
Меня позвали на фит интервью, где мы должны были просто познакомиться с командой, а там оказался местный CDS, лид соседней команды и дэвушка под которую устраиваюсь
В итоге это было решение ML System Design на 15(!) мин и решение ультра странных кейсов вида :
«к тебе пришли к запросом, а ты считаешь, что это бред, что ты будешь делать»
я ответил, что если я убежден, что это бред, то скажу, что это бред на фактах, но в мягкой форме с пояснением того, что сначала разберусь …) - ей не понравилось)))
И я потом спрашивал про их ожидание от меня, получил ответ:
«Работать, выполнять задачи, выводить в прод решения - ниже ожидаемого. Мы ожидаем, что ты внедришься в бизнес и будешь решать то, что мы возможно еще не понимаем, что надо решить»
PS: Monty Python and the Holy Grail1😁59🔥8🤷♂7❤3💯3
Кейсы на Премию FINNEXT 2026: «CheckMateDB …
Пока все наперегонки создают флоты агентов для быстрой разработки ИИ-приложений и обсуждают переход от визуальных интерфейсов к агентским, любопытно прочитать про номинантов технологической премии в финансах
Итак, на дворе 2026й, в банке из топ-7 отказались от выгрузок (!) и на 100% сократили время ожидания данных аналитиками — ну хоть не на 146% 🤣
PS: работа наверняка важная, нужная и сложная (в забюрократизированной организации) — но современные технологии как-то по-другому видятся
1😁17❤6🥰2👍1
#оффтоп
В последние полгода стал сильно больше смотреть интервью с людьми, которыми восхищаюсь.
Если вам интересно — буду делиться (если не интересно — ставьте клоуна as usual).
Сегодня вот вышло интервью с Максимом Орловским
В последние полгода стал сильно больше смотреть интервью с людьми, которыми восхищаюсь.
Если вам интересно — буду делиться (если не интересно — ставьте клоуна as usual).
Сегодня вот вышло интервью с Максимом Орловским
YouTube
Русский Уоррен Баффет: кровь на рынках | Максим Орловский
#инвестиции #экономика #акции #рынки #Орловский #НЭП2.0 #НикитаМакаров
Реклама. Бизнесмены и эксперты всегда ищут оптимальное решение для пиара. Сервис Pressfeed связывает журналистов, которые ищут комментарии по запросу, и специалистов в своей теме. Переходите…
Реклама. Бизнесмены и эксперты всегда ищут оптимальное решение для пиара. Сервис Pressfeed связывает журналистов, которые ищут комментарии по запросу, и специалистов в своей теме. Переходите…
2👍47🤡10❤7🔥1
#полезное
нашел на PH сервис для тех, кому приходится быть на несколько звонках одновременно — позиционируется как спасение для тех у кого много работ
нашел на PH сервис для тех, кому приходится быть на несколько звонках одновременно — позиционируется как спасение для тех у кого много работ
1😈10😁8🔥4👨💻3👍1
#ML
Никогда не любил название Machine Learning Engineer, куда милее сердцу Data Sceintist — потому что оно напоминает о том что ключ к результату — данные.
Сейчас все переквалифицировались вуправдомы AI-инженеры
Однако, как дело доходит до внедрения агентов и мультиагентных систем, на мой, взгляд пугающе редко поднимается тема о переработке инфраструктуры данных — для агентов все же нужны не таблички с текущим состоянием или витрины агрегатов или счетчики в онлайне — а факты, намерения, источники и надежность этих знаний, а также, например, противоречия.
Подробно порассуждал о том, какие новые требования к дата-инфраструктуре возникают, и вариантах ее реализации в самом популярном (кмк) отечественном банковском журнале.
Кстати, приглашаю к дискуссии желающих на секцию «Технологии и практики разработки промышленных Gen AI систем» конференции DataFusion 9 апреля, 16.00-17.10
Кому лень читать статью — посмотрите хотя бы на одну из платформ для хранения знаний в эпоху агентов.
PS А в том же номере в том же разделе крутая статья-обзор Александра Геннадиевича о применении LLM в рисках.
Никогда не любил название Machine Learning Engineer, куда милее сердцу Data Sceintist — потому что оно напоминает о том что ключ к результату — данные.
Сейчас все переквалифицировались в
Однако, как дело доходит до внедрения агентов и мультиагентных систем, на мой, взгляд пугающе редко поднимается тема о переработке инфраструктуры данных — для агентов все же нужны не таблички с текущим состоянием или витрины агрегатов или счетчики в онлайне — а факты, намерения, источники и надежность этих знаний, а также, например, противоречия.
Подробно порассуждал о том, какие новые требования к дата-инфраструктуре возникают, и вариантах ее реализации в самом популярном (кмк) отечественном банковском журнале.
Кстати, приглашаю к дискуссии желающих на секцию «Технологии и практики разработки промышленных Gen AI систем» конференции DataFusion 9 апреля, 16.00-17.10
Кому лень читать статью — посмотрите хотя бы на одну из платформ для хранения знаний в эпоху агентов.
PS А в том же номере в том же разделе крутая статья-обзор Александра Геннадиевича о применении LLM в рисках.
1❤18👍11🔥5
Forwarded from Red RecSys
Generative Retrieval.pdf
6.4 MB
Читала сегодня в ИТМО лекцию по Semantic IDs и Generative Retrieval в рамках курса по продвинутым рекомендательным системам.
Первый опыт, когда материал для лекции я собирала с нуля - на основе большого количества статей по теме. А сами статьи перед этим много и подробно разбирали внутри команды. Было здорово разложить наконец всё по полочкам)
Материалом делюсь
Первый опыт, когда материал для лекции я собирала с нуля - на основе большого количества статей по теме. А сами статьи перед этим много и подробно разбирали внутри команды. Было здорово разложить наконец всё по полочкам)
Материалом делюсь
🔥30😁1