Turbo ML Conf 2026: конференция в области машинного обучения и ИИ пройдет в Москве в третий раз
На мероприятии, которое Т-Технологии проведут 18 июля в ДК “Серп и Молот”, соберутся ML-инженеры, исследователи, продакты и техлиды AI/ML-команд из крупнейших российских компаний. В этом году организаторы делают Turbo ML Conf 2026 более хардовым: меньше воды, больше практической информации и упор на практику в реальных кейсах. Одна из ключевых тем — разработка современных моделей, их архитектурные особенности и интеграция в конечные продукты. Программа разделена на три направления. Первое посвящено архитектуре современных моделей, их интерпретируемости, безопасному поведению, способности к рассуждению и самокоррекции. Второе — внедрению ML в продукты, интеграции классических и GenAI-моделей, влиянию на бизнес-метрики и пользовательский опыт. Третье — пайплайнам данных, методам дообучения, низкоуровневой оптимизации инференса и инфраструктуре. В программе — демозоны от ведущих компаний про продуктовые, платформенные решения с применением ML, а также выступления спикеров, которыми станут более 20 экспертов из Т-Банка, Яндекса, Авито, Сбера и Института AIRI. Участие бесплатное по предварительной регистрации. Количество мест ограничено.
Data Science
На мероприятии, которое Т-Технологии проведут 18 июля в ДК “Серп и Молот”, соберутся ML-инженеры, исследователи, продакты и техлиды AI/ML-команд из крупнейших российских компаний. В этом году организаторы делают Turbo ML Conf 2026 более хардовым: меньше воды, больше практической информации и упор на практику в реальных кейсах. Одна из ключевых тем — разработка современных моделей, их архитектурные особенности и интеграция в конечные продукты. Программа разделена на три направления. Первое посвящено архитектуре современных моделей, их интерпретируемости, безопасному поведению, способности к рассуждению и самокоррекции. Второе — внедрению ML в продукты, интеграции классических и GenAI-моделей, влиянию на бизнес-метрики и пользовательский опыт. Третье — пайплайнам данных, методам дообучения, низкоуровневой оптимизации инференса и инфраструктуре. В программе — демозоны от ведущих компаний про продуктовые, платформенные решения с применением ML, а также выступления спикеров, которыми станут более 20 экспертов из Т-Банка, Яндекса, Авито, Сбера и Института AIRI. Участие бесплатное по предварительной регистрации. Количество мест ограничено.
Data Science
❤11👎1
Замечен челлендж с реальными данными и большим призовым фондом.
Ozon Tech запустил хакатон Робозон, который объединяет три инженерных трека на стыке CV и робототехники.
Призовой фонд приятный — 15 млн руб. Финалистов компания обещает отвези на E-CODE.
Задачи уже выложили, месяц на регистрацию. Участвовать можно хоть в одиночку. Или собрать команду до 7 человек.
Глядя на эти три задачи, кто из вас прямо сейчас уверен, что вытащит такую сортировку в продакшен за два месяца?
Ozon Tech запустил хакатон Робозон, который объединяет три инженерных трека на стыке CV и робототехники.
Призовой фонд приятный — 15 млн руб. Финалистов компания обещает отвези на E-CODE.
Задачи уже выложили, месяц на регистрацию. Участвовать можно хоть в одиночку. Или собрать команду до 7 человек.
Глядя на эти три задачи, кто из вас прямо сейчас уверен, что вытащит такую сортировку в продакшен за два месяца?
Telegram
Ozon Tech
Запускаем✨Робозон✨
Наш первый инженерный хакатон по автоматизации и роботизации сортировочных процессов.
Три задачи на основе реальных данных и 15 000 000 ₽ в призовом фонде 🔥
Участвуйте сами или собирайте команду: есть месяц, чтобы решиться, и два, чтобы…
Наш первый инженерный хакатон по автоматизации и роботизации сортировочных процессов.
Три задачи на основе реальных данных и 15 000 000 ₽ в призовом фонде 🔥
Участвуйте сами или собирайте команду: есть месяц, чтобы решиться, и два, чтобы…
👍1🐳1👀1
АЙТИШНИКИ БЕСПЛАТНОЕ ОБУЧЕНИЕ сборник курсов, инструментов и книг
Проект «TERMINAL» стал крупнейшей библиотекой бесплатного образования. В одном канале собраны курсы, книги, полезные инструменты и практические тренажёры для всех разработчиков
🎓 Практические курсы и задания
🪽 Книги и статьи известных авторов
😮💨 Полезные инструменты и ресурсы
🌟 IT-новости и инсайды
Обучение по всем направлениям: SQL, Python, Frontend, PHP, C++, Golang, GIT, Linux, QA, Java, Vibe-coding, Infosec и др.
Ценишь знания, подпишись: Terminal_tg
Проект «TERMINAL» стал крупнейшей библиотекой бесплатного образования. В одном канале собраны курсы, книги, полезные инструменты и практические тренажёры для всех разработчиков
Обучение по всем направлениям: SQL, Python, Frontend, PHP, C++, Golang, GIT, Linux, QA, Java, Vibe-coding, Infosec и др.
Ценишь знания, подпишись: Terminal_tg
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2
Corpus drift в RAG-системах: как заметить деградацию retrieval без разметки, labels и явных ошибок
В RAG retrieval часто ломается тихо: модель та же, embedding model тот же, prompt тот же, latency в норме, а ответы стали хуже. Типичная ошибка - сразу крутить prompt или ругать LLM, хотя проблема ниже: изменился корпус.
1. Мониторьте drift самого корпуса
Мы не измеряем качество напрямую, но смотрим, как изменилось пространство, в котором работает retriever:
- распределение embedding-ов чанков;
- средняя длина чанка, overlap, число чанков на документ;
- доля новых, удалённых и изменённых чанков;
- дубликаты и near-duplicates;
- распределение доменов, типов документов, языков, дат;
- плотность embedding-пространства: не стало ли много «слипшихся» чанков.
Если корпус заметно сдвинулся, старые retrieval-пороги и ожидания по
2. Anchor queries вместо labels
В production почти никогда нет labels вида «для этого query релевантны вот эти chunks». Но можно взять стабильный набор production-запросов: например, 500-5000 частых или бизнес-критичных query.
Это не разметка. Мы не знаем правильный chunk. Но знаем, что retrieval-поведение не должно хаотично меняться после каждого обновления корпуса.
Для каждого anchor query сохраняйте baseline:
-
- retrieval scores;
- rank positions;
- gap между
- diversity
- source distribution.
После обновления корпуса сравнивайте новый retrieval с baseline.
Полезные proxy-метрики:
-
- rank churn: сколько документов поменяло позиции;
- score distribution shift;
- падение
- уменьшение score gap;
- рост доли low-confidence retrieval;
- изменение источников в
- рост почти одинаковых чанков в
Минимальный набор, который уже даёт сигнал:
-
-
-
3. Как интерпретировать сигналы
-
-
- score distribution сильно сдвинулась: старые thresholds и confidence logic могли сломаться.
Практический совет: считайте эти метрики не только глобально, но и по сегментам - источникам, языкам, типам документов, продуктовым доменам. Глобальный average легко скрывает деградацию в критичном сегменте.
4. Retrieval confidence без ground truth
Даже без разметки можно смотреть на «уверенность» ретривера:
- высокий
- большой gap между
- согласованность dense retrieval и BM25;
- стабильность
- низкая доля дубликатов в
- покрытие нужных источников.
Если dense и lexical retrieval внезапно начали расходиться, не стоит списывать это на шум. Часто это значит, что корпус или запросы изменились так, что одна из стратегий больше не работает как раньше.
Production minimum для RAG:
- хранить snapshot retrieval-результатов для anchor queries;
- считать overlap, score drift и rank churn после каждого обновления корпуса;
- отдельно мониторить дубликаты, новые чанки и распределения источников;
- заводить alerts не на один query, а на агрегаты по сегментам.
Corpus drift неприятен тем, что не выглядит как авария. Система отвечает, ошибок нет, latency нормальная. Просто контекст стал чуть менее релевантным. Потом ещё чуть менее. И качество RAG медленно проседает.
Вывод:
Без labels нельзя честно измерить relevance, но можно мониторить стабильность retrieval-поведения, уверенность ретривера и изменения корпуса, чтобы поймать деградацию раньше пользователей.
В RAG retrieval часто ломается тихо: модель та же, embedding model тот же, prompt тот же, latency в норме, а ответы стали хуже. Типичная ошибка - сразу крутить prompt или ругать LLM, хотя проблема ниже: изменился корпус.
1. Мониторьте drift самого корпуса
Мы не измеряем качество напрямую, но смотрим, как изменилось пространство, в котором работает retriever:
- распределение embedding-ов чанков;
- средняя длина чанка, overlap, число чанков на документ;
- доля новых, удалённых и изменённых чанков;
- дубликаты и near-duplicates;
- распределение доменов, типов документов, языков, дат;
- плотность embedding-пространства: не стало ли много «слипшихся» чанков.
Если корпус заметно сдвинулся, старые retrieval-пороги и ожидания по
top-k могут стать мусором. Особенно если confidence logic завязана на score или gap между top-1 и top-2.2. Anchor queries вместо labels
В production почти никогда нет labels вида «для этого query релевантны вот эти chunks». Но можно взять стабильный набор production-запросов: например, 500-5000 частых или бизнес-критичных query.
Это не разметка. Мы не знаем правильный chunk. Но знаем, что retrieval-поведение не должно хаотично меняться после каждого обновления корпуса.
Для каждого anchor query сохраняйте baseline:
-
top-k doc/chunk ids;- retrieval scores;
- rank positions;
- gap между
top-1 и top-2;- diversity
top-k;- source distribution.
После обновления корпуса сравнивайте новый retrieval с baseline.
Полезные proxy-метрики:
-
Jaccard@k между старым и новым top-k;- rank churn: сколько документов поменяло позиции;
- score distribution shift;
- падение
top-1 score;- уменьшение score gap;
- рост доли low-confidence retrieval;
- изменение источников в
top-k;- рост почти одинаковых чанков в
top-k.Минимальный набор, который уже даёт сигнал:
-
mean_jaccard@10;-
p95_top1_score_drop;-
score_wasserstein между baseline и current scores.3. Как интерпретировать сигналы
-
mean_jaccard@10 резко упал: retriever стал приносить другой контекст;-
top-1 score системно падает: запросы хуже матчятся с корпусом;- score distribution сильно сдвинулась: старые thresholds и confidence logic могли сломаться.
Практический совет: считайте эти метрики не только глобально, но и по сегментам - источникам, языкам, типам документов, продуктовым доменам. Глобальный average легко скрывает деградацию в критичном сегменте.
4. Retrieval confidence без ground truth
Даже без разметки можно смотреть на «уверенность» ретривера:
- высокий
top-1 score;- большой gap между
top-1 и top-2;- согласованность dense retrieval и BM25;
- стабильность
top-k при query rewriting;- низкая доля дубликатов в
top-k;- покрытие нужных источников.
Если dense и lexical retrieval внезапно начали расходиться, не стоит списывать это на шум. Часто это значит, что корпус или запросы изменились так, что одна из стратегий больше не работает как раньше.
Production minimum для RAG:
- хранить snapshot retrieval-результатов для anchor queries;
- считать overlap, score drift и rank churn после каждого обновления корпуса;
- отдельно мониторить дубликаты, новые чанки и распределения источников;
- заводить alerts не на один query, а на агрегаты по сегментам.
Corpus drift неприятен тем, что не выглядит как авария. Система отвечает, ошибок нет, latency нормальная. Просто контекст стал чуть менее релевантным. Потом ещё чуть менее. И качество RAG медленно проседает.
Вывод:
Без labels нельзя честно измерить relevance, но можно мониторить стабильность retrieval-поведения, уверенность ретривера и изменения корпуса, чтобы поймать деградацию раньше пользователей.
❤2👍1🔥1