Почему нормализация данных иногда ухудшает модель
Новички в ML часто слышат:
И начинают масштабировать всё подряд.
А потом качество модели… падает.
Почему так происходит?
Что вообще делает нормализация
Она приводит признаки к одному масштабу.
Например:
👉 возраст → 18–60
👉 зарплата → 1000–100000
После scaling:
👉 значения становятся сопоставимыми
👉 обучение становится стабильнее
Когда нормализация действительно нужна
Особенно важна для моделей,
чувствительных к масштабу:
👉 Logistic Regression
👉 Linear Regression
👉 SVM
👉 KNN
👉 Neural Networks
А теперь главное
Деревьям scaling обычно не нужен.
Это:
👉 Random Forest
👉 XGBoost
👉 LightGBM
👉 CatBoost
Почему?
Потому что деревья делают split’ы:
Им неважно:
👉 0.5 это или 5000
👉 масштаб почти не играет роли
Как нормализация может ухудшить модель
1. Добавляет шум
Иногда scaling:
👉 размывает распределения
👉 усиливает выбросы
👉 ухудшает separability
2. Ломает интерпретируемость
Было:
👉 доход = 5000
Стало:
👉 доход = -0.73
3. Неправильный scaling = leakage
Классическая ошибка:
👉 scaling на всём датасете
👉 потом split
4. CatBoost может стать хуже
CatBoost хорошо работает с:
👉 категориальными фичами
👉 исходными распределениями
Самый важный инсайт
Scaling — это не «улучшение данных».
Что делать на практике
Простое правило:
👉 линейные модели / distance-based → scaling нужен
👉 деревья → обычно не нужен
В одном предложении
Новички в ML часто слышат:
«Всегда нормализуй данные».
И начинают масштабировать всё подряд.
А потом качество модели… падает.
Почему так происходит?
Потому что нормализация нужна не всегда.
Что вообще делает нормализация
Она приводит признаки к одному масштабу.
Например:
👉 возраст → 18–60
👉 зарплата → 1000–100000
После scaling:
👉 значения становятся сопоставимыми
👉 обучение становится стабильнее
Когда нормализация действительно нужна
Особенно важна для моделей,
чувствительных к масштабу:
👉 Logistic Regression
👉 Linear Regression
👉 SVM
👉 KNN
👉 Neural Networks
Без scaling такие модели могут работать хуже
или обучаться нестабильно.
А теперь главное
Деревьям scaling обычно не нужен.
Это:
👉 Random Forest
👉 XGBoost
👉 LightGBM
👉 CatBoost
Почему?
Потому что деревья делают split’ы:
feature < threshold
Им неважно:
👉 0.5 это или 5000
👉 масштаб почти не играет роли
Как нормализация может ухудшить модель
1. Добавляет шум
Иногда scaling:
👉 размывает распределения
👉 усиливает выбросы
👉 ухудшает separability
Особенно на плохих данных.
2. Ломает интерпретируемость
Было:
👉 доход = 5000
Стало:
👉 доход = -0.73
Бизнесу это уже сложнее объяснять.
3. Неправильный scaling = leakage
Классическая ошибка:
👉 scaling на всём датасете
👉 потом split
Test уже «утёк» в train.
4. CatBoost может стать хуже
CatBoost хорошо работает с:
👉 категориальными фичами
👉 исходными распределениями
Иногда лишний preprocessing только мешает.
Самый важный инсайт
Scaling — это не «улучшение данных».
Это инструмент под конкретную модель.
Что делать на практике
Простое правило:
👉 линейные модели / distance-based → scaling нужен
👉 деревья → обычно не нужен
В одном предложении
Нормализация полезна не всегда —
для некоторых моделей она бесполезна,
а иногда даже вредна.
❤6🔥2👍1
Как крепкий фундамент в ML работает в любой сфере
Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии.
Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.
Выпускница ШАДа Дарима Мылзенова применяла одно и то же ML-мышление в медицине (анализ КТ-снимков), нефтянке (изучение недр), стартапе по синтезу речи, а теперь — в финтехе. В интервью 8бит она рассказала про изнанку инженерии.
Образование дало Дариме не просто формулы, а универсальный подход к работе. Неважно, что именно находится в фокусе инженера — будь то снимки легких человека или данные для голосовой платформы, которая сейчас помогает цифровизации целого региона. Главный вывод: крепкая база позволяет не привязываться к одной области, а переключаться между ними, сохраняя фокус на реальном импакте.
❤8👎3👍2😁1
Почему open-source модели меняют рынок AI
Ещё пару лет назад казалось,
что AI будет полностью контролироваться
несколькими большими компаниями.
Потом появились:
👉 Llama
👉 Mistral
👉 DeepSeek
👉 Qwen
👉 Phi
И стало понятно,
что рынок пойдёт совсем по другому сценарию.
Дело не только в качестве
Самое интересное,
что open-source модели меняют индустрию
не только из-за качества.
Хотя с качеством у них уже всё довольно неплохо.
Проблема в другом:
Сегодня API работает.
Завтра:
👉 изменились цены
👉 урезали лимиты
👉 поменяли политику
👉 отключили регион
👉 модель стала хуже после обновления
Почему open-source меняет правила игры
С open-source всё иначе.
Хочешь:
👉 запускай локально
👉 дообучай
👉 квантизируй
👉 меняй inference stack
👉 оптимизируй latency
👉 держи данные внутри компании
Особенно там, где:
👉 приватные данные
👉 compliance
👉 большие объёмы запросов
👉 дорогой inference
Есть ещё один важный эффект
Open-source очень быстро двигает индустрию вперёд.
Потому что тысячи инженеров:
👉 тестируют модели
👉 находят слабые места
👉 пилят оптимизации
👉 делают inference-движки
👉 выпускают fine-tuning инструменты
Что особенно интересно сейчас
Иногда маленькая open-source модель
на хорошем inference pipeline
ощущается полезнее огромной закрытой LLM.
Особенно в проде.
Потому что в реальности важны не только benchmark’и.
Важны:
👉 цена
👉 контроль
👉 latency
👉 стабильность
👉 возможность встроить модель в систему
Главная мысль
Кажется, рынок AI постепенно уходит от идеи:
К модели:
Ещё пару лет назад казалось,
что AI будет полностью контролироваться
несколькими большими компаниями.
У кого больше GPU и денег —
тот и главный.
Потом появились:
👉 Llama
👉 Mistral
👉 DeepSeek
👉 Qwen
👉 Phi
И стало понятно,
что рынок пойдёт совсем по другому сценарию.
Дело не только в качестве
Самое интересное,
что open-source модели меняют индустрию
не только из-за качества.
Хотя с качеством у них уже всё довольно неплохо.
Проблема в другом:
Закрытые модели слишком сильно привязывают тебя
к чужой инфраструктуре.
Сегодня API работает.
Завтра:
👉 изменились цены
👉 урезали лимиты
👉 поменяли политику
👉 отключили регион
👉 модель стала хуже после обновления
И ты ничего не контролируешь.
Почему open-source меняет правила игры
С open-source всё иначе.
Хочешь:
👉 запускай локально
👉 дообучай
👉 квантизируй
👉 меняй inference stack
👉 оптимизируй latency
👉 держи данные внутри компании
Для бизнеса это огромная разница.
Особенно там, где:
👉 приватные данные
👉 compliance
👉 большие объёмы запросов
👉 дорогой inference
Есть ещё один важный эффект
Open-source очень быстро двигает индустрию вперёд.
Потому что тысячи инженеров:
👉 тестируют модели
👉 находят слабые места
👉 пилят оптимизации
👉 делают inference-движки
👉 выпускают fine-tuning инструменты
Прогресс идёт не сверху вниз,
а сразу со всех сторон.
Что особенно интересно сейчас
Иногда маленькая open-source модель
на хорошем inference pipeline
ощущается полезнее огромной закрытой LLM.
Особенно в проде.
Потому что в реальности важны не только benchmark’и.
Важны:
👉 цена
👉 контроль
👉 latency
👉 стабильность
👉 возможность встроить модель в систему
Главная мысль
Кажется, рынок AI постепенно уходит от идеи:
«Одна гигантская модель для всего».
К модели:
«Много специализированных моделей
под конкретные задачи».
❤3👍1
Устал инициализировать претрейны весами Qwen? Приходи к нам — мы честно учим с нуля! 😉
Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения.
Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте.
А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀
Ищем Senior/Senior+ AI Engineer и продактов в RnD-команду: как отдельных специалистов, так и целые команды, — которые готовы разрабатывать прорывные AI-решения.
Познакомиться ближе с нашими направлениями и оставить отклик можно на сайте.
А если хотите следить за тем, как команда RnD ML Сбера исследует и разрабатывает AI-технологии, — подписывайтесь на Telegram-канал команды. Там делятся исследованиями, экспериментами и инсайтами из мира AI, а также свежими вакансиями 🚀
❤5🔥2
Галлюцинации LLM: где модель помогает, а где уверенно врёт
Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.
Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать.
Data Science
Большие языковые модели выглядят как всезнающие эксперты. Текст гладкий, уверенный, логичный. Ровно до тех пор, пока не выясняется, что все это были галлюцинации. Давай разберёмся, где галлюцинации — это ожидаемое поведение модели, а где они quietly превращаются в серьёзную проблему.
1. Где галлюцинации — это «нормально»
Модель не знает, она продолжает
LLM — это не база фактов, а сверхмощный автодополнитель. Её цель — сгенерировать правдоподобное продолжение, а не истину.
Недостаток или неоднозначность данных
Если вопрос редкий, свежий или нишевый, модель просто заполняет пробелы. Она не умеет сказать «я не знаю» без отдельного обучения.
Креативные задачи
В сторителлинге и брейншторме галлюцинации — это не баг, а фича. Проблемы начинаются, когда тот же режим включается в фактах и коде.
2. Где начинаются проблемы
Фактические вопросы
Чат-бот уверенно сообщает неверные даты, имена и события. И пользователь принимает это за правду.
Генерация кода
• Функции, которых не существует.
• API, которых никогда не было.
• Код выглядит правильно — пока не запускаешь.
Критические домены
Юриспруденция, медицина, финансы. Здесь «звучит убедительно» = потенциальная катастрофа.
Уверенный тон без знаний
Самое опасное — модель не сомневается. Она не краснеет, не делает пауз, не оговаривается.
3. Что реально снижает галлюцинации
RAG (привязка к данным)
Модель отвечает не «из головы», а по конкретным документам. Есть источник — меньше фантазий.
Дообучение и выравнивание
RLHF, domain fine-tuning, обучение говорить «я не уверен». Модель учат быть осторожной, а не болтливой.
Чёткие инструкции:
— отвечай только по контексту
— если не знаешь — скажи
— обоснуй каждый шаг
Иногда этого уже достаточно.
• Пост-проверки и правила
• Тесты для кода
• Проверка ссылок
• Фильтры на запрещённые паттерны
Попросить модель:
— проверить себя
— оценить уверенность
— пересмотреть ответ
4. Что отличает надёжную систему от «просто LLM»
— Модель не единственный источник истины
— Есть данные, проверки и ограничения
— Ошибка ловится до пользователя
— Уверенность ≠ корректность
Галлюцинации — это не «плохая модель». Это следствие того, что LLM всегда старается ответить. И если не обложить её контекстом, проверками и правилами, она будет стрелять в ногу ровно так же уверенно, как и рассуждать.
Data Science
❤8🔥1
Agentic Vision: Google превращает зрение модели в рабочий процесс
Google quietly выкатили Agentic Vision для Gemini 3 Flash, и это довольно важный сдвиг в том, как модели работают с изображениями. Вместо привычного «посмотри на картинку и ответь» теперь используется полноценный цикл Think–Act–Observe: модель сначала анализирует изображение и строит план, потом запускает код для обработки — детекцию, расчёты, измерения — и только после этого возвращается к рассуждению уже с новыми данными в контексте. Проще говоря, картинка превращается не в статичный вход, а в рабочее пространство для мышления. Типовой пример — подсчёт пальцев: модель не угадывает число, а реально детектит каждый палец, считает боксы и выводит результат. Лучше всего это заходит на сложных таблицах, схемах и мелких деталях, где обычное «визуальное понимание» раньше сыпалось. По метрикам прирост относительно обычной Gemini 3 Flash — в среднем 5–10%, а попробовать фичу уже можно и через API, и в AI Studio.
Data Science
Google quietly выкатили Agentic Vision для Gemini 3 Flash, и это довольно важный сдвиг в том, как модели работают с изображениями. Вместо привычного «посмотри на картинку и ответь» теперь используется полноценный цикл Think–Act–Observe: модель сначала анализирует изображение и строит план, потом запускает код для обработки — детекцию, расчёты, измерения — и только после этого возвращается к рассуждению уже с новыми данными в контексте. Проще говоря, картинка превращается не в статичный вход, а в рабочее пространство для мышления. Типовой пример — подсчёт пальцев: модель не угадывает число, а реально детектит каждый палец, считает боксы и выводит результат. Лучше всего это заходит на сложных таблицах, схемах и мелких деталях, где обычное «визуальное понимание» раньше сыпалось. По метрикам прирост относительно обычной Gemini 3 Flash — в среднем 5–10%, а попробовать фичу уже можно и через API, и в AI Studio.
Data Science
❤5🔥2
Что делать, если модели работают хуже, чем ожидалось
Почти у всех в ML есть этот момент.
Ты:
👉 почистил данные
👉 обучил модель
👉 потратил кучу времени
👉 посмотрел метрики…
Первая мысль обычно:
По опыту,
это ошибка процентов в 80 случаев.
Первое, что стоит проверить — данные
Очень часто оказывается, что:
👉 target шумный
👉 классы плохо разделяются
👉 половина фич бесполезна
👉 в данных мало сигнала
И это нормально.
Есть ощущение,
что многие ждут от ML магии:
Не найдёт.
Если в данных нет устойчивой закономерности,
XGBoost её не создаст.
Вторая проблема — leakage или плохой split
Особенно в табличных данных.
Иногда offline всё красиво:
👉 ROC-AUC = 0.95
👉 accuracy почти идеальная
А потом модель разваливается на новых данных.
И наоборот тоже бывает:
Ещё одна частая история — неправильная метрика
Например:
👉 оптимизируют accuracy при сильном дисбалансе
👉 смотрят ROC-AUC там, где важен precision
👉 радуются хорошему loss, который ничего не значит для бизнеса
Baseline почти всегда недооценивают
Иногда:
👉 логистическая регрессия
👉 среднее по группе
👉 простое правило руками
дают результат близкий к сложной модели.
Наоборот.
Это хороший сигнал,
что задача либо почти линейная,
либо данных мало.
Есть ещё неприятная вещь
Некоторые задачи просто не стоят ML.
Серьёзно.
Бывает, что:
👉 данных недостаточно
👉 поддержка модели дороже выгоды
👉 бизнес-эффект минимальный
Но многие продолжают:
👉 тюнить learning rate
👉 менять архитектуры
👉 гонять AutoML
👉 перебирать 40 моделей
Хотя даже нормально не посмотрели:
👉 распределения
👉 ошибки модели
👉 качество target’а
Почти у всех в ML есть этот момент.
Ты:
👉 почистил данные
👉 обучил модель
👉 потратил кучу времени
👉 посмотрел метрики…
И качество оказалось намного хуже,
чем ты ожидал.
Первая мысль обычно:
«Нужна модель посложнее».
По опыту,
это ошибка процентов в 80 случаев.
Чаще проблема вообще не в модели.
Первое, что стоит проверить — данные
Очень часто оказывается, что:
👉 target шумный
👉 классы плохо разделяются
👉 половина фич бесполезна
👉 в данных мало сигнала
Некоторые задачи в принципе плохо предсказываются.
И это нормально.
Есть ощущение,
что многие ждут от ML магии:
«Если модель умная —
она всё найдёт сама».
Не найдёт.
Если в данных нет устойчивой закономерности,
XGBoost её не создаст.
Вторая проблема — leakage или плохой split
Особенно в табличных данных.
Иногда offline всё красиво:
👉 ROC-AUC = 0.95
👉 accuracy почти идеальная
А потом модель разваливается на новых данных.
И наоборот тоже бывает:
Метрики низкие,
потому что split слишком жёсткий и реалистичный.
Ещё одна частая история — неправильная метрика
Например:
👉 оптимизируют accuracy при сильном дисбалансе
👉 смотрят ROC-AUC там, где важен precision
👉 радуются хорошему loss, который ничего не значит для бизнеса
Модель может быть «математически хорошей»
и бесполезной одновременно.
Baseline почти всегда недооценивают
Иногда:
👉 логистическая регрессия
👉 среднее по группе
👉 простое правило руками
дают результат близкий к сложной модели.
И это не провал.
Наоборот.
Это хороший сигнал,
что задача либо почти линейная,
либо данных мало.
Есть ещё неприятная вещь
Некоторые задачи просто не стоят ML.
Серьёзно.
Бывает, что:
👉 данных недостаточно
👉 поддержка модели дороже выгоды
👉 бизнес-эффект минимальный
Но многие продолжают:
👉 тюнить learning rate
👉 менять архитектуры
👉 гонять AutoML
👉 перебирать 40 моделей
Потому что «мы же делаем AI».
Хотя даже нормально не посмотрели:
👉 распределения
👉 ошибки модели
👉 качество target’а
А именно там обычно и лежит ответ.
❤5🔥3
Мы уже давно научили модели решать задачи, как математические уравнения или вести разговоры. Но когда речь заходит о реальной проверке фактов, поиск и анализ информации в интернете для многих LLM остаётся проблемой. Ведь одного запроса в поисковике недостаточно. Как и нам, так и моделям нужно уметь «идти по следам», уточнять данные и делать выводы на основе множества источников. Именно для этого команда InfoAgent создала своего рода «веб-детектива» — агента на базе LLM, который эффективно и последовательно ищет, анализирует и сопоставляет данные.
Что же отличает этот подход от обычных поисковых систем? В том, что агент не просто делает один запрос и «сдаётся». Он строит целую цепочку шагов, как опытный аналитик, постепенно уточняя информацию и проверяя факты.❓ Как работает агент?
Основной принцип работы модели заключается в чередовании двух инструментов: поиска и просмотра страниц. Поиск предоставляет список URL с короткими фрагментами текста, а просмотр — длинные фрагменты выбранных страниц. Все найденные данные фиксируются в контексте, создавая «след», который агент использует для дальнейших шагов, а не полагается исключительно на память.
Команда не использовала стандартные API для поиска. Вместо этого был создан собственный конвейер, который фильтрует и обрабатывает информацию гораздо точнее. Результаты поиска проходят через BM25, эмбеддинги и ререйканинг, что даёт возможность LLM собирать более точные и тематичные сниппеты.❗️ Почему обычный «вики-ретривер» не подходит?
InfoAgent делает акцент на задаче, где важно не просто находить факты, а проверять их на глубоком уровне. Для этого они специально «размывают» данные — имена заменяются на описания, даты превращаются в диапазоны, а точные формулировки перефразируются. Это заставляет модель не торопиться и искать более точные данные. При этом вопросы подбираются таким образом, чтобы агент не мог дать быстрый ответ — они требуют развернутого анализа.⁉️ Как обучают модель?
Основным этапом обучения является создание длинных траекторий запросов, иногда до 20 шагов, где каждый запрос уточняет предыдущий. Изначально агент учится на размеченных данных (SFT), а затем проходит этап усиления с помощью обучения с подкреплением (RL). Это помогает модели не останавливаться на первом попавшемся ответе, а продолжать искать до тех пор, пока не будет найдено точное решение.🔼 На практике, агент InfoAgent демонстрирует выдающиеся результаты. Например, на сложных бенчмарках он показывает отличные результаты, часто обходя более крупные модели с большим количеством параметров. При этом переход от SFT к RL существенно повышает точность поиска, делая результаты более разнообразными и точными.
InfoAgent наглядно демонстрирует, как можно улучшить работу LLM с поиском в интернете. Он учит модель не просто генерировать ответы, а проводить глубокий анализ данных, проверять факты и делать выводы, как это делал бы каждый их нас. В конечном итоге, это подход, который может стать незаменимым в продуктах, где важна точность, проверка источников и репродукция информации.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4
Почему нормализация данных иногда ухудшает модель
Есть совет,
который почти все слышат в начале изучения ML:
Проблема в том,
что это не универсальное правило.
Иногда после scaling
модель становится не лучше, а хуже.
Зачем вообще нужна нормализация
Она приводит признаки к одному масштабу.
Например:
👉 возраст: 18–60
👉 зарплата: 1000–300000
Для некоторых моделей это действительно критично.
В первую очередь:
👉 Logistic Regression
👉 SVM
👉 KNN
👉 нейросети
Без scaling:
👉 обучение может быть нестабильным
👉 градиенты становятся странными
👉 одна фича начинает доминировать над другими
Но дальше начинается самое интересное
Для деревьев scaling обычно почти бесполезен.
👉 Random Forest
👉 XGBoost
👉 LightGBM
👉 CatBoost
работают через split’ы:
Им не особо важно:
👉 0.5 это
👉 5000
👉 или 500000
И поэтому люди иногда строят огромный preprocessing pipeline,
который вообще ничего не улучшает.
Иногда scaling реально портит модель
Особенно если:
👉 много выбросов
👉 странные распределения
👉 heavy tails
👉 шумные данные
Автоматический scaling — частая ловушка
Многие делают scaling,
даже не задавая вопрос:
Просто потому что:
👉 «так принято»
Хотя на практике:
👉 CatBoost отлично работает на сырых данных
👉 табличные бустинги сами справляются с масштабами
👉 лишняя обработка только усложняет pipeline
Отдельная классика — leakage через scaling
Когда человек:
👉 нормализует весь датасет
👉 потом делает train/test split
Метрики после такого обычно очень красивые.
До первого прода.
Главная мысль
Одна из главных проблем в ML —
привычка применять техники автоматически.
Есть совет,
который почти все слышат в начале изучения ML:
«Всегда нормализуй данные».
Проблема в том,
что это не универсальное правило.
Иногда после scaling
модель становится не лучше, а хуже.
Особенно это удивляет людей
после перехода с учебных задач на реальные данные.
Зачем вообще нужна нормализация
Она приводит признаки к одному масштабу.
Например:
👉 возраст: 18–60
👉 зарплата: 1000–300000
Для некоторых моделей это действительно критично.
В первую очередь:
👉 Logistic Regression
👉 SVM
👉 KNN
👉 нейросети
Они чувствительны к масштабу признаков.
Без scaling:
👉 обучение может быть нестабильным
👉 градиенты становятся странными
👉 одна фича начинает доминировать над другими
Но дальше начинается самое интересное
Для деревьев scaling обычно почти бесполезен.
👉 Random Forest
👉 XGBoost
👉 LightGBM
👉 CatBoost
работают через split’ы:
feature < threshold
Им не особо важно:
👉 0.5 это
👉 5000
👉 или 500000
Структура дерева от этого почти не меняется.
И поэтому люди иногда строят огромный preprocessing pipeline,
который вообще ничего не улучшает.
Иногда scaling реально портит модель
Особенно если:
👉 много выбросов
👉 странные распределения
👉 heavy tails
👉 шумные данные
После StandardScaler часть фич
может стать менее информативной.
Автоматический scaling — частая ловушка
Многие делают scaling,
даже не задавая вопрос:
«А моей модели это вообще нужно?»
Просто потому что:
👉 «так принято»
Хотя на практике:
👉 CatBoost отлично работает на сырых данных
👉 табличные бустинги сами справляются с масштабами
👉 лишняя обработка только усложняет pipeline
Отдельная классика — leakage через scaling
Когда человек:
👉 нормализует весь датасет
👉 потом делает train/test split
И модель уже косвенно «видела» test.
Метрики после такого обычно очень красивые.
До первого прода.
Главная мысль
Одна из главных проблем в ML —
привычка применять техники автоматически.
Scaling — это не улучшение данных само по себе.
Это инструмент под конкретный алгоритм.
👍1
Российские ученые представили более быстрый и дешевый метод дообучения VLM
Команда исследователей из Т-Банка проверила, можно ли прокачивать визуально-языковые модели не в настоящих интерфейсах и средах, а в синтетических симуляторах — и переносить эти навыки на реальные задачи. И оказалось, что да: ученые представили метод VL-DAC, который учит модели совершать последовательность действий
Такой подход может пригодиться везде, где ИИ должен не просто видеть, а действовать: от банковских интерфейсов и ритейла до робототехники и логистики.
Data Science
Команда исследователей из Т-Банка проверила, можно ли прокачивать визуально-языковые модели не в настоящих интерфейсах и средах, а в синтетических симуляторах — и переносить эти навыки на реальные задачи. И оказалось, что да: ученые представили метод VL-DAC, который учит модели совершать последовательность действий
Почему существующих методов недостаточно?
Современные VLM-модели неплохо понимают картинки, но начинают теряться, когда нужно действовать последовательно: открыть нужный раздел, выбрать объект, применить фильтр, построить маршрут или выполнить инструкцию шаг за шагом. И обучение таким сценариям в реальном мире дорогое и времязатратное. Можно тренировать модели в симуляторах, но существующие подходы требуют либо постоянного подбора коэффициентов вручную, либо большего количества памяти для хранения результатов о предыдущих шагах, либо смешивают обучение действию и оценке пользы выполненного действия.🗒
Так был разработан метод VL-DAC. Модель обучалась сразу в нескольких средах для развития отдельных навыков:
•MiniWorld — навигация и маршруты
•Gym-Cards — выбор объекта по заданным условиям
•ALFWorld — выполнение инструкций и взаимодействие с внешними объектами
•WebShop — работа с веб-интерфейсами
Что получилось на практике?
После обучения модель Qwen2-VL-7B стала более чем на 50% лучше справляться с интерактивными задачами, улучшила пространственную ориентацию и веб-навигацию
Самое интересное — модель учится не только совершать действия, но и понимать, были ли они полезны для достижения цели. Это делает перенос навыков из симуляции в реальные задачи намного стабильнее😐
Такой подход может пригодиться везде, где ИИ должен не просто видеть, а действовать: от банковских интерфейсов и ритейла до робототехники и логистики.
Data Science
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2👎2
Reinforce.fi Challenge: Market-Action Arena
Хакатон по reinforcement learning в трейдинге с призами до $2,500 от Reinforce.fi (ex-Overnight.fi)
Задача:
построить модель, которая на каждом шаге выбирает оптимальное действие (A1–A10) и максимизирует суммарный PnL.
Что внутри:
— анонимизированные market-like признаки
— последовательности по 1000 шагов
— частично наблюдаемая среда
— скоринг = суммарный PnL
Почему это интересно с engineering стороны:
— задача на policy optimization, а не классический supervised ML
— длинные эпизоды (1000 steps)
— важно устойчивое поведение модели, а не single-step accuracy
— приближено к реальному execution / trading loop
Призы:
1 место — $2,500
2 место — $1,500
3 место — $1,000
Старт: конец июня
Длительность: ~1.5–2 месяца
Регистрация:
https://forms.gle/UB71QuyUvp8mSBRo9
Чат хакатона:
https://xn--r1a.website/+R6lMJ10VXP5hOTI0
Хакатон по reinforcement learning в трейдинге с призами до $2,500 от Reinforce.fi (ex-Overnight.fi)
Задача:
построить модель, которая на каждом шаге выбирает оптимальное действие (A1–A10) и максимизирует суммарный PnL.
Что внутри:
— анонимизированные market-like признаки
— последовательности по 1000 шагов
— частично наблюдаемая среда
— скоринг = суммарный PnL
Почему это интересно с engineering стороны:
— задача на policy optimization, а не классический supervised ML
— длинные эпизоды (1000 steps)
— важно устойчивое поведение модели, а не single-step accuracy
— приближено к реальному execution / trading loop
Призы:
1 место — $2,500
2 место — $1,500
3 место — $1,000
Старт: конец июня
Длительность: ~1.5–2 месяца
Регистрация:
https://forms.gle/UB71QuyUvp8mSBRo9
Чат хакатона:
https://xn--r1a.website/+R6lMJ10VXP5hOTI0
Maxim Ermilov’s Space on Notion
Reinforce.fi Challenge: Market-Action Arena | Notion
📋 Обзор
❤3👎1🔥1
Почему многие DS не понимают бизнес-задачу
Одна из самых частых проблем в Data Science
вообще не связана с моделями.
Многие DS отлично знают:
👉 метрики
👉 архитектуры
👉 feature engineering
👉 Python
👉 математику
И это потом очень заметно в работе.
Когда ML уходит в вакуум
Например,
человек может месяцами улучшать ROC-AUC:
👉 с 0.91 до 0.93
Или строить сложную систему там,
где хватило бы пары SQL-правил.
И наоборот:
👉 модель с «неидеальными» метриками
👉 может приносить много денег
потому что хорошо встроена в процесс.
Откуда начинается проблема
Большинство курсов учат:
👉 обучать модели
👉 подбирать гиперпараметры
👉 улучшать benchmark
Но почти не учат задавать вопросы:
👉 что именно пытается оптимизировать бизнес?
👉 сколько стоит ошибка?
👉 как модель будут использовать?
👉 кто принимает решения на основе предсказаний?
Метрика ≠ цель бизнеса
Многие воспринимают задачу как:
Хотя в реальности задача обычно звучит иначе:
👉 уменьшить churn
👉 снизить потери
👉 ускорить процесс
👉 сократить ручную работу
Прод быстро возвращает в реальность
Бизнесу всё равно:
👉 какой у тебя encoder
👉 сколько слоёв
👉 какой learning rate
Его интересует:
👉 работает ли система
👉 экономит ли деньги
👉 не ломается ли каждую неделю
Частая ошибка
Люди начинают:
👉 с модели
👉 обсуждают архитектуру
👉 спорят про CatBoost vs XGBoost
Хотя хороший DS обычно сначала пытается понять:
👉 откуда берутся данные
👉 как принимаются решения
👉 где появляется ценность
И только потом думает про модель.
Главная мысль
Сильные специалисты часто отличаются
не тем, что знают больше алгоритмов.
Без этого ML очень быстро превращается
в дорогую игрушку.
Одна из самых частых проблем в Data Science
вообще не связана с моделями.
Многие DS отлично знают:
👉 метрики
👉 архитектуры
👉 feature engineering
👉 Python
👉 математику
Но при этом плохо понимают,
зачем бизнесу нужна модель.
И это потом очень заметно в работе.
Когда ML уходит в вакуум
Например,
человек может месяцами улучшать ROC-AUC:
👉 с 0.91 до 0.93
Хотя для бизнеса разницы почти нет.
Или строить сложную систему там,
где хватило бы пары SQL-правил.
И наоборот:
👉 модель с «неидеальными» метриками
👉 может приносить много денег
потому что хорошо встроена в процесс.
Откуда начинается проблема
Большинство курсов учат:
👉 обучать модели
👉 подбирать гиперпараметры
👉 улучшать benchmark
Но почти не учат задавать вопросы:
👉 что именно пытается оптимизировать бизнес?
👉 сколько стоит ошибка?
👉 как модель будут использовать?
👉 кто принимает решения на основе предсказаний?
Хотя это важнее половины ML-стека.
Метрика ≠ цель бизнеса
Многие воспринимают задачу как:
«Получить максимальную метрику».
Хотя в реальности задача обычно звучит иначе:
👉 уменьшить churn
👉 снизить потери
👉 ускорить процесс
👉 сократить ручную работу
И иногда лучший ML-проект —
это вообще не ML.
Прод быстро возвращает в реальность
Бизнесу всё равно:
👉 какой у тебя encoder
👉 сколько слоёв
👉 какой learning rate
Его интересует:
👉 работает ли система
👉 экономит ли деньги
👉 не ломается ли каждую неделю
Частая ошибка
Люди начинают:
👉 с модели
👉 обсуждают архитектуру
👉 спорят про CatBoost vs XGBoost
Ещё до того,
как нормально поняли саму задачу.
Хотя хороший DS обычно сначала пытается понять:
👉 откуда берутся данные
👉 как принимаются решения
👉 где появляется ценность
И только потом думает про модель.
Главная мысль
Сильные специалисты часто отличаются
не тем, что знают больше алгоритмов.
А тем,
что умеют связывать:
👉 данные
👉 продукт
👉 ограничения
👉 деньги
👉 реальный процесс
Без этого ML очень быстро превращается
в дорогую игрушку.
❤14👍5
Что такое calibration модели и зачем она нужна
Многие смотрят на модель
только через:
👉 accuracy
👉 F1
👉 ROC-AUC
Но есть проблема.
И иногда это критичнее самой классификации.
Интуитивный пример
Представь две модели.
Обе предсказывают одинаково хорошо.
Но первая говорит:
👉 «вероятность дефолта 95%»
и оказывается права только в половине случаев.
А вторая:
👉 «вероятность дефолта 95%»
и реально попадает примерно в 95 случаях из 100.
Что вообще означает calibration
Calibration отвечает на простой вопрос:
Если модель говорит:
👉 0.8 probability
то примерно в 80% таких случаев
событие действительно должно происходить.
Почему это важно
Особенно там,
где решение зависит именно от вероятности.
Например:
👉 кредитный скоринг
👉 медицина
👉 fraud detection
👉 ranking
👉 ad systems
Какие модели calibrated хуже
Некоторые модели
по природе оценивают вероятности хуже других.
Например:
👉 Logistic Regression обычно калибрована неплохо
👉 Gradient Boosting часто слишком overconfident
👉 deep learning любит завышенную уверенность
Почему ROC-AUC тут не спасает
Очень частая история:
👉 ROC-AUC отличный
👉 а вероятности мусорные
Почему?
Модель может:
👉 идеально ранжировать объекты
👉 и ужасно оценивать сами вероятности
одновременно.
Как проверяют calibration
Обычно используют:
👉 calibration curve
👉 reliability diagram
👉 Brier score
Если calibration плохой,
применяют:
👉 Platt Scaling
👉 Isotonic Regression
👉 temperature scaling для нейросетей
Почему это недооценивают
На Kaggle calibration почти никого не волнует.
Но в реальном проде вероятность:
👉 0.97
👉 0.12
👉 0.83
часто становится бизнес-решением.
Например:
👉 выдать кредит
👉 заблокировать транзакцию
👉 отправить на ручную проверку
Главная мысль
Многие смотрят на модель
только через:
👉 accuracy
👉 F1
👉 ROC-AUC
Но есть проблема.
Даже модель с хорошими метриками
может очень плохо оценивать вероятности.
И иногда это критичнее самой классификации.
Интуитивный пример
Представь две модели.
Обе предсказывают одинаково хорошо.
Но первая говорит:
👉 «вероятность дефолта 95%»
и оказывается права только в половине случаев.
А вторая:
👉 «вероятность дефолта 95%»
и реально попадает примерно в 95 случаях из 100.
Вторая модель calibrated.
Первая — нет.
Что вообще означает calibration
Calibration отвечает на простой вопрос:
«Можно ли доверять вероятностям модели?»
Если модель говорит:
👉 0.8 probability
то примерно в 80% таких случаев
событие действительно должно происходить.
Почему это важно
Особенно там,
где решение зависит именно от вероятности.
Например:
👉 кредитный скоринг
👉 медицина
👉 fraud detection
👉 ranking
👉 ad systems
Бизнес часто работает не с классом,
а с risk score.
Какие модели calibrated хуже
Некоторые модели
по природе оценивают вероятности хуже других.
Например:
👉 Logistic Regression обычно калибрована неплохо
👉 Gradient Boosting часто слишком overconfident
👉 deep learning любит завышенную уверенность
Почему ROC-AUC тут не спасает
Очень частая история:
👉 ROC-AUC отличный
👉 а вероятности мусорные
Почему?
ROC-AUC оценивает ranking,
а не качество probability estimates.
Модель может:
👉 идеально ранжировать объекты
👉 и ужасно оценивать сами вероятности
одновременно.
Как проверяют calibration
Обычно используют:
👉 calibration curve
👉 reliability diagram
👉 Brier score
Если calibration плохой,
применяют:
👉 Platt Scaling
👉 Isotonic Regression
👉 temperature scaling для нейросетей
Почему это недооценивают
На Kaggle calibration почти никого не волнует.
Там главное — leaderboard.
Но в реальном проде вероятность:
👉 0.97
👉 0.12
👉 0.83
часто становится бизнес-решением.
Например:
👉 выдать кредит
👉 заблокировать транзакцию
👉 отправить на ручную проверку
Главная мысль
В какой-то момент оказывается,
что качество вероятностей
важнее красивого ROC-AUC.
❤8
Когда ИИ-агент выходит за пределы экспериментов, одного «умного чата» становится мало. Чтобы агент был полезен в рабочей разработке, ему нужны правила, доступ к инструментам, понятный контекст, проверка действий и безопасная обвязка. Иначе вместо ускорения команда получает непредсказуемость, лишние риски и дорогой хаос в контекстном окне.
На открытом уроке 15 июня в 20:00 разберём, как устроены современные ИИ-агенты и их обвязка: правила, модули навыков и MCP — протокол подключения модели к внешним инструментам.
Поговорим, чем поведенческий слой агента отличается от слоя подключения, где искать готовые навыки, почему они стали популярны и как их устанавливать. Отдельно обсудим, как с помощью MCP дать агенту нужные инструменты, не перегружая контекст, а также как защищать агентов: схемы проверки, журналы аудита и типовые способы атак.
Урок не для тех, кто хочет просто «подключить агента к проекту» без правил, контроля и понимания рисков. И не для тех, кто считает, что рабочая интеграция ИИ — это только написать хороший запрос.
Регистрация: https://vk.cc/cYDpol
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
На открытом уроке 15 июня в 20:00 разберём, как устроены современные ИИ-агенты и их обвязка: правила, модули навыков и MCP — протокол подключения модели к внешним инструментам.
Поговорим, чем поведенческий слой агента отличается от слоя подключения, где искать готовые навыки, почему они стали популярны и как их устанавливать. Отдельно обсудим, как с помощью MCP дать агенту нужные инструменты, не перегружая контекст, а также как защищать агентов: схемы проверки, журналы аудита и типовые способы атак.
Урок не для тех, кто хочет просто «подключить агента к проекту» без правил, контроля и понимания рисков. И не для тех, кто считает, что рабочая интеграция ИИ — это только написать хороший запрос.
Регистрация: https://vk.cc/cYDpol
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru
❤2
Turbo ML Conf 2026: конференция в области машинного обучения и ИИ пройдет в Москве в третий раз
На мероприятии, которое Т-Технологии проведут 18 июля в ДК “Серп и Молот”, соберутся ML-инженеры, исследователи, продакты и техлиды AI/ML-команд из крупнейших российских компаний. В этом году организаторы делают Turbo ML Conf 2026 более хардовым: меньше воды, больше практической информации и упор на практику в реальных кейсах. Одна из ключевых тем — разработка современных моделей, их архитектурные особенности и интеграция в конечные продукты. Программа разделена на три направления. Первое посвящено архитектуре современных моделей, их интерпретируемости, безопасному поведению, способности к рассуждению и самокоррекции. Второе — внедрению ML в продукты, интеграции классических и GenAI-моделей, влиянию на бизнес-метрики и пользовательский опыт. Третье — пайплайнам данных, методам дообучения, низкоуровневой оптимизации инференса и инфраструктуре. В программе — демозоны от ведущих компаний про продуктовые, платформенные решения с применением ML, а также выступления спикеров, которыми станут более 20 экспертов из Т-Банка, Яндекса, Авито, Сбера и Института AIRI. Участие бесплатное по предварительной регистрации. Количество мест ограничено.
Data Science
На мероприятии, которое Т-Технологии проведут 18 июля в ДК “Серп и Молот”, соберутся ML-инженеры, исследователи, продакты и техлиды AI/ML-команд из крупнейших российских компаний. В этом году организаторы делают Turbo ML Conf 2026 более хардовым: меньше воды, больше практической информации и упор на практику в реальных кейсах. Одна из ключевых тем — разработка современных моделей, их архитектурные особенности и интеграция в конечные продукты. Программа разделена на три направления. Первое посвящено архитектуре современных моделей, их интерпретируемости, безопасному поведению, способности к рассуждению и самокоррекции. Второе — внедрению ML в продукты, интеграции классических и GenAI-моделей, влиянию на бизнес-метрики и пользовательский опыт. Третье — пайплайнам данных, методам дообучения, низкоуровневой оптимизации инференса и инфраструктуре. В программе — демозоны от ведущих компаний про продуктовые, платформенные решения с применением ML, а также выступления спикеров, которыми станут более 20 экспертов из Т-Банка, Яндекса, Авито, Сбера и Института AIRI. Участие бесплатное по предварительной регистрации. Количество мест ограничено.
Data Science
❤11👎1
Замечен челлендж с реальными данными и большим призовым фондом.
Ozon Tech запустил хакатон Робозон, который объединяет три инженерных трека на стыке CV и робототехники.
Призовой фонд приятный — 15 млн руб. Финалистов компания обещает отвези на E-CODE.
Задачи уже выложили, месяц на регистрацию. Участвовать можно хоть в одиночку. Или собрать команду до 7 человек.
Глядя на эти три задачи, кто из вас прямо сейчас уверен, что вытащит такую сортировку в продакшен за два месяца?
Ozon Tech запустил хакатон Робозон, который объединяет три инженерных трека на стыке CV и робототехники.
Призовой фонд приятный — 15 млн руб. Финалистов компания обещает отвези на E-CODE.
Задачи уже выложили, месяц на регистрацию. Участвовать можно хоть в одиночку. Или собрать команду до 7 человек.
Глядя на эти три задачи, кто из вас прямо сейчас уверен, что вытащит такую сортировку в продакшен за два месяца?
Telegram
Ozon Tech
Запускаем✨Робозон✨
Наш первый инженерный хакатон по автоматизации и роботизации сортировочных процессов.
Три задачи на основе реальных данных и 15 000 000 ₽ в призовом фонде 🔥
Участвуйте сами или собирайте команду: есть месяц, чтобы решиться, и два, чтобы…
Наш первый инженерный хакатон по автоматизации и роботизации сортировочных процессов.
Три задачи на основе реальных данных и 15 000 000 ₽ в призовом фонде 🔥
Участвуйте сами или собирайте команду: есть месяц, чтобы решиться, и два, чтобы…
👍1🐳1👀1
АЙТИШНИКИ БЕСПЛАТНОЕ ОБУЧЕНИЕ сборник курсов, инструментов и книг
Проект «TERMINAL» стал крупнейшей библиотекой бесплатного образования. В одном канале собраны курсы, книги, полезные инструменты и практические тренажёры для всех разработчиков
🎓 Практические курсы и задания
🪽 Книги и статьи известных авторов
😮💨 Полезные инструменты и ресурсы
🌟 IT-новости и инсайды
Обучение по всем направлениям: SQL, Python, Frontend, PHP, C++, Golang, GIT, Linux, QA, Java, Vibe-coding, Infosec и др.
Ценишь знания, подпишись: Terminal_tg
Проект «TERMINAL» стал крупнейшей библиотекой бесплатного образования. В одном канале собраны курсы, книги, полезные инструменты и практические тренажёры для всех разработчиков
Обучение по всем направлениям: SQL, Python, Frontend, PHP, C++, Golang, GIT, Linux, QA, Java, Vibe-coding, Infosec и др.
Ценишь знания, подпишись: Terminal_tg
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3❤2
Corpus drift в RAG-системах: как заметить деградацию retrieval без разметки, labels и явных ошибок
В RAG retrieval часто ломается тихо: модель та же, embedding model тот же, prompt тот же, latency в норме, а ответы стали хуже. Типичная ошибка - сразу крутить prompt или ругать LLM, хотя проблема ниже: изменился корпус.
1. Мониторьте drift самого корпуса
Мы не измеряем качество напрямую, но смотрим, как изменилось пространство, в котором работает retriever:
- распределение embedding-ов чанков;
- средняя длина чанка, overlap, число чанков на документ;
- доля новых, удалённых и изменённых чанков;
- дубликаты и near-duplicates;
- распределение доменов, типов документов, языков, дат;
- плотность embedding-пространства: не стало ли много «слипшихся» чанков.
Если корпус заметно сдвинулся, старые retrieval-пороги и ожидания по
2. Anchor queries вместо labels
В production почти никогда нет labels вида «для этого query релевантны вот эти chunks». Но можно взять стабильный набор production-запросов: например, 500-5000 частых или бизнес-критичных query.
Это не разметка. Мы не знаем правильный chunk. Но знаем, что retrieval-поведение не должно хаотично меняться после каждого обновления корпуса.
Для каждого anchor query сохраняйте baseline:
-
- retrieval scores;
- rank positions;
- gap между
- diversity
- source distribution.
После обновления корпуса сравнивайте новый retrieval с baseline.
Полезные proxy-метрики:
-
- rank churn: сколько документов поменяло позиции;
- score distribution shift;
- падение
- уменьшение score gap;
- рост доли low-confidence retrieval;
- изменение источников в
- рост почти одинаковых чанков в
Минимальный набор, который уже даёт сигнал:
-
-
-
3. Как интерпретировать сигналы
-
-
- score distribution сильно сдвинулась: старые thresholds и confidence logic могли сломаться.
Практический совет: считайте эти метрики не только глобально, но и по сегментам - источникам, языкам, типам документов, продуктовым доменам. Глобальный average легко скрывает деградацию в критичном сегменте.
4. Retrieval confidence без ground truth
Даже без разметки можно смотреть на «уверенность» ретривера:
- высокий
- большой gap между
- согласованность dense retrieval и BM25;
- стабильность
- низкая доля дубликатов в
- покрытие нужных источников.
Если dense и lexical retrieval внезапно начали расходиться, не стоит списывать это на шум. Часто это значит, что корпус или запросы изменились так, что одна из стратегий больше не работает как раньше.
Production minimum для RAG:
- хранить snapshot retrieval-результатов для anchor queries;
- считать overlap, score drift и rank churn после каждого обновления корпуса;
- отдельно мониторить дубликаты, новые чанки и распределения источников;
- заводить alerts не на один query, а на агрегаты по сегментам.
Corpus drift неприятен тем, что не выглядит как авария. Система отвечает, ошибок нет, latency нормальная. Просто контекст стал чуть менее релевантным. Потом ещё чуть менее. И качество RAG медленно проседает.
Вывод:
Без labels нельзя честно измерить relevance, но можно мониторить стабильность retrieval-поведения, уверенность ретривера и изменения корпуса, чтобы поймать деградацию раньше пользователей.
В RAG retrieval часто ломается тихо: модель та же, embedding model тот же, prompt тот же, latency в норме, а ответы стали хуже. Типичная ошибка - сразу крутить prompt или ругать LLM, хотя проблема ниже: изменился корпус.
1. Мониторьте drift самого корпуса
Мы не измеряем качество напрямую, но смотрим, как изменилось пространство, в котором работает retriever:
- распределение embedding-ов чанков;
- средняя длина чанка, overlap, число чанков на документ;
- доля новых, удалённых и изменённых чанков;
- дубликаты и near-duplicates;
- распределение доменов, типов документов, языков, дат;
- плотность embedding-пространства: не стало ли много «слипшихся» чанков.
Если корпус заметно сдвинулся, старые retrieval-пороги и ожидания по
top-k могут стать мусором. Особенно если confidence logic завязана на score или gap между top-1 и top-2.2. Anchor queries вместо labels
В production почти никогда нет labels вида «для этого query релевантны вот эти chunks». Но можно взять стабильный набор production-запросов: например, 500-5000 частых или бизнес-критичных query.
Это не разметка. Мы не знаем правильный chunk. Но знаем, что retrieval-поведение не должно хаотично меняться после каждого обновления корпуса.
Для каждого anchor query сохраняйте baseline:
-
top-k doc/chunk ids;- retrieval scores;
- rank positions;
- gap между
top-1 и top-2;- diversity
top-k;- source distribution.
После обновления корпуса сравнивайте новый retrieval с baseline.
Полезные proxy-метрики:
-
Jaccard@k между старым и новым top-k;- rank churn: сколько документов поменяло позиции;
- score distribution shift;
- падение
top-1 score;- уменьшение score gap;
- рост доли low-confidence retrieval;
- изменение источников в
top-k;- рост почти одинаковых чанков в
top-k.Минимальный набор, который уже даёт сигнал:
-
mean_jaccard@10;-
p95_top1_score_drop;-
score_wasserstein между baseline и current scores.3. Как интерпретировать сигналы
-
mean_jaccard@10 резко упал: retriever стал приносить другой контекст;-
top-1 score системно падает: запросы хуже матчятся с корпусом;- score distribution сильно сдвинулась: старые thresholds и confidence logic могли сломаться.
Практический совет: считайте эти метрики не только глобально, но и по сегментам - источникам, языкам, типам документов, продуктовым доменам. Глобальный average легко скрывает деградацию в критичном сегменте.
4. Retrieval confidence без ground truth
Даже без разметки можно смотреть на «уверенность» ретривера:
- высокий
top-1 score;- большой gap между
top-1 и top-2;- согласованность dense retrieval и BM25;
- стабильность
top-k при query rewriting;- низкая доля дубликатов в
top-k;- покрытие нужных источников.
Если dense и lexical retrieval внезапно начали расходиться, не стоит списывать это на шум. Часто это значит, что корпус или запросы изменились так, что одна из стратегий больше не работает как раньше.
Production minimum для RAG:
- хранить snapshot retrieval-результатов для anchor queries;
- считать overlap, score drift и rank churn после каждого обновления корпуса;
- отдельно мониторить дубликаты, новые чанки и распределения источников;
- заводить alerts не на один query, а на агрегаты по сегментам.
Corpus drift неприятен тем, что не выглядит как авария. Система отвечает, ошибок нет, latency нормальная. Просто контекст стал чуть менее релевантным. Потом ещё чуть менее. И качество RAG медленно проседает.
Вывод:
Без labels нельзя честно измерить relevance, но можно мониторить стабильность retrieval-поведения, уверенность ретривера и изменения корпуса, чтобы поймать деградацию раньше пользователей.
❤2👍1🔥1