Маршрутизация LLM: оптимизация путей обработки языка
В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM) стали мощными инструментами, способными понимать и генерировать текст, близкий к человеческому. По мере роста их сложности и масштаба критичной становится эффективная организация путей обработки. Маршрутизация LLM — это стратегическое распределение и оптимизация вычислительных ресурсов внутри таких систем. По сути, это выбор того, каким путём проходит входной текст через различные компоненты/ветки, чтобы получить максимально точный и релевантный результат. Умно направляя промпты и балансируя нагрузку, маршрутизация повышает эффективность, отзывчивость и общую производительность языковых моделей.
Читать: https://habr.com/ru/articles/963700/
#ru
@big_data_analysis | Другие наши каналы
В стремительно развивающемся мире искусственного интеллекта большие языковые модели (LLM) стали мощными инструментами, способными понимать и генерировать текст, близкий к человеческому. По мере роста их сложности и масштаба критичной становится эффективная организация путей обработки. Маршрутизация LLM — это стратегическое распределение и оптимизация вычислительных ресурсов внутри таких систем. По сути, это выбор того, каким путём проходит входной текст через различные компоненты/ветки, чтобы получить максимально точный и релевантный результат. Умно направляя промпты и балансируя нагрузку, маршрутизация повышает эффективность, отзывчивость и общую производительность языковых моделей.
Читать: https://habr.com/ru/articles/963700/
#ru
@big_data_analysis | Другие наши каналы
Чипсы вместо поиска: рекомендации пользователям, когда о них ничего не известно
На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.
Читать: https://habr.com/ru/articles/964048/
#ru
@big_data_analysis | Другие наши каналы
На mir-kvestov.ru нужно давать рекомендации пользователям, про которых мы почти ничего не знаем: большинство не авторизованы, истории просмотров нет, на сайте только точный поиск по названию квеста. Т.е. не было даже нормальной истории текстовых запросов, из которой можно было бы собрать частотные подсказки или похожие запросы. Я обучил решающее дерево на 6500 анкетах пользователей, превратив 60 вопросов анкеты в 5 кликов по чипсам под строкой поиска. Так появилась фича, которая за пять шагов отправляет человека в нужный тип квестов. По пути пришлось согласовать математическую модель с пониманием стейкхолдеров о том «как правильно». Из этого конфликта родилось гибридное дерево, понятное и людям, и метрикам.
Читать: https://habr.com/ru/articles/964048/
#ru
@big_data_analysis | Другие наши каналы
Бенчмарк бенчмарка Lakehouse-движков, в котором побеждает объективная реальность
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
Читать: https://habr.com/ru/companies/datasapience/articles/964052/
#ru
@big_data_analysis | Другие наши каналы
Недавно на хабре вышла статья с громким заголовком “Бенчмарк lakehouse-движков, часть 1: StarRocks и Doris падают под нагрузкой, Presto аутсайдер, CedrusData быстрее всех”. В своей статье авторы из Кверифай Лабс выбрали методику TPC-DS, но вместо 99 запросов остановилась на одном, который к тому же запускается на одной машине. Обосновывается это тем, что на одном конкретном запросе нужно разобрать работу оптимизаторов. По результатам исследования делается вывод, что решение, разработанное авторами, является лучшим, в том числе для запуска одного конкретного запроса на одном узле. Давайте попробуем разобраться, действительно ли это так.
Читать: https://habr.com/ru/companies/datasapience/articles/964052/
#ru
@big_data_analysis | Другие наши каналы
Яндекс Дзен или как он вдохнул новую жизнь в ВК
В 2022 году Дзен стал двигаться вместе с ВК, но что это означало под капотом?
Разберём внутрянку технологий рекомендаций Дзена и текущих продуктов ВК по докладам Дмитрия Погорелова до 2024 и самого свежего 2025 с PML.
Узнаем самые первые архитектуры Дзена, что начали делать с увеличением нагрузки и хотелок МЛщиков. Как пришлось выкручиваться, когда столкнулись с объемами ВК.
Спойлер: нам пригодится шардирование
→
Читать: https://habr.com/ru/articles/964384/
#ru
@big_data_analysis | Другие наши каналы
В 2022 году Дзен стал двигаться вместе с ВК, но что это означало под капотом?
Разберём внутрянку технологий рекомендаций Дзена и текущих продуктов ВК по докладам Дмитрия Погорелова до 2024 и самого свежего 2025 с PML.
Узнаем самые первые архитектуры Дзена, что начали делать с увеличением нагрузки и хотелок МЛщиков. Как пришлось выкручиваться, когда столкнулись с объемами ВК.
Спойлер: нам пригодится шардирование
→
Читать: https://habr.com/ru/articles/964384/
#ru
@big_data_analysis | Другие наши каналы
AI-драгдизайн: первая молекула прошла Фазу II
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
Читать: https://habr.com/ru/articles/964554/
#ru
@big_data_analysis | Другие наши каналы
AI-драгдизайн: первая молекула прошла Фазу II. Разбираем, как GNN, AlphaFold 3 и $2.23 млрд на провал меняют фармакологию
Читать: https://habr.com/ru/articles/964554/
#ru
@big_data_analysis | Другие наши каналы
Не только трансформеры: за пределами стандартных архитектур LLM
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.
Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.
Читать: https://habr.com/ru/articles/964658/
#ru
@big_data_analysis | Другие наши каналы
Привет! Это перевод очень крутой и захватывающей статьи, в которой автор рассматривает альтернативные архитектуры LLM: гибриды с линейным вниманием, диффузионные LLM, модели мира и малые рекурсивные трансформеры.
Каждая архитектура достаточно детально и глубоко разобрана, поэтому если вы интересуетесь LLMками, то будет очень интересно.
Читать: https://habr.com/ru/articles/964658/
#ru
@big_data_analysis | Другие наши каналы
Как работает цензура на государственном уровне? Разбираем на примере слитого китайского фаерволла. Часть 1
Мы скачали 500 ГБ утечку из Великого Китайского Файрвола чтобы вам не пришлось и решили их изучить. Разбираемся, как он работает, кого обслуживает и как его обходят.
Читать: https://habr.com/ru/companies/femida_search/articles/964664/
#ru
@big_data_analysis | Другие наши каналы
Мы скачали 500 ГБ утечку из Великого Китайского Файрвола чтобы вам не пришлось и решили их изучить. Разбираемся, как он работает, кого обслуживает и как его обходят.
Читать: https://habr.com/ru/companies/femida_search/articles/964664/
#ru
@big_data_analysis | Другие наши каналы
Что такое маршрутизатор LLM?
Большие языковые модели (LLM) стали основой современных ИИ-продуктов, обеспечивая работу всего - от чат-ботов и виртуальных ассистентов до исследовательских инструментов и корпоративных решений. Но LLM различаются по сильным сторонам, ограничениям и стоимости: одни лучше в рассуждениях, другие - в креативе, коде или работе со структурированными запросами. Здесь и нужен маршрутизатор LLM.
Маршрутизатор LLM работает как «умный диспетчер трафика»: он автоматически направляет промпты в наиболее подходящую модель под конкретную задачу. Вместо одной универсальной модели бизнес и разработчики повышают точность, скорость и снижают затраты, маршрутизируя запросы в реальном времени. По мере роста применения ИИ маршрутизация LLM становится обязательным слоем для масштабируемых, надёжных и эффективных систем.
Читать: https://habr.com/ru/articles/964832/
#ru
@big_data_analysis | Другие наши каналы
Большие языковые модели (LLM) стали основой современных ИИ-продуктов, обеспечивая работу всего - от чат-ботов и виртуальных ассистентов до исследовательских инструментов и корпоративных решений. Но LLM различаются по сильным сторонам, ограничениям и стоимости: одни лучше в рассуждениях, другие - в креативе, коде или работе со структурированными запросами. Здесь и нужен маршрутизатор LLM.
Маршрутизатор LLM работает как «умный диспетчер трафика»: он автоматически направляет промпты в наиболее подходящую модель под конкретную задачу. Вместо одной универсальной модели бизнес и разработчики повышают точность, скорость и снижают затраты, маршрутизируя запросы в реальном времени. По мере роста применения ИИ маршрутизация LLM становится обязательным слоем для масштабируемых, надёжных и эффективных систем.
Читать: https://habr.com/ru/articles/964832/
#ru
@big_data_analysis | Другие наши каналы
Substrait — lingua franca для баз данных
Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.
Узнать про Substrait
Читать: https://habr.com/ru/companies/cedrusdata/articles/964800/
#ru
@big_data_analysis | Другие наши каналы
Substrait — это промежуточный формат (IR) для обмена планами запросов между системами. Он снимает боль диалектов SQL, позволяет делать pushdown в разные бэкенды и избавляет от повторного парсинга/оптимизации федеративных системах и позволяет относительно безболезненно заменять один бэкенд другим. Ниже - зачем он нужен, как устроен и кто поддерживает.
Узнать про Substrait
Читать: https://habr.com/ru/companies/cedrusdata/articles/964800/
#ru
@big_data_analysis | Другие наши каналы
Как мы починили процессы в ML-команде и сократили T2M на 20%
Привет, Хабр! Меня зовут Василий Сизов. По образованию я инженер-конструктор, а сейчас работаю тимлидом в ВТБ и занимаюсь машинным обучением в CRM и проектами с LLM.
В какой-то момент мне доверили кросс-функциональную команду — и тут пришлось разбираться не только в моделях, но и в процессах, которые обеспечивают их жизнеспособность. В этой статье расскажу, как мы пересобрали эти процессы и сократили Time to Market на 20%. Возможно, вы узнаете в этих историях свои задачи и вызовы – и найдете идеи, которые помогут их решить.
Читать: https://habr.com/ru/companies/vtb/articles/964954/
#ru
@big_data_analysis | Другие наши каналы
Привет, Хабр! Меня зовут Василий Сизов. По образованию я инженер-конструктор, а сейчас работаю тимлидом в ВТБ и занимаюсь машинным обучением в CRM и проектами с LLM.
В какой-то момент мне доверили кросс-функциональную команду — и тут пришлось разбираться не только в моделях, но и в процессах, которые обеспечивают их жизнеспособность. В этой статье расскажу, как мы пересобрали эти процессы и сократили Time to Market на 20%. Возможно, вы узнаете в этих историях свои задачи и вызовы – и найдете идеи, которые помогут их решить.
Читать: https://habr.com/ru/companies/vtb/articles/964954/
#ru
@big_data_analysis | Другие наши каналы