ML Underhood
3.37K subscribers
206 photos
27 videos
101 links
Рассказываем, чем живёт ML в Яндексе, и обсуждаем важные новости индустрии.

Вопросы и предложения > @yandex_ml_brand
Download Telegram
Что везём на NeurIPS — часть 1

В декабре пройдёт конференция NeurIPS, где учёные из исследовательского подразделения Яндекса — Yandex Research — представят целых восемь статей. В двух постах расскажем, какие именно.

SpecExec: Massively Parallel Speculative Decoding for Interactive LLM Inference on Consumer Devices

SpecExec — простой метод параллельного декодирования, оптимизированный для работы с более крупными драфтовыми моделями, что позволяет генерировать до 20 токенов за итерацию целевой модели. Он берёт наиболее вероятные продолжения токенов из черновой модели и создаёт кэш в форме дерева для целевой модели, которое затем проверяется за один проход. Метод особенно полезен для значительного ускорения генерации при использовании больших языковых моделей в режиме офлодинга, где показывает ускорение до 15–20x. Подробнее о SpecExec вы можете почитать в этом посте.

PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression

Статья о сжатии больших языковых моделей, таких как LLaMA 3 и Mistral. Авторы предлагают новый метод — PV-Tuning, который позволяет дообучать уже сжатые (квантованные) веса нейросети, чтобы лучше исправлять ошибки квантизации. Это особенно важно при экстремальном сжатии в 1–2 бита на параметр, когда обычные методы квантования полностью ломают модель. За счёт более эффективного (и теоретически обоснованного) дообучения дискретных квантованных весов PV-Tuning позволяет достичь оптимума по Парето, например, для моделей семейства LLaMA-2 при 2 битах на параметр — то есть, это первое 2-битное сжатие таких моделей, которое имеет смысл на практике. Подробнее о методе читайте в этом посте.

Sequoia: Scalable, Robust, and Hardware-aware Speculative Decoding

Sequoia — алгоритм спекулятивного декодирования, использующий оптимизированные статические асимметричные деревья для спекуляции. Значительно превосходит методы с симметричными деревьями, показывая ускорение в диапазоне 2–4х для Llama-подобных моделей и до 10x с использованием офлодинга.

Challenges of Generating Structurally Diverse Graphs

Статья о генерации структурно разнообразных графов. Авторы рассматривают и сравнивают несколько алгоритмов оптимизации разнообразия: подходы, основанные на стандартных моделях случайных графов, оптимизацию локальных графов, генетические алгоритмы и нейрогенеративные модели.

ML Underhood
12🔥7👍6
Что везём на NeurIPS — часть 2

В продолжение предыдущего поста — ещё четыре статьи, которые Yandex Research представит на конференции.

Invertible Consistency Distillation for Text-Guided Image Editing in Around 7 Steps

Авторы стремятся к тому, чтобы научить дистиллированные модели text-to-image-диффузии способности эффективно редактировать реальные изображения. Исследователи представляют инвертируемую дистилляцию (invertible Consistency Distillation, iCD). Она позволяет добиться качественного редактирования всего за 7–8 шагов инференса.

Rethinking Optimal Transport in Offline Reinforcement Learning

Обычно в офлайн-обучении с подкреплением данные предоставляются разными экспертами, и некоторые из них могут быть неоптимальными. Чтобы получить эффективную политику, необходимо «сшить» наилучшие действия из набора данных. Для решения этой задачи авторы переосмыслили офлайн-обучение с подкреплением как задачу оптимального транспорта. На основе этого представили алгоритм, направленный на нахождение политики, которая сопоставляет состояния с частичным распределением наилучших действий экспертов для каждого заданного состояния.

The Iterative Optimal Brain Surgeon: Faster Sparse Recovery by Leveraging Second-Order Information

В статье авторы объединяют два известных подхода получения точных разреженных сетей — Iterative Hard Thresholding (IHT) и Optimal Brain Surgeon (OBS) — в единую сущность Iterative Optimal Surgeon, наследующую сильные стороны обоих подходов с теоретическими гарантиями. Эффективность предложенного алгоритма валидируется на моделях для задач компьютерного зрения и больших языковых моделях.

Lower Bounds and Optimal Algorithms for Non-Smooth Convex Decentralized Optimization over Time-Varying Networks

В статье рассматривается задача минимизации суммы выпуклых функций, хранящихся децентрализованно на вычислительных узлах, соединённых коммуникационной сетью. Авторы сосредотачиваются на самой сложной и недостаточно изученной ситуации, когда целевые функции негладкие, а связи в сети могут меняться со временем. Для решения данной задачи предлагается численный алгоритм с наилучшей известной на данный момент теоретической скоростью сходимости, а также доказывается, что достигнутая скорость сходимости не может быть улучшена и является оптимальной.

ML Underhood
🔥12👍65
PPO для YandexGPT 4 Lite

Недавно инженеры Яндекса использовали онлайн-обучение с подкреплением для YandexGPT 4 Lite. На файнтюне этой модели использовались как DPO, так и PPO. Павел Темирчев, один из разработчиков команды алаймента Яндекса, рассказал нам, как внедряли эти методы.

Proximal Policy Optimization (PPO) — метод, который предполагает применение размеченных асессорами данных для обучения reward-модели. Это итеративный и весьма трудоёмкий процесс. Сложность, в частности, заключается в том, что модель должна прямо во время обучения генерировать ответы. Кроме того, необходимо хранить в памяти GPU не только обучаемую, но и ряд вспомогательных моделей. Например, value-модель, которая содержит информацию о наградах и используется в алгоритме как бейзлайн.

Важной частью внедрения PPO для обучения YandexGPT 4 Lite стало создание правильной инфраструктуры — от этого зависит примерно 50% успеха. Кроме того, была проведена большая работа с обучающим множеством. Инженеры перебрали разные варианты того, на чём можно обучать модель.

Также было важно не дать модели переобучиться под reward-модель. Для этого существует практика штрафа, который накладывается, если обучаемая модель слишком далеко ушла от SFT. В Яндексе попробовали применить разные варианты штрафов, чтобы выбрать наиболее подходящий.

Из хаков использовали, например, нормализацию advantage, то есть разницы награды за ответ и средней награды. Этот трюк позволяет получить более стабильную сходимость взамен теоретических гарантий.

На алайменте YandexGPT 4 Lite проводили сперва онлайн RL — PPO, а затем DPO. Комбинация методов позволила получить хорошие результаты, которые превосходят полученные от каждого метода отдельно.

Делитесь своими мыслями о PPO и DPO в комментариях!

ML Underhood
10🔥7👍6
iCD — метод быстрого редактирования изображений

Мы уже рассказывали о восьми статьях, которые Yandex Research представит на конференции NeurIPS. Сегодня подробнее остановимся на одной из них, посвящённой методу инвертируемой дистилляции (Invertible Consistency Distillation, iCD).

Современные модели хороши в генерации изображений, но когда дело касается редактуры — могут возникать проблемы. Основная проблема заключается в необходимости точной инверсии: кодирования изображения в латентное пространство и последующей реконструкции, которая должна сохранить исходные детали и при этом интегрировать текстовые запросы. Существующие методы редактирования требуют больших вычислительных ресурсов и значительного времени — вплоть до 50 и более шагов инференса.

iCD призван решить этот недостаток. Суть метода заключается в создании двунаправленных моделей: одна из них кодирует изображения в латентное пространство, другая — декодирует их обратно. Таким образом, можно довольно быстро отредактировать картинку. Скажем, добавить на фотографию какой-нибудь объект или заменить собаку на медведя или енота.

Чтобы улучшить соответствие между текстовым запросом и сгенерированным изображением используют технику Dynamic Classifier-Free Guidance (Dynamic CFG). На начальных этапах преобразования, когда уровень шума высок, CFG не работает, что способствует разнообразию генераций. На поздних этапах CFG работает, обеспечивая более точное соответствие текстовому промпту.

Благодаря всему этому, редактирование изображения с использованием метода iCD занимает всего 7–8 шагов инференса.

ML Underhood
🔥106👍5
This media is not supported in your browser
VIEW IN TELEGRAM
NeurIPS 2024 в Ванкувере: первые цифры и впечатления

Вчера стартовала NeurIPS, одна из самых крупных и значимых конференций по машинному обучению. Для затравки — несколько интересных цифр:

16 500 зарегистрированных участников (рекорд для конференции)
4 037 статей основной секции
460 статей по датасетам и бенчмаркам

А вот и впечатления первого дня.

Костя Лахман:
Бесконечная очередь на регистрацию, которая, не останавливаясь, идёт змейкой. Кажется, на самом деле, это лента Мёбиуса, и нас обманывают.


Катя Серажим:
Если говорить про тренды, было уже два доклада с упоминанием специализированных Foundation Models: для автономного транспорта и e-commerce.


Настя Беззубцева:
В Exhibition Area крайне оживлённо. Провела там около двух часов — успела обойти только треть стендов и пообщаться с некоторыми участниками. Например, спросила у HR Tesla, дают ли они имена своим роботам — к сожалению, нет.


В следующих постах продолжим делиться инсайтами и трендами!

ML Underhood

#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥187👍7😱1
Первый день NeurIPS: интересные доклады и немного инсайтов

На конференции сейчас находится Катя Серажим, руководитель управления качества поиска. Она поделилась впечатлениями от выступлений и поговорила с некоторыми участниками. Слово Кате.

Понравился доклад от Waymo: AI for Autonomous Driving at Scale. Они обзорно рассказали про свой стек: используют трансформеры, пытаются создать собственную Foundation-модель для автономных машин и интегрируют VLM для разметки. Докладчик, правда, больше «лицо» проекта, а за подробностями отсылает к команде.

Интересный туториал Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation — с практическими советами по обучению LLM. Любопытно, что некоторые их выводы сходятся с нашими: например, 10k примеров для SFT (Supervised Fine-Tuning) и 100k для обучения с подкреплением по вознаграждению (Reward) оказались разумными цифрами.

А ещё пообщалась на экспо с исследователями из разных компаний и собрала немного любопытного:

⚪️Ресёрчер из Facebook поделился, что компания всё активнее вкладывается в обучение с подкреплением (RL). Считают, что задача претрейна уже решена, и теперь важно оптимизировать последовательность обучения (RS, DPO, PPO). Используют синтетику, меняя инстракты: например, из диалога о физике «делают» диалог о биологии.

⚪️А вот Google, как оказалось, по-прежнему ориентированы на улучшение результатов через претрейн. Говорят, что их новая модель не уступает на некоторых бенчмарках o1 как раз благодаря качественному предобучению.


Продолжаем следить за NeurIPS, будем делиться самым интересным.

ML Underhood

#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21🔥9👍7
Удаление облаков, трекинг антилоп и другие кейсы с NeurIPS

Продолжаем следить за NeurIPS 2024. Сегодня на связи Алексей Друца, Director, Technology Adoption at Yandex Cloud. Делимся его заметками о туториалах и статьях второго дня конференции.

Первым привлёк внимание туториал Evaluating Large Language Models — Principles, Approaches, and Applications о базовых подходах к оценке LLM. Особенно полезно ознакомиться тем, кто сталкивается с острым желанием контрагентов решить все проблемы за счёт получения модели идеального качества. Мы-то с вами знаем, что копать надо ещё и в сторону продуктовых метрик. Подробнее об этом туториале — в канале Душный NLP.

Туториал Opening the Language Model Pipeline: A Tutorial on Data Preparation, Model Training, and Adaptation от ребят из Ai2. Базовый обзор того, как готовится LLM, из каких этапов состоит пайплайн её построения. Подробно описано, как работать с данными для обучения, обрабатывать, вычищать, принимать решения по ним. Разбираются этапы предобучения и постобучения.

А ещё — несколько статей с увлекательными и местами неожиданными кейсами.

To Believe or Not to Believe Your LLM: IterativePrompting for Estimating Epistemic Uncertainty
Авторы предложили метрику для оценки уровня неопределённости LLM и того, насколько ей можно доверять. Метод основан на итеративных промптах без привлечения внешних данных.

AllClear: A Comprehensive Dataset and Benchmark for Cloud Removal in Satellite Imagery
Кейс с датасетом об удалении облаков со спутниковых снимков. Исследователи определяют, что происходит под облаком, за счёт данных в других диапазонах спектра. Потенциально полезная вещь для тех, кто занимается картами. Облака — те что на небе, а не вычислительные.

SPIQA: A dataset for multimodal question answering on scientific papers
Датасет по мультимодальным вопросам и ответам из научных статей. Пример работы со сложными текстами, специфической терминологией и задачей поиска ответа. Особенность датасета — наличие картинок и таблиц (которые часто встречаются в научных статьях), а главное — вопросов и ответов по их содержанию. Прогнав несколько моделей и разных вариаций промтов, делают вывод, что использование полного текста статьи и приемов Chain-of-Thoughts приводит к значительно более высокому перформансу модели на датасете.

BuckTales: A multi-UAV dataset for multi-object tracking and re-identification of wild antelopes
Авторы с помощью дронов и искусственного интеллекта создали набор данных для изучения диких антилоп. Он позволяет отслеживать движения множества животных одновременно и распознавать каждую особь в сложных условиях дикой природы.


Контент с NeurIPS продолжает залетать прямиком в вашу ленту. Будем на связи!

ML Underhood

#YaNeurIPS
👍7🔥75❤‍🔥1
Атмосфера NeurIPS: стенды участников

На конференции представлены стенды как гигантов, так и малоизвестных компаний. Показываем те, которые привлекли наше внимание.

Amazon — основной акцент сделали на демонстрации технологий: посетители могут увидеть и попробовать решения в действии.

Alibaba Cloud — представляют себя как полнофункциональную платформу для инженеров.

Writer — фокус на оптимизации рабочих процессов для корпоративных клиентов.

Lambda — продвигают Private Cloud, представлены физические серверные стойки и оборудование.

Meta AI* — показывают Llama и демо других своих продуктов.

*Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ

ML Underhood

#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥76
Ещё немного атмосферных фото и видео

Команда Яндекса: встреча у стенда со статьёй.
Наша первая статья (PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression).
Аншлаг на докладе Fei-Fei Li (From Seeing to Doing: Ascending the Ladder of Visual Intelligence).
Масштабы и пространства конференции.
Новогодний робот на стенде Booster Robotics.

ML Underhood

#YaNeurIPS
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥5❤‍🔥3