CV Time
2.74K subscribers
178 photos
6 videos
90 links
Канал о компьютерном зрении от ml-специалистов Яндекса: разбор актуальных статей, горячие обсуждения и личный опыт из первых рук. Присоединяйтесь!

Вопросы и предложения > @yandex_ml_brand
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥26
CV Time
Video message
⚡️Прямое включение с ECCV 2024

Наш специальный корреспондент Дарья Виноградова заметила роботов, похожих на собак, и постеры со статьями. Наступил последний день конференции, но нам ещё есть, что рассказать!
🔥133👍3
Новая порция материалов с ECCV 2024

В последний день конференции принесли ещё несколько статей, которые точно заслуживают внимания.

TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Статья о редактировании реальных изображении при помощи text2image дифузионных моделей. В основе работы лежат два наблюдения:

1. При равных сидах редактирование длинных текстовых промптов заметно меньше влияет на изменение общей композиции генерации, в отличие от манипуляций с короткими промптами. Это объясняется меньшей магнитудой изменения в cross-attention-слоях.

2. Одношаговые генеративные модели вроде SDXL Turbo не сталкиваются с трудностями в оптимизационной задаче инверсии, а также позволяет проводить манипуляции с attention-картами для редактирования изображения.

Совмещение этих идей даёт оптимизационный процесс, который учит инвертирующую модель. С её помощью получается начальный шум, для которого запускается процедура расшумления исходной моделью с редактированным промптом, чтобы получить редактированную генерацию.

Для улучшения реконструкции предлагается два подхода. Вместо одношаговой модели обучать многошаговую refiner-модель в стиле ReStyle. Либо можно маскировать attention-карты для локализации изменений.

EDICT: Exact Diffusion Inversion via Coupled Transformations

Авторы предлагают новый семплер для редактирования картинок на основе текстовой инверсии. Суть в том, что для для интегрирования используют результаты предыдущего и следующего шага. При этом не добавляют вычислительного оверхеда, потому что результаты и так получаются естественным образом. В сравнении с DDIM-инверсией такой подход даёт почти идеальное восстановление.

Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation

Работа о multi-subject grounded генерации. Поднимается всем известная проблема «запутанности» семантически похожих концептов, происходящей в аttention-блоках. Авторы предлагают использовать пространственную информацию карт внимания не только для маскирования «соседних» конкурирующих токенов, но и для guidance во время инференса модели. А кроме того — смещать диффузионную траекторию по направлению, максимизирующему концентрацию attention в заданном bounding box для соответствующего объекта в промпте.

ReGround: Improving Textual and Spatial Grounding at No Cost

Статья, в основе которой архитектурный анализ сети. В качестве базовой авторы рассматривают очень популярную в своё время модель GLIGEN — она позволяет добавлять дополнительное условие на пространственное расположение объектов на генерации посредством bounding box.

Исследователи обратили внимание на последовательный характер внедрённого в сеть блока gated self-attention, который отвечает за grounding-токены. Подобный архитектурный выбор нарушает ожидаемое распределение входа в cross-attention-модуль и тем самым нарушает текстовую составляющую условной генерации.

Простая перестановка с последовательного соединения на параллельное решает проблему и позволяет найти компромисс для соответствия обоим условиям. Это также улучшает и все существующие работы, использующие GLIGEN в качестве составляющей метода.

ReCON: Training-Free Acceleration for Text-to-Image Synthesis with Retrieval of Concept Prompt Trajectories

В статье рассматривается метод ускорения генераций с прицелом на продакшн и способом, основанном на кешировании некоторых x_t генераций отдельных концептов. Суть в том, чтобы брать комплексные длинные промпты, разбивать их на концепты, отфильтровывать не визуальные, а потом делать частичную генерацию до шага t и помещать результат в базу.

Для генерации картинки по полному промпту, нужные частичные генерации складывают, а остаток траектории — генерируют отдельно. Авторы завяляют, что ускорение составляет в среднем 30% без сильной потери в качестве.

Поделились любопытным Александр Устюжанин и Сергей Кастрюлин

#YaECCV

CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍32
This media is not supported in your browser
VIEW IN TELEGRAM
8
CV Time
Video message
ECCV 2024 — всё!

Это было круто, познавательно и насыщенно. Спасибо, вам, что читали, и спасибо нашим экспертам, которые рассказывали о самых интересных статьях, докладах и воркшопах. Их вы можете найти на канале по хэштегу #YaECCV.

Но это ещё не всё — совсем скоро мы вернёмся с впечатлениями от конференции из первых уст. Ну и, конечно, с новыми разборами статей о CV. Оставайтесь с нами!
🔥113👍3
Making LLaMA SEE and Draw with SEED Tokenizer

LLaMA — семейство больших языковых моделей от Meta AI, которые до недавнего времени понимали только текстовые запросы и не умели обрабатывать изображения.

Популярный подход к тому, чтобы загрузить в такую модель картинку — закодировать изображение в вектор специальным энкодером, привести адаптером в нужную размерность и подать результат на вход нейросети так же, как и текст. А LLaMA вернёт ответ на естественном языке. Например, посчитает для вас яблоки на загруженном фото.

Так можно решить задачу распознавания, но объединить еë с чем-то другим, например, с генерацией изображений уже не получится.

Авторы сегодняшней статьи попробовали это исправить: добавить к обычной LLaMA токенайзер SEED, чтобы она могла не только распознавать, что изображено на картинке, но и генерировать что-то новое на основе входных данных.

Суть похода — на схемах. Сначала авторы в несколько стадий обучают картиночные токены на VQ-кодбуках — так токен сразу получает причинное свойство и его остаëтся только векторизировать. Интересно, что сначала обучается именно SEED tokenizer, а после того, как он будет готов, языковую VLM-модель отдельно обучают предсказывать следующие токены, в том числе новые картиночные.

А дальше детокенайз — через кодбук дискретные коды превращают обратно в вещественные вектора и подают в диффузионную нейросеть.

Комбинация LLaMA + SEED напоминает по архитектуре EMU. Но если вы внимательно прочитаете статью, о которой я рассказываю, то легко заметите отличительную особенность: множество красивых картинок с результатами, но очень плохие VLM-метрики. Мне удалось пообщаться с авторами, и они честно ответили, что сейчас метрики — не их сильная сторона. Но они продолжают улучшать токенайзер и уже подали на конференцию новую версию — SEED-X. Им удалось избавиться от кодбуков: обучают диффузионную нейросеть теперь на визуальных эмбеддингах.

Разбор подготовил Андрей Чернов
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
19👍13🔥8
Channel photo updated
Minimalist Vision with Freeform Pixels

На ECCV-24 была секция, посвящённая низкоуровневому устройству систем компьютерного зрения. По настоящему low-level решение предложили в статье Minimalist Vision with Freeform Pixels, которая получила награду Best Paper Award. Авторы создали прототип полностью автономной по электропитанию камеры.

Вместо обычных матриц в камере используются 24 фотодиода. Перед каждым из них установлена маска-фильтр, которая выступает первым слоем нейросети. Оптическая передаточная функция маски зависит от задачи, под которую обучена камера.

По сути первый слой обеспечивает произвольную форму для каждого пикселя — против фиксированной квадратной у традиционных камер. А последующие слои выводят результат задачи. Так авторы демонстрируют возможность мониторинга рабочего пространства и оценки дорожного трафика при помощи всего лишь 8 пикселей из 24.

Кроме того, камера хорошо показала себя в задаче оценки освещённости помещения. Используя те же 8 пикселей, она сумела определить, какие из источников света были включены в каждый конкретный момент. При этом ни один из источников не был виден камере напрямую — она собирала информацию исходя из состояния помещения.

Помимо низкого энергопотребления, такой подход позволяет обеспечивать конфиденциальность людей в кадре, так как записываемой оптической информации недостаточно для восстановления деталей изображения. Прототип камеры оснащён микроконтроллером с Bluetooth. А с четырёх сторон расположены солнечные панели для получения электроэнергии.

Разбор подготовила Алиса Родионова
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥229👍8🤯3
Movie Gen: A Cast of Media Foundation Models

Кажется, что после ECCV 2024 только ленивый не написал о Movie Gen. Тем не менее далеко не все авторы ссылаются на оригинальный технический отчёт и описывают подробности.

Movie Gen — большая модель на 30 миллиардов параметров, которую исследователи из Meta* разработали для генерации видео. Она может создавать клипы длительностью до 16 секунд с частотой 16 кадров в секунду и разрешением 1080p. Новой модели можно доверить:

— cтандартную генерацию видео по текстовому запросу;
— персонализированную генерацию по референсному изображению;
— редактирование видео по текстовому запросу.

Movie Gen сочетает в себе несколько интересных архитектурных решений. Создатели модели:

— позаимствовали базовый трансформер у языковой модели LLaMA от той же Meta, но дополнили его блоками, специфичными для диффузионных генеративных моделей;
— обучили собственную эффективную модель, которая преобразует высокоразмерное пиксельно-временное пространство в куда более компактное латентное;
— добавили video-super-resolution-модель, которая повышает разрешение исходной генерации с 768p до 1080p;
— скомбинировали несколько моделей для кодирования текстовой информации с разными свойствами;
— использовали отдельную модель, чтобы генерировать синтетические промпты специально для видео.

На иллюстрации к посту — процедура обучения Movie Gen. Сначала модель предобучали на большом количестве изображений с низким разрешением, потом — тренировали на клипах низкого (256p) и высокого (768p) разрешения. А после всего — файнтюнили на небольшом датасете из вручную отобранных и размеченных данных высокого качества.

Для того, чтобы оценить качество модели, команда собрала примерно тысячу текстовых запросов из разных областей и сравнила качество их обработки с текущей SOTA (все closed-source) — Runway Gen3, Kling 1.5 и Sora от OpenAI. Согласно user preference study, модель от Meta превосходит конкурентов (или не уступает им) в большинстве аспектов: например, в следовании текстовому запросу, естественности и плавности движений.

В задачах персонализации и редактирования модель тоже показывает хорошее качество. Самый существенный недостаток Movie Gen — большой размер: для работы с ней потребуются значительные вычислительные ресурсы.

P. S. А ещё команда из Meta обучила модель для генерации звука и музыки — Movie Gen Audio, которая тоже представляет собой большой (на 13 миллиардов параметров) трансформер. Но это уже совсем другая история несколько иная архитектура.

Разбор подготовил Денис Кузнеделев

CV Time
___
Meta признана экстремистской организацией, а Facebook и Instagram запрещены на территории РФ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14🔥126
Как LLaMA 3.1 работает с изображениями

Сегодня расскажем, как LLaMA 3.1 работает с изображениями. Как устроена архитектура модели, на чём её обучали и какие результаты она показывает на разных бенчмарках.

В основе энкодера изображений в Llama 3 выступает модель ViT-H/14 с 630 миллионами параметров, обученная на наборе из 2,5 миллиарда пар изображений и текстов. Картинку, полученную на вход, делят на патчи размером 16X16, прогоняют через линейное преобразование и трансформерные слои.

На выходе получается картиночное представление из 2 308 токенов, что весьма много. Эта последовательность с помощью кросс-аттеншен блоков подается в LLM. Это интересно, потому что, как правило, в мультимодальных LLM (visual language models, VLM) картиночные токены подают прямо в промпт, добавляя к текстовым. Это сделано для того, чтобы заморозить веса LLM и обучать только голубые блоки на схеме.

Тем самым не забивается исходный контекст LLM, а свойства модели на текстовом домене не теряются. Веса языковой модели остаются замороженными, чтобы сохранить производительность на текстовых задачах, то есть обновляются только веса визуального энкодера и адаптера изображений.

Что касается видео, то тут меняется количество кадров на входе: на претрейне их 16, а на файнтюне — 64. Далее их сводят к фиксированной размерности и точно так же, как с изображениями, добавляют через кросс-аттеншн в LLM.

На претрейне используют 6 миллиардов пар картинка-текст. Для фильтрации датасета убирают все описания на языках, отличных от английского, и пары с низким CLIP-скором. Дальше происходит дедупликация, чтобы исключить часто повторяющиеся картинки.

В ходе ресемплирования текстовых описаний их частотность понижают. Кроме того, в каждое описание добавляют распознанный на картинке текст — это нужно для улучшения результатов на задачах, которые требуют использования OCR.

Существует весьма необычная стадия пост-претрейна — с применением небольшого датасета на 500 миллионов сэмплов. 150 миллионов из них — это изображения вроде скриншотов с HTML-кодами и таблицами.

На файнтюне инженеры прибегают к ещё одному нестандартному трюку — hot-swap. Они подменяют веса предварительно обученной LLM на веса языковой модели, прошедшей Instruction Tuning. На SFT используют академические датасеты, ответы, написанные людьми, и синтетические данные — например, изображения, созданные из текстовых описаний.

Далее создают пары, оцененные асессорами по семибалльной шкале. Кроме того, есть процедура Rejection sampling для итеративного выбора высококачественных ответов, сгенерированных моделью. Потом авторы статьи обучают reward-модель и делают DPO, как и для текстовой модели.

Получившаяся модель на 405 миллиардов параметров показывает 80,2 пункта в бенчмарке VQAv2 и 84,8 пункта в TextVQA. При этом она уступает Claude 3.5 в DocVQA, ChartQA и AI2 Diagram.

Разбор подготовил Роман Исаченко

CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥138
Впечатления от ECCV 2024

Мы попросили инженеров Яндекса подвести личные итоги конференции ECCV и рассказать, чем она запомнилась. О трендах в индустрии, интересных статьях и многом другом — в наших карточках.

А остальные посты по следам конференции вы можете найти в канале по тегу #YaECCV.

CV Time
🔥18👍119
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 1

Превратить авторегрессионную визуальную генерацию в диффузионную можно, если соблюдать три ограничения:

1. Фиксировать процесс зашумления.
2. Работать в парадигме, где модель зависит только от одного предыдущего состояния, а не от целой последовательности: тогда процесс становится Марковским.
3. Взвешивать loss на коэффициенты, которые зависят от timestamp и наложенного шума.

Авторы сегодняшнего препринта предлагают ослабить второе условие: добавить зависимость от предыдущих зашумлённых изображений. Такую модель они называют DART — Denoising Autoregressive Transformer или диффузионная авторегрессионная модель.

Саму последовательность при этом можно генерировать по-разному:

1. На каждом шаге генерировать частично расшумлëнное изображение — такой метод называется DART.
2. На каждой стадии расшумления авторегрессионно генерировать изображение по патчам — DART-AR (ДАРТ с авторегрессией).
3. Генерировать изображения, последовательно увеличивая их размер — Matryoshka-DART.
4. Кроме изображения, генерировать ещë и его текстовое описание — Kaleydo-DART.

В качестве трансформера для генерации на основе текстового промпта используется предобученная модель Flan-T5-XL, а для генерации на основе заданного класса — дополнительные слои Adaptive LayerNorm.

Разбор подготовил Александр Шишеня
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍64
DART: Denoising Autoregressive Transformer for Scalable Text-to-Image Generation, часть 2

На иллюстрации к посту изображено устройство самой наивной имплементации такой модели — DART. У неё стандартный диффузионный loss, а её единственный существенный недостаток — слишком малый объём входных данных, 4000 токенов. Это накладывает ограничение на скорость обучения модели.

Обойти ограничение помогает модификация DART-AR. При этом один шаг обучения DART-AR занимает столько же времени, как и DART: сходится быстрее, но требует значительно больше времени на инференсе.

Ещё одна модификация — DART-FM, с Flow Matching. Схема усложняется: поверх основного алгоритма DART добавляют несколько прогонов простой нейросети. Эта легковесная «голова» используется на стадии инференса: для итерирования между основными шагами расшумления, чтобы повысить качество генераций.

Статья представляет скорее теоретический, чем практический интерес: инференс занимает слишком много времени, а для сравнения результатов авторы выбрали далеко не самые свежие модели.

Разбор подготовил Александр Шишеня
CV Time
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14👀76👍3