Machinelearning

🌟

Minimax VTP: гибридный токенизатор для диффузии на стероидах.

В диффузионных архитектурах считается, что масштабировать первую стадию, VAE - занятие неблагодарное.

Eго задача - превратить пиксели в латентный код и обратно, а добавление ему параметров или данных никак не помогает основной модели DiT генерировать изображения лучше.

MiniMax решила поменять правила игры и представила Visual Tokenizer Pre-training (VTP).

Их гипотеза заключается в том, что токенизатор должен не просто механически "зиповать" пиксели, а понимать семантику изображения.

Чтобы реализовать это, они объединили в обучении токенизатора сразу 3 лосса:

🟢Стандартный pixel reconstruction loss;

🟢Self-supervised learning (через Masked Image Modeling и дистилляцию, как в DINOv2);

🟢Image-text contrastive loss (как в CLIP).

Это заставило латентное пространство структурироваться семантически: теперь векторы кодировали смыслы, а не просто цветовые пятна.

🟡

Теоретические выкладки подтвердились на практике.

Оказалось, что качество генерации напрямую зависит от "интеллекта" токенизатора. Не меняя архитектуру и гиперпараметры самого DiT и не увеличивая затраты на его обучение, просто за счет использования VTP-токенизатора удалось улучшить метрику FID на 65.8% и ускорить сходимость модели в 3 раза.

🟡

Но главное открытие - это то, что заработал закон масштабирования для Stage 1.

Теперь, чем больше вычислительной мощности и данных вливается в претрейн токенизатора, тем качественнее становится итоговая генерация, чего раньше с обычными VAE достичь было невозможно.

🟡

В открытом доступе опубликованы 3 чекпоинта VTP с различием по количеству параметров:

🟠

VTP-Large - 0.7B;

🟠

VTP-Base - 0.3B;

🟠

VTP-Small - 0.2B.

📌Лицензирование: MIT License.

🟡

Набор моделей

🟡

Arxiv
🖥GitHub

@ai_machinelearning_big_data

#AI #ML #Diffusion #Tokenizer #Minimax

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤38👍20🔥13🦄2

19.7K views18:05

✔️

Higgsfield запустил сервис профессионального ИИ-кинопроизводства.

Cinema Studio — специализированная среда генерации со структурой съемочного процесса.
Новинка предлагает глубокую настройку виртуальной кинематографии: эмуляция 6 профессиональных камер (ARRI Alexa 35, RED и Panavision) и 11 типов объективов, от анаморфотных до макро.

Cinema Studio поддерживает вывод в 4K с соотношением сторон 21:9 и позволяет управлять сложными операторскими приемами, а также менять освещение сцены с сохранением реалистичности теней.
higgsfield.ai

✔️

Qwen-Image-Layered: декомпозиция изображений в редактируемые RGBA-слои.

Qwen релизнула Qwen-Image-Layered - диффузионную модель, которая разбивает изображения на отдельные семантические слои с прозрачностью.

Инструмент переводит работу с генеративной графикой из плоского растра в формат, где каждый элемент (фон, передний план, текст) можно перемещать, масштабировать или удалять независимо друг от друга.

Модель обучалась на реальных PSD-файлах и уже доступна на Hugging Face и ModelScope.
qwen.ai

✔️

Cursor покупает платформу код-ревью Graphite.

Сделка, сумма которой по данным инсайдеров, значительно превышает последнюю оценку Graphite в $290 млн, нацелена на создание сквозной экосистемы для ИИ-разработки: объединить процесс написания кода с этапами ревью и командной работы.

В ближайшие месяцы компании планируют представить интеграцию, которая позволит ИИ-агентам обучаться на полном процессе - от черновиков в редакторе до финальных мержей.
Несмотря на смену владельца, Graphite продолжит функционировать автономно.
cursor.com

✔️

NVIDIA выпустила в продажу 72-гигабайтную версию RTX PRO 5000.

Компания анонсировала доступность видеокарты RTX PRO 5000 с увеличенным до 72 ГБ VRAM. Новинка сохранила те же 14 080 CUDA-ядер и TBP на уровне 300 Вт.

Точная цена 72-гигабайтной версии пока не раскрыта. Ожидается, что она займет нишу между базовой моделью на 48 ГБ и флагманской RTX PRO 6000. Глобальные поставки через системных интеграторов начнутся в начале следующего года.
blogs.nvidia.com

✔️

Gemma Scope 2: крупнейший набор инструментов для интерпретации работы LLM.

Google DeepMind открыла исходный код Gemma Scope 2 — инструментария для детального анализа внутреннего мира моделей семейства Gemma 3. Релиз включает более 400 автоэнкодеров и транскодеров, которые буквально просвечивают слои модели, разбирая ее реакции на концепты: от математических вычислений до идиом.

Инструменты покрывают весь спектр весов Gemma 3: от 270M до 27B, позволяя изучать причины галлюцинаций, механизмы отказов и уязвимости к джейлбрейкам.

Веса Scope 2 доступны на Hugging Face, а интерактивные демо для визуального исследования нейронов размещены на Neuronpedia.
deepmind.google

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍55🔥27❤13🦄5

16.7K views07:14

About

Blog

Apps

Platform