Dendi Math&AI

⚡️У нашей конференции AI Journey в этом году появился специальный трек для всех, кто хочет послушать толковые технические доклады, узнать о разных реализуемых AI-кейсах и просто провести время с пользой, пообщавшись с интересными людьми. Знакомьтесь — AIJ Deep Dive!

Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!

Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября

При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)

Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)

В общем, регистрируйтесь, приходите и участвуйте! Увидимся!

@dendi_math_ai

🔥10👏7👍6❤3

2.75K viewsДенис Димитров, edited 13:50

🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!

В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!

Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat

🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)

🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании

В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения

🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse

🔘

Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤32🔥25👍12

6.3K viewsДенис Димитров, 12:14

Dendi Math&AI

⚡Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0

❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно

K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах

🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19❤8👍6

7.53K viewsДенис Димитров, 12:41

Dendi Math&AI

Dendi Math&AI pinned a photo

12:52

Dendi Math&AI

10 декабря будем с ребятами рассказывать о том, что сделали за этот год по всем направлениям в рамках разработки моделей Kandinsky. Будет много всего интересного, регистрируйтесь и приходите

@dendi_math_ai

GigaDev — разработка GigaChat

🤖 Хотите больше информации про наши последние релизы?

10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…

❤11🔥6🤝5🫡4

7.26K viewsДенис Димитров, 16:37

Dendi Math&AI

Всем привет!

В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥

Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!

👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт

@dendi_math_ai

Хабр

Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения

В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite , лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы —...

🔥20❤5😁3🎉3👍2❤‍🔥1

12.4K viewsДенис Димитров, edited 13:00

Dendi Math&AI

Кстати говоря, за последнюю неделю наш техрепорт сначала взял топ-1 за день, потом за неделю, а сейчас уже и за месяц (ноябрь) в рейтинге Daily Papers на HF 🤗, причём с хорошим отрывом. Осталось продержаться 3 дня :)

🔥35🫡13👏8👍4😁2

7.53K viewsДенис Димитров, edited 13:22

Dendi Math&AI

⚡Салют, Гига! — уже сегодня

Обещал вернуться с программой — вот она.

Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)

Поговорим:
🔘об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘о добавлении синхронного аудио к видео при генерации;
🔘о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях

Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода

В общем, будет очень насыщенно, интересно и полезно!

Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)

Увидимся! 🚀

Please open Telegram to view this post

VIEW IN TELEGRAM

sb-meetup.jugru.org

Салют, Гига!

Конференция Сбера

🔥9❤5👍5😁3👏1🕊1

10.2K viewsДенис Димитров, edited 07:37

Dendi Math&AI

🥳 Мы докатили в text-to-video арену две наши последние модели генерации видео Kandinsky 5.0 Video Lite и Pro

⚡️Результаты следующие:
🔘Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘Lite версия лучше первой версии Sora (не супердостижение, но у Lite всего 2B параметров)
🔘Лучше нас (Pro) только Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6) — объективно самые сильные модели генерации видео в мире на текущий момент; в паритете с нами Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘В целом стоит отметить, что для российских генеративных моделей выход на международную арену — довольно уникальное событие

🚀 Полезные ссылки:
🔘Посмотреть весь лидерборд можно вот тут: lmarena
🔘Твиттер организаторов арены: X lmarena.ai
🔘Почитать подробнее про Kandinsky 5.0: пост, техрепорт,
🔘Потестить Kandinsky 5.0: github и hf

@dendi_math_ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥65❤20👍15🤔2😁1👌1

12.7K viewsДенис Димитров, 09:57

Dendi Math&AI

⚡️Коллеги из Центра Робототехники Сбера на этой неделе опубликовали техрепорт по Green-VLA. Это 4B staged vision–language–action (VLA) модель для generalist-роботов и, в первую очередь, конечно же для робота Грина 😎 Его как раз и делают ребята — они представляли Грина и довольно подробно про него рассказывали (особенно в части железа и контрола) на AI Journey в конце ноября 2025

В статье подробно разобрано, что именно помогает VLA моделям не разваливаться в реальном мире и быть устойчивыми к изменению сред и робот-платформ. На самом деле, это всё очень сложные задачи (например, картины по разным причинам рисовать «проще» 😄 — в смысле, картинки генерировать). У человека способности уверенно оперировать в физическом мире, в том числе подстраиваться к незнакомым средам, выполнять там сложные задачи, в конце концов пространственно ризонить, развивались миллионы лет в процессе эволюции: средний человек, например, почти не приложит никаких усилий для того, чтобы «в совершенно незнакомой квартире (например, у новых друзей) найти кухню и заварить там чашечку кофе». Стив Возняк к слову предложил именно эту задачу как тест на human-level embodied AGI (неспроста 💯)

В случае роботов (и, конкрентно, VLA, которые действиями роботов управляют) этого прогресса исследователям фактически надо добиваться «с нуля» (на самом деле, не совсем так — ведь есть фундаментальные модели почти на все случае жизни: языковые, мультимодальные, модели генерации изображений и видео)

В общем, в процессе исследований коллеги из Центра Робототехники:
🔘разработали пятиступенчатый пайплайн обучения (он даёт роботу возможность надёжно выполнять разные задачи в реальном мире):

L0 (тут берётся базовая обученная VLM-ка)
→ L1 (дополнительная стадия дообучения для лучшего понимания моделью физики мира, прокачивание пространственного ризонинга)
→ R0 (ещё одна стадия претрейна на 3,000+ часах видео с широкого класса роботов)
→ R1 (тюн уже под конкретного робота)
→ R2 (RL-based policy alignment — даёт дополнительную робастность при выполнении роботом сложных инструкций)

🔘показали, как эффективно выучивать и использовать единое action-пространство для разных робот-платформ (необходимо, чтобы перенос между эмбодиментами был системным и масштабируемым);
🔘показали SOTA результаты на разных бенчмарках: Simpler/BRIDGE WidowX, CALVIN ABC→D и на реальном Green Humanoid

🧩 Из планов — мы с ребятами уже проводим совместную работу по генерации синтетики с помощью семейства моделей Kandinsky, чтобы ещё сильнее увеличить generalization Green-VLA и расширить покрытие «редких» сценариев (которые по естественным причинам сложно и дорого собирать в реальном мире)

По хорошей традиции ребята залетели в топ Daily Papers на HF 🤗 Они уже давно топ-1 среди статьей дня и недели и топ-2 в рейтинге месяца. Считаю, что надо помочь ребятам стать топ-1 по месяцу — работа получилась очень хорошая. Если вам техрепорт тоже показался полезным, обязательно ставьте upvote ⬆️

И ещё раз все полезные ссылки:
👉 Upvote ставить тут
👉 ArXiv
👉 Project Page
👉 GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥14👍5👏1🏆1😎1

2.84K viewsДенис Димитров, 17:20

About

Blog

Apps

Platform