⚡️У нашей конференции AI Journey в этом году появился специальный трек для всех, кто хочет послушать толковые технические доклады, узнать о разных реализуемых AI-кейсах и просто провести время с пользой, пообщавшись с интересными людьми. Знакомьтесь — AIJ Deep Dive!
Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!
Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября
При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)
Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)
В общем, регистрируйтесь, приходите и участвуйте! Увидимся!
@dendi_math_ai
Трек пройдет 19 ноября (наука) и 20 ноября (бизнес) на площадке штаб-квартиры Сбера на Кутузовском проспекте — регистрация для очного участия уже открыта!
Программа будет соответствовать тематике дней. Поэтому если хотите попытать спикеров (меня, в частности) техническими вопросами, узнать разные нюансы текущих исследований и разработок — это можно будет сделать 19 ноября. А если вам больше интересны реальные кейы внедрения AI в бизнес и разные практические результаты — приходите 20 ноября
При этом оба дня будут работать постер-сессия с разными научными статьями (уровня A*/ A) и выставка AI-решений. И, конечно, будет крутой нетворкинг (но это во многом будет зависеть от вас)
Кстати говоря, мы с командой с 2020 года готовим разные соревнения для контеста, который проходит в рамках AI Journey: например, Digital Пётр или серию FusionBrain Challenge (1.0, 2.0, 3.0, 4.0). В этом году можно поучаствовать в не менее интересных соревнениях (у которых помимо всего прочего еще и хороший призовой фонд)
В общем, регистрируйтесь, приходите и участвуйте! Увидимся!
@dendi_math_ai
🔥10👏7👍6❤3
🚀 Мы с командой открываем всю линейку генеративных моделей Kandinsky 5.0!
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🔘 Большой Pretrain-датасет 520 млн изображений и 250 млн видео-сцен
🔘 Фокус на SFT: художники и дизайнеры тщательно выбирали материалы с безупречной композицией, стилем и визуальным качеством
🔘 Разработали метод NABLA для стабильной 10-секундной генерации в HD-разрешении
🔘 Использовали архитектуру Kandinsky-DiT с flow matching
🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub, HuggingFace и GitVerse
🔘 Техрепорт, кстати, уже сейчас #1 в Daily Papers, но ваша поддержка поможет укрепить эту позицию :)
@dendi_math_ai
В сентябре мы выложили в open source Kandinsky 5.0 Video Lite, получили множество положительных отзывов и полезной обратной связи, большое спасибо всем!
Сегодня мы открываем всю линейку: как Video, так и Image модели. Дальше расскажу все подробности, но можно сначала сходить попробовать: модели доступны всем на открытых поверхностях ГигаЧат: Telegram, Max и giga.chat
🎬 Video Pro – мощные Text-to-Video и Image-to-Video – лучшие в мире open source модели, превосходящие по качеству Wan 2.2 A14B и работающие наравне с Veo 3 от Google по визуалу и динамике (в HD)
🖼 Image Lite – универсальные Text-to-Image и Image Editing модели c 6B параметров, которые нативно поддерживают промты на русском языке, знают культурный код и генерируют картинки с кириллическим текстом. Значительно превосходит FLUX.1 [dev] в задаче генерации изображений и работают на одном уровне с FLUX.1 Kontext [dev] в их редактировании
В открытом доступе: четыре версии Image Lite и пять версий Video Pro для разных задач (для генерации 5 сек и 10 сек видео, разрешение — SD и HD). Доступны как SFT-версии с максимальным качеством, так и Pretrain, для исследователей и дообучения
🔧 Как мы достигли этого (подробнее в нашем большом техрепорте):
🚀 Доступность и информация:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤32🔥25👍12
⚡Мы также выложили в открытый доступ наши новые вариационные автоэнкодеры K-VAE 1.0
❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно
K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах
🚀 Доступность и информация:
🔘 Лицензия поддерживает коммерческое использование (MIT)
🔘 Все материалы можно найти на GitHub и HuggingFace
🔘 Почитать подробнее можно на Хабр
@dendi_math_ai
❓О чём речь
Генеративные модели, такие как, например, Kandinsky 5.0, синтезируют медиаконтент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это необходимо для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Мы выпускаем собственные, обученные с нуля автоэнкодеры K-VAE 1.0 для изображений (2D) и видео (3D), которые преобразуют медиа в «скрытые» представления и обратно
K-VAE 1.0 2D работает с изображениями (сжимая в 8x8, то есть в 8 раз по каждой из пространственных осей), а K-VAE 1.0 3D — с видео (сжимая в 4x8x8, то есть в 4 по временной оси и в 8 по каждой из пространственных). Модели превосходят соответствующие лучшие open-source альтернативы (FLUX VAE, Wan VAE, HunyaunVideo VAE) на открытых датасетах
🚀 Доступность и информация:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤8👍6
10 декабря будем с ребятами рассказывать о том, что сделали за этот год по всем направлениям в рамках разработки моделей Kandinsky. Будет много всего интересного, регистрируйтесь и приходите
@dendi_math_ai
@dendi_math_ai
Telegram
GigaDev — разработка GigaChat
🤖 Хотите больше информации про наши последние релизы?
10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…
10 декабря на «Салют, Гига!» мы подробно расскажем, что сделали за этот год в командах GigaChat, Kandinsky и GigaData (платформы для управления данными, аналитики и поиска в контексте ИИ-моделей и сервисов).…
❤11🔥6🤝5🫡4
Всем привет!
В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥
Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!
👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт
@dendi_math_ai
В дополнение к нашему подробному техрепорту по линейке моделей Kandinsky 5.0 на английском сегодня мы выпустили статью на Хабр на русском 🔥
Там найдёте ещё больше подробностей разработки наших моделей, примеров их использования и разных применений!
👉 Ещё раз ссылка на статью на Хабр
👉 Ссылка на техрепорт
@dendi_math_ai
Хабр
Kandinsky 5.0: линейка open-source моделей генерации изображений и видео нового поколения
В сентябре мы открыли доступ к Kandinsky 5.0 Video Lite , лёгкой модели с 2 млрд параметров для создания видео по тексту или на основе изображения. Модель получила множество позитивных отзывов, а мы —...
🔥20❤5😁3🎉3👍2❤🔥1
Кстати говоря, за последнюю неделю наш техрепорт сначала взял топ-1 за день, потом за неделю, а сейчас уже и за месяц (ноябрь) в рейтинге Daily Papers на HF 🤗, причём с хорошим отрывом. Осталось продержаться 3 дня :)
🔥35🫡13👏8👍4😁2
⚡Салют, Гига! — уже сегодня
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
🔘 об архитектуре, инфраструктуре и деталях обучения нового семейства моделей генерации изображений и видео Kandinsky-5: как этапа pre-train, так и alignment (SFT и RL);
🔘 о способах дообучения Kandinsky-5 для персонализации и добавления новых сущностей, а также для более качественного управления камерой;
🔘 о том, как мы готовили датасет для pre-train и alignment моделей Kandinsky-5;
🔘 об ускорении диффузионных моделей в разы — с помощью диффузионной дистилляции;
🔘 о добавлении синхронного аудио к видео при генерации;
🔘 о разработке и применении метода разреженного внимания NABLA (Neighborhood Adaptive Block-Level Attention) для ускорения инференса и обучения моделей Kandinsky-5;
🔘 о K-VAE, которые нужны для кодирования и декодирования изображений и видео и которые крайне необходимы для обучения core-модели;
🔘 даже о моделях мира, которые строятся поверх моделей генерации видео;
🔘 и, конечно, о будущем моделей генерации изображений и видео, вызовах, которые стоят перед их разработчиками, и о некоторых их применениях
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Обещал вернуться с программой — вот она.
Моя команда приготовила на эту конференцию большое количество материалов в формате докладов, воркшопов, постеров и стендов. Фокус — на синтез мультимедийного контента (изображений, видео, синхронного аудио) с помощью новых моделей Kandinsky. Успеем рассказать почти всё (и продемонстрировать это на практике)
Поговорим:
Кроме того, коллеги из GigaChat и GigaData подготовили огромное количество очень интересных выступлений и докладов про разработку и обучение семейства языковых моделей GigaChat, а также про данные, которые для этого необходимы. А организаторы уложили это в концепцию целого ГигаГорода
В общем, будет очень насыщенно, интересно и полезно!
Участие бесплатное, но нужна регистрация. К сожалению, оффлайн регистрация уже закрылась, но ещё можно запланировать и подключиться онлайн (мой собственный доклад в 14:00)
Увидимся! 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM
sb-meetup.jugru.org
Салют, Гига!
Конференция Сбера
🔥9❤5👍5😁3👏1🕊1
🥳 Мы докатили в text-to-video арену две наши последние модели генерации видео Kandinsky 5.0 Video Lite и Pro
⚡️Результаты следующие:
🔘 Pro версия является ТОП-1 опенсорсом в мире (см. модели с лицензиями MIT, Apache 2.0 в лидерборде)
🔘 Lite версия лучше первой версии Sora (не супердостижение, но у Lite всего 2B параметров)
🔘 Лучше нас (Pro) только Google (Veo 3.1, Veo 3), OpenAI (Sora 2), Alibaba (Wan 2.5), KlingAI (Kling 2.5, 2.6) — объективно самые сильные модели генерации видео в мире на текущий момент; в паритете с нами Luma AI (Ray 3), MiniMax (Hailuo 2.3) — отрыв по ELO максимум 3 балла, при 95% доверительном интервале оценивания +-21 балла
🔘 В целом стоит отметить, что для российских генеративных моделей выход на международную арену — довольно уникальное событие
🚀 Полезные ссылки:
🔘 Посмотреть весь лидерборд можно вот тут: lmarena
🔘 Твиттер организаторов арены: X lmarena.ai
🔘 Почитать подробнее про Kandinsky 5.0: пост, техрепорт,
🔘 Потестить Kandinsky 5.0: github и hf
@dendi_math_ai
⚡️Результаты следующие:
🚀 Полезные ссылки:
@dendi_math_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥65❤20👍15🤔2😁1👌1
⚡️Коллеги из Центра Робототехники Сбера на этой неделе опубликовали техрепорт по Green-VLA. Это 4B staged vision–language–action (VLA) модель для generalist-роботов и, в первую очередь, конечно же для робота Грина 😎 Его как раз и делают ребята — они представляли Грина и довольно подробно про него рассказывали (особенно в части железа и контрола) на AI Journey в конце ноября 2025
В статье подробно разобрано, что именно помогает VLA моделям не разваливаться в реальном мире и быть устойчивыми к изменению сред и робот-платформ. На самом деле, это всё очень сложные задачи (например, картины по разным причинам рисовать «проще» 😄 — в смысле, картинки генерировать). У человека способности уверенно оперировать в физическом мире, в том числе подстраиваться к незнакомым средам, выполнять там сложные задачи, в конце концов пространственно ризонить, развивались миллионы лет в процессе эволюции: средний человек, например, почти не приложит никаких усилий для того, чтобы «в совершенно незнакомой квартире (например, у новых друзей) найти кухню и заварить там чашечку кофе». Стив Возняк к слову предложил именно эту задачу как тест на human-level embodied AGI (неспроста 💯)
В случае роботов (и, конкрентно, VLA, которые действиями роботов управляют) этого прогресса исследователям фактически надо добиваться «с нуля» (на самом деле, не совсем так — ведь есть фундаментальные модели почти на все случае жизни: языковые, мультимодальные, модели генерации изображений и видео)
В общем, в процессе исследований коллеги из Центра Робототехники:
🔘 разработали пятиступенчатый пайплайн обучения (он даёт роботу возможность надёжно выполнять разные задачи в реальном мире):
🔘 показали, как эффективно выучивать и использовать единое action-пространство для разных робот-платформ (необходимо, чтобы перенос между эмбодиментами был системным и масштабируемым);
🔘 показали SOTA результаты на разных бенчмарках: Simpler/BRIDGE WidowX, CALVIN ABC→D и на реальном Green Humanoid
🧩 Из планов — мы с ребятами уже проводим совместную работу по генерации синтетики с помощью семейства моделей Kandinsky, чтобы ещё сильнее увеличить generalization Green-VLA и расширить покрытие «редких» сценариев (которые по естественным причинам сложно и дорого собирать в реальном мире)
По хорошей традиции ребята залетели в топ Daily Papers на HF 🤗 Они уже давно топ-1 среди статьей дня и недели и топ-2 в рейтинге месяца. Считаю, что надо помочь ребятам стать топ-1 по месяцу — работа получилась очень хорошая. Если вам техрепорт тоже показался полезным, обязательно ставьте upvote ⬆️
И ещё раз все полезные ссылки:
👉 Upvote ставить тут
👉 ArXiv
👉 Project Page
👉 GitHub
В статье подробно разобрано, что именно помогает VLA моделям не разваливаться в реальном мире и быть устойчивыми к изменению сред и робот-платформ. На самом деле, это всё очень сложные задачи (например, картины по разным причинам рисовать «проще» 😄 — в смысле, картинки генерировать). У человека способности уверенно оперировать в физическом мире, в том числе подстраиваться к незнакомым средам, выполнять там сложные задачи, в конце концов пространственно ризонить, развивались миллионы лет в процессе эволюции: средний человек, например, почти не приложит никаких усилий для того, чтобы «в совершенно незнакомой квартире (например, у новых друзей) найти кухню и заварить там чашечку кофе». Стив Возняк к слову предложил именно эту задачу как тест на human-level embodied AGI (неспроста 💯)
В случае роботов (и, конкрентно, VLA, которые действиями роботов управляют) этого прогресса исследователям фактически надо добиваться «с нуля» (на самом деле, не совсем так — ведь есть фундаментальные модели почти на все случае жизни: языковые, мультимодальные, модели генерации изображений и видео)
В общем, в процессе исследований коллеги из Центра Робототехники:
L0 (тут берётся базовая обученная VLM-ка)
→ L1 (дополнительная стадия дообучения для лучшего понимания моделью физики мира, прокачивание пространственного ризонинга)
→ R0 (ещё одна стадия претрейна на 3,000+ часах видео с широкого класса роботов)
→ R1 (тюн уже под конкретного робота)
→ R2 (RL-based policy alignment — даёт дополнительную робастность при выполнении роботом сложных инструкций)
🧩 Из планов — мы с ребятами уже проводим совместную работу по генерации синтетики с помощью семейства моделей Kandinsky, чтобы ещё сильнее увеличить generalization Green-VLA и расширить покрытие «редких» сценариев (которые по естественным причинам сложно и дорого собирать в реальном мире)
По хорошей традиции ребята залетели в топ Daily Papers на HF 🤗 Они уже давно топ-1 среди статьей дня и недели и топ-2 в рейтинге месяца. Считаю, что надо помочь ребятам стать топ-1 по месяцу — работа получилась очень хорошая. Если вам техрепорт тоже показался полезным, обязательно ставьте upvote ⬆️
И ещё раз все полезные ссылки:
👉 Upvote ставить тут
👉 ArXiv
👉 Project Page
👉 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥14👍5👏1🏆1😎1