Dendi Math&AI
6.53K subscribers
36 photos
33 videos
30 links
Канал Дениса Димитрова о математике и искусственном интеллекте. В основном разные интересные и актуальные новости и мысли
Download Telegram
Dendi Math&AI
Всем привет! Несколько месяцев назад коллеги из AIRI номинировали меня на участие в ежегодном рейтинге Forbes «30 до 30» ❤️. И буквально вчера пришла новость, что я попал в лонг-лист этого рейтинга в рубрике «Наука и технологии» ! 🔥 🥳 Из списка номинантов…
Начинаю новую неделю с крутых новостей!

Благодаря вашим голосам я победил в рейтинге Forbes «30 до 30»! Всем большое спасибо! 🎉🥳 Также поздравляю и остальных участников «тридцатки», то есть победилей этого рейтинга - абсолютно все ребята заслуженно вошли в финальный шорт-лист 👍

Мы же с командой будем и дальше развивать искусственный интеллект в России, прокачивать наши модели Kandinsky, Kandinsky Video, GigaChat, OmniFusion и создавать новые архитектуры, делиться наработками в научных и научно-популярных статьях и выкладывать в открытый доступ код! 💪

Кстати говоря, в самое ближайшее время ждите интересные новости про модель Kandinsky! 😉

@dendi_math_ai
37🔥16🍾7
Forbes представляет победителей рейтинга «З0 до 30»

В новом списке — инвестдиректор Skyeng Андрей Дубровский, создатель нейросети Kandinsky Денис Димитров, теннисистка Мирра Андреева, актер Рузиль Минекаев и другие перспективные молодые люди.

За шесть лет почва для развития бизнеса и карьеры изменилась под влиянием пандемии, «спецоперации» и санкций. Стартаперам стало сложнее привлекать инвестиции, многие спортсмены оказались отрезаны от международных стартов, а звезды новых медиа потеряли основные каналы продвижения. Рейтинг «30 до 30», как маркер, отражает эти изменения.

Но одновременно показывает, что молодые отлично умеют адаптироваться. Одни осваивают опустевшие сегменты рынка, другим, несмотря на «венчурную зиму», удается привлечь внимание инвесторов за рубежом.

Победители «З0 до 30» 2024— на сайте рейтинга
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥164👍2🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
🥳 Сегодня выпустили обновление нашей модели генерации полноценных видео по тексту Kandinsky Video 1.1 🥳

Kandinsky Video 1.1 представляет собой ансамбль моделей, состоящий из трёх ключевых блоков, последовательно реализующих процесс генерации видео. Первый блок фактически является моделью синтеза изображений по текстовым описаниям Kandinsky 3.0 и отвечает за создание первого кадра видео. Второй — отвечает за генерацию ключевых кадров на основе первого кадра и введенного пользователем текста. Из этих кадров и складывается структура сюжета видео. Третий блок реализует генерацию интерполяционных кадров и позволяет достичь плавности движений в финальном видео. В основе второго и третьего блоков также лежит архитектура Kandinsky 3.0. Такой подход значительно повышает общее качество видео, особенно его визуальную составляющую (и на EvalCrafter модель выбивает неплохие скоры 🔥).

В силу особенности архитектуры новая версия модели позволяет генерировать видео не только по тексту, но и по начальному изображению, то есть «оживлять» статичную картинку. Теперь также можно контролировать динамику генерируемого видео с помощью специального параметра motion score.

Поработали в том числе над датасетом для обучения - сейчас это почти 5 млн пар «текст-видео» после фильтров из разных источников (подробнее расписано в статье на Хабр).

И, самое главное, теперь каждый может сгенерировать видео на свой вкус на fusionbrain.ai или в Telegram-боте Kandinsky. Генерация видео длиной 5,5 секунд в разрешении 512x512 и FPS=32 занимает около 1,5 минут.

Полезные ссылки:
👉 Хабр
👉 Project Page
👉 GitHub
👉 Hugging Face
👉 Telegram-бот
👉 fusionbrain.ai

@dendi_math_ai
🔥15👍53👏2😁1
И немного схем про устройство архитектуры и про метрики на EvalCrafter, о которых пишу выше
👍95👏3
🥳 Мы выложили в открытый доступ DPF - наш фреймворк для обработки и фильтрации мультимодальных данных 🥳

С помощью Data Processing Framework мы уже готовим данные для обучения таких моделей как Kandinsky и Kandinsky Video. Репозиторий содержит фильтры для видео, изображений, различных комбинаций этих модальностей, а также удобный интерфейс к ним - и теперь это доступно для всех!

Буду рад любому контрибьюту в этот фреймворк 🤗

Полезные ссылки:
👉 Хабр
👉 GitHub
👍15🔥113
Вышла новая китайская модель для генерации видео по тексту 可灵 (или просто Kling)!

Выпустила её Kuaishou Technology — китайская компания, которая разрабатывает одноимённую платформу для коротких видео (и довольно популярна в Китае).

Как заявляют авторы:
👉 модель представляет собой Diffusion Transformer (DiT), работающий в латентном пространстве закодированных видео (при этом при обучении DiT берутся видео разного разрешения и соотношения сторон);
👉 в качестве автоэнкодера видео используется специально обученный 3D VAE;
👉 модель может генерировать Full HD видео (разрешение 1920 х 1080) длинной до 2 минут с частотой 30 кадров в секунду (время, за которое модель генерирует такое видео, авторы не уточняют); при этом Sora за один проход умеет генерировать только минутное видео.

Как водится в последнее время, авторы Kling утверждают, что модель способна отлично имитировать физические характеристики реального мира и создавать видеоролики, соответствующие законам физики (что сейчас так или иначе является целью каждой команды, которая создает собственные text-to-video модели). Хотя всё ещё видны артефакты генерации (даже на представленных черри-пиках).

Концептуально в этом подходе к генерации видео нет ничего нового по сравнению с последними сравнимыми по качеству моделями такими как Sora (OpenAI), Vidu (Tsinghua University and ShengShu Technology), Veo (DeepMind). Очень большую роль играют и значимо влияют на финальное качество:
👉 данные, на которых обучалась модель, их количество и, самое главное, качество (в случае Kling эта информация неизвестна - как и в случае большинства других моделей генерации видео);
👉 количество compute, затраченного на обучение (то есть фактически спецификация и размер кластера и время обучения); в частности, авторы Kling специально подчёркивают большую отдачу (с точки зрения финального качества модели) от масшабирования архитектуры и процесса оптимизации её обучения.

Модель Kling закрытая, есть только статья с примерами в блоге и ссылка на бета-тестирование (правда чтобы в нём поучаствовать, нужен китайский номер 😄)

@dendi_math_ai
🔥17👍7🤩41