Метаверсище и ИИще
48.3K subscribers
6.07K photos
4.55K videos
47 files
6.97K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Видеогенераторы опенсорсныя. Конец видеомарафона желаний.

Я буду не очень многословен.
Идете на https://civitai.com/models, включаете фильтр Lora и дальше тыкаете в разные видеогенераторы. И понимаете, кто в видеодоме хозяин.

Первое место. Хуньянь.

Несмотря на отсутствие image2video (ждем вот-вот) - это самый качественный и расширяемый(!) видеогенератор. Вкупе с leapFusion нет равных.

Да, он медленный, да, он жрет просто неприлично видеопамяти (но вспомните стоны про SDXL после 1.5). Но это - чемпион.

Второе место. LTXV.

Это как раз непревзойденный компромисс по ухудшению качества при несоизмеримо более выгодной скорости. Нужна интерактивность в производственной цепочке и много итераций - вам сюда. Есть image2video. Остается только ждать новых версий.

Easy Animate 5.1
А это компромисс между генерализацией и управляемостью - он не так хорош, как Хуньян на всем подряд, но очень хорош на нефоториал стилях, у него есть image2video и у него есть свой контролНет. Это как бы своя ниша. Плата - требования к железу и скорость.

На этом все.

Тут надо отдать должное CogVideoX - его код и идеи растащили везде и это прекрасная особенность опенсорса.

Космос, мне кажется, пока не пригоден даже для тестов, надо подождать.

@cgevent
11👍396😱1
Закрываем тему видео.

Ну и как вам вчерашний марафон видеожеланий?


Думаю, что через месяц надо будет повторять, ибо все изменится.

А сейчас вишенка на торте. Протестировал ночью вот эту вот всю Lumina Video.
Я уж не знаю, как они черрипикали, что писали в негативный промпт и на каком коде тестировали, но то, что у них лежит на Гитхабе выдает вот такое. Часть их этого - промпты из MovieGen Bench (девушка в токио и пр) и две танцующие девушки - так он видит nsfw.

Может, когда привезут i2v будет получше, как в случае с EasyAnimate, но пока вот так.

Ах да, 4 секунды генерятся 29 минут на A100 (причем ошибки про ffmpeg writer появляются в самом конце, будете устанавливать, запускайте сначала 1 секунду генерации, чтобы увидеть и пофиксить ошибки).

На двух секундах от жрет 53 гига видеопамяти памяти (в конце, когда собирает видос), вначале ест 17.

Думаю, сэкономил вам время и нервы, навалите-ка звездочек или донатов , вчера утомился немного.

@cgevent
16😁55🔥26👍216👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Тренировка ЛЛама-4.

А как вы думали их тренируют? На словах?

@cgevent
😁130🔥19👍4👎21
Группа инвесторов во главе с Илоном Маском предложила около 97,4 миллиарда долларов за покупку некоммерческой организации behind OpenAI, которую Маск помог основать десять лет назад.
Альман отреагировал мгновенно.

@cgevent
😁32👍27👎12🔥31
This media is not supported in your browser
VIEW IN TELEGRAM
Zonos

Голосовая модель от Zyphra
Хвастаются превосходством над всеми конкурентами

- Контроль эмоций
- Клонирование голоса по 10-30 секундному образцу
- Звуковые префиксы: Добавьте текст плюс аудиофайл чтобы задать динамику, например шепот
- Поддерживает английский, японский, китайский, французский и немецкий языки, русского нет
- Контроль скорости речи, высоты тона, максимальной частоты, качества звука
- Работает вдвое быстрее рилтайма на RTX 4090
- Есть Playground и API


Код
Демо - вход через гугл/регу
Блог - там есть тесты сравнения с конкурентами

#voicecloning #tts #text2speech
3🔥46👍92
Недавно писал про новый апскейлер видео от Топаза. Он был в закрытой бете.

Дали воду в хату доступ для всех.
Го тестировать.

Дают немного кредитов.

https://app.topazlabs.com/experiments/starlight

@cgevent
👍205
Media is too big
VIEW IN TELEGRAM
Если честно, то даже я приподохренел.

Тут у нас была дискуссия (бессодержательная по большей части) за рекламу, ну штош, держите рекламы.
Давайте вы сначала посмотрите ролик со звуком(!), а потом почитаете тексты ниже...





















Пришлось смотреть 3 раза.

Конечно, я испортил весь эффект, тем что сразу акцентировал внимание на ролике. Но таки да, это генератив от Veo2. И тут Гугл, похоже, пока непобиваем.
Я вначале подумал, что дядьки с камерами настоящие и щас нам расскажут про совмещение ИИ и видео.

Но из настоящего тут только говорящая голова со странным акцентом в части behind the scenes

Пруф тут: https://www.youtube.com/watch?v=VqLWWYfCEbI

Нормальный такой 𝘢𝘯 𝘪𝘯𝘥𝘦𝘱𝘦𝘯𝘥𝘦𝘯𝘵 𝘤𝘳𝘦𝘢𝘵𝘪𝘷𝘦 𝘦𝘹𝘦𝘳𝘤𝘪𝘴𝘦 - как пишет автор. Один. Без ансамбля.

От себя добавлю, что закадровый нарратив для ИИ-роликов - это прям палочка выручалочка, недавно об этом думал.

Встречал немного снобистское мнение в прошлой жизни, что закадровый нарратив появляется там, где режиссер не может справиться со сценой или сценарием. Для ИИ - это идеальные костыли. Поглядите ролик еще раз.
И спать.

P.S. Огромное спасибо Всеволоду Тарану за такой шикарный ИИ-подгон.

@cgevent
🔥165😱38👍2524👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяться, но у нас опять новый видеогенератор!

Опен-сорсный притом. Дико быстрый. С кодом и тех репортом. В весами есть моменты см ниже.

Что-то мне стало казаться, что видеогенераторов становится больше, чем генераторов картинок. Они правда дохнут (канают в лету) быстрее, чем появляются, но это путь самурая!

Итак, что интересного.

Image2Video из коробки, но это не главное, главное С-Скорость!

Модель Magic 1-For-1 - это, прежде всего оптимизации использования памяти и сокращения времени ожидания вывода. Она декомпозирует задачу генерации текста в видео на две подзадачи: генерацию текста в изображение и генерацию изображения в видео, что позволяет более эффективно проводить обучение и дистилляцию.

Magic 1-For-1 использует алгоритм пошаговой дистилляции для обучения модели «генератора», которая может производить высококачественные видео всего за несколько шагов. Эта модель генератора обучается совместно с двумя другими моделями: одна из них аппроксимирует реальное распределение данных, а другая аппроксимирует распределение сгенерированных данных. Выравнивая эти распределения, модель генератора учится эффективно производить реалистичные видео.

Внимание: используя подход скользящего окна во время инференса, модель также может создавать более длинные видео, длиной до минуты, сохраняя при этом хорошее визуальное качество и движение.

Для тех, кто ничего не понял - cоздание одноминутных видеоклипов за одну минуту.

Из дополнительных ништяков: есть Multi-GPU Inference(!) и скрипты для квантизации модели (про требования к видео памяти ничего нет, стоп, есть инфо - 30GB for 540x960 resolution video generation, если резать разрешение, влезет в 16).

VAE и text encoder они берут отсюда:
huggingface-cli download tencent/HunyuanVideo --local_dir pretrained_weights --local_dir_use_symlinks False
huggingface-cli download xtuner/llava-llama-3-8b-v1_1-transformers --local_dir pretrained_weights/text_encoder --local_dir_use_symlinks False

А вот ссылки на сами веса модели я тупо не нашел, их забыли указать:
wget -O pretrained_weights/magic_1_for_1_weights.pth <model_weights_url>

(блин, зачем я трачу время на изучение китайских переписок?!?! - "We will upload the model weights within 3 days. Keep tuned." - это три часа назад).

Stan Travis, готов? Ждем веса.

Пока выглядит как ответочка LTXV - скорость и оптимизация, за счет снижения количества шагов.

https://github.com/DA-Group-PKU

@cgevent
🔥41👍97😁2
Вопрос про телеграм. Я голову сломал, но не нашел ответа.

Откройте Telegram Desktop. Напишите link, выделите текст, нажмите Ctrl-K, введите www.link.url, нажмите Enter. Выделите и Скопируйте синий текст со ссылкой (Ctrl-A, Ctrl-C). Теперь в буфере что-то есть.

Вставьте буфер в текстовый редактор, получите link (http://www.link.url)

Теперь вставьте буфер (Ctrl-V) в окно ввода в Телеге. Получите синенькую аккуратную ссылку из 4 букв: "link".

Если вставить в телегу текст: link (http://www.link.url) - никакой синенькой ссылки из четырех букв вы не получите (в телеге кастрированный маркдаун). То есть если вставить сначала в текстовый редактор, а оттуда в телегу, то происходит "очистка" чего-то.

Я даже скрипт написал, который читает бинарно буфер обмена: там тупо "link (http://www.link.url)"

Вопрос: как Телега это делает? что она запоминает по дороге и где?

Надеюсь внятно написал

@cgevent
😁43👍115😱4
Forwarded from Neural Shit
Почти все видеогенераторы не умеют нормально генерировать людей вверх ногами. Если сгенерировать такое видео, а после перевернуть его на 180 градусов, то получается забавный эффект — люди моргают нижним веком + часто испытывают проблемы со ртом.

Сейчас знатно залип на генерации таких криповых уродцев
😁80😱12👍62👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Новый уже доступный видео-генератор.

Про Adobe Firefly Video Model мы уже слышали в прошлом году. Адобченко похвастался, привалил видосов в твиттор и ушел в очень закрытую бету.

А сейчас открыл бету. Для всех. За деньги. Можно пробовать.

За 10 баксов в месяц - 20 роликов по пять секунд.

За 30 баксов - 70 роликов.

Будет еще Unlimited Plan (там типа 500 генераций, а потом медленная очередь, но это неточно)

Также пишут: Try it yourself - first 2 video generations are free.

Из фишек: Generative Extend позволяет продлить видео. Пишут также про Fill the Gap - заполнение между клипами.

Scene to Image - 3D болванки можно использовать как референс. Что-то подобное видели в Креа, но тут интересна UX-реализация. Дело очень хорошее.

Только 1080p, 16:9, углы камеры и обзора можно регулировать.
Дичайшая цензура. Плохо, очень плохо генерирует людей. Не хочет
24 кадра в секунду - неплохо.

Translate and Lip Sync - тут 11lаbs поперхнулись немного. Но потом выдохнули: Translate Audio и Translate Video доступны на 20+ языках, а функция синхронизации губ доступна только корпоративным клиентам.

А теперь внимание Адобченко "работает над еще одним видеоинструментом с искусственным интеллектом, который поможет в преподакшене. Этот инструмент, который еще не анонсирован, поможет прийти к единому видению, создав грубый набросок того, как будет выглядеть сцена или ряд сцен."

О, как!

Как пишет Крис Каштанова, морфинг и турнтэйблы генерятся отлично, видно, что в датасете было много этого добра со стоков. "“rotate around” в промпте решает.

Готовьте свои деньги и бессонницу, в общем.

https://blog.adobe.com/en/publish/2025/02/12/meet-firefly-video-model-ai-powered-creation-with-unparalleled-creative-control

@cgevent
👍269🔥8👎1
Media is too big
VIEW IN TELEGRAM
Я подсобрал инфо про Firefly Video Model.

Довольно пластиковый лук. Очень характерный для Адобовских моделей.

Людей и портреты не получится. Хотя дети просачиваются.

По качеству (и охвату тем) очень далеко до Veo2. До Клинга думаю тоже, но надо смотреть.

Возможно для моушен дизайна зайдет, ловкие морфы и облеты, но мало данных пока.

@cgevent
👍204
Forwarded from Адель и МЛь
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 заменит o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию, включающую голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
🔥70👍2512👎2
Оставлю это здесь для гиков. Их есть в канале, судя по коментам.

This SDK can be used to integrate GitHub Copilot into any editor or IDE. See the documentation on the package to get started.

https://github.blog/changelog/2025-02-10-copilot-language-server-sdk-is-now-available/
🔥22👍8