Метаверсище и ИИще

Illuminate прольет свет на Google I/O.

TL;DR - PDF TO VIDEO

В прошлом году все писали про Google Illuminate - сервис, который генерирует целые подкасты из любого PDF с помощью ИИ.
Можно давать статьи и даже книги. Получите великолепное чтиво по ролям простым языком на сложные темы.

Так вот, за это время сервис вышел из вейт-листа (у меня работает под штатовским VPN). Там два раздела примеров: From research papers и From Books. Прикольно, что можно сделать гугло-поиск и потом включить в подкаст НЕСКОЛЬКО найденных работ.

Но это еще не все!

У некоторых юзеров появились экспериментальные элементы управления, такие как кнопка «Изменить», переключение подписей и даже генерация изображений для фотографий обложек.

Но и это еще не все!

А как насчет ВИДОСОВ из пдф или ссылок?!!

На некоторых гугл аккаунтах на сайте Иллюминейт появился новый раздел под названием Sparks, помеченный как Early Preview. Его описание гласит: «Представьте, что любой вопрос может быть мгновенно преобразован в короткое видео, на 100% сгенерированное ИИ ». В шапке приведены образцы вертикальных видео, обычно продолжительностью от одной до трех минут, охватывающие различные темы.

По некоторым слухам, под капотом может быть Veo3 (который возможно покажут на I/O).

Но елы-палы, до чего мы до катились!

На входе ссылки или книги, на выходе видео по мотивам этого материала.

Поглядите примеры. Это, конечно, не готовые видосы для анимации и кино. Но это очень сильно напоминает по вайбу все эти видосы на заднем плане (или на переднем) во всяких образовательных, новостных или инфо-цыганских видосах с ютюба. Мельтешение на тему. Причем порой очень осмысленное. Со временем качество подтянется и осмысленность тоже.

Гугл щас расстреливает мамкиных технических видеоблоггеров. И нутрициологов. И онолитегов. Инфлюенсеров, короче.

А сколько стартапов полегло на поле "генерим видео по вашим\нашим сценариям"...

Ох, ждем Google I/O

@cgevent

1👍50❤15🔥9👎3

8.97K viewsSergey Tsyptsyn ️️, 10:48

Метаверсище и ИИще

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

Live Portrait или Deepfake с помощью VACE.

В коментах умныя подписчики написали:

Помимо выхода нового Vace, на свет был откопан CausVid. С помощью KJ и коллективного разума эта хреновина была заделана в Лору и успешно протестирована.

Благодаря хитрожопой связке T2V-14b-Wan(модель)+14b-Vace(модуль)+14b-CausVid(Лора) - на вход можно подать референс имидж и получить по сути I2V.

В общем я на выходных заморочился, в который раз переразвел этот ваш сраный ComfyUI, сломал голову над обилием версий Wan и VACE (официальная, от Комфийщиков, от Киджайя, не дай бог смешать ненароком), разыскал в твитторах вменяемый воркфлоу для 1.3B, переделал его для 14B и немного погонял на А100.

Результат - последнее видео.

Памяти жрет 32 гига где-то (на 1.3В - 27).
Вот такое видео генерит 7 минут, и виной тому та самая магическая Лора CausVid, которая позволяет считать всего на 4 шага (магия, реально).
Если убрать Лору и оставить 4 шага, будет как на первом видео (недолёт).

В общем покидайте сюда звездочек, а я вечером расскажу, откуда что брать, куда класть, как обгонять, как подрезать.

Ну и кстати, примерчики в интернете ловкие, потому что берут первый кадр, стилизуют его под диснея или аниме, и подают как реф картинку обратно (так рунвей делает), поэтому перенос получается идеальный. Если взять свою картинку, все не так сладко.

@cgevent

14👍39❤13👎1🔥1😁1

7.38K viewsSergey Tsyptsyn ️️, 11:48

Нейропрожарка.

Принес вам на прожарку даже не один видос, а идею ютюб канала.

Музыка Суно, Видео - Клинг.

Я не думал, что он так ловко исполняет в липсинк.

Тут интересное, что автор ютюб-канала вообще не технарь и месяц назад не знал, что такое Суно, Клинг и вот это вот все. Просто пришла в голову идея, спросил у меня, что тут есть для видео и аудио и сделал.
Точнее сделала. Своего исполнителя.
Меня удивляет столь низкий порог входа. От идеи до клипа - 3 дня. Для человека, который про ИИ не знал совсем.
Наваливайте по делу. Про мыло, топаз и все дела.

Еще клипы:
https://www.youtube.com/@AJELITABAND

@cgevent

👍56❤26👎6🔥5😁2

7.9K viewsSergey Tsyptsyn ️️, edited 12:05

Метаверсище и ИИще

Forwarded from Machinelearning

🎁 РАЗЫГРЫВАЕМ MacBook Air!

Майские праздники продалжаются! Разыграем новенький 13-дюймовый MacBook Air !

Условия участия максимально простые:

🔸Подписаться на телеграм-канал Machine Learning
🔸Подписаться на телеграм-канал Vistehno
🔸Нажать кнопку "Участвовать" ниже.

ВСЁ! Вы участник!

Итоги подведём 14 июня.

Всем удачи!

⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать».

2❤40👎22👍7🔥5

7.27K viewsSergey Tsyptsyn ️️, 12:27

AINSORA: Text-2-anime видеогенератор.

Ну или анимегенератор\манганиматор.

Китайцы из (на минутчку) Bilibi сделали отдельный генератор именно для аниме.

"видеоролики в различных стилях аниме, включая эпизоды сериалов, китайскую оригинальную анимацию, адаптации манги, VTuber-контент, аниме PVs, пародии в безумном стиле и многое другое!"

Я почитал, это похоже на файнтюны Wan 2.1 (AniSora V2) и CogVideoX(AniSora V1).

Но самое интересное тут даже не видосы (хотя тут у меня окопались любители аниме, судя по аватаркам).

Они полностью тренировали модель на китайский чипах Huawei Ascend 910B NPUs (entirely trained on domestic chips). Там даже две папки NPU и GPU.

Я сам ровно дышу к аниме\манге, но для китайского рынка, где эти твари-аниме-витюберы расплодились с нереальных количествах - это прям автоматизация фабрик звезд.

В репозитарии треш и угар, но сам кейс очень примечательный.

https://github.com/bilibili/Index-anisora/

@cgevent

👍27❤4🔥3

7.81K viewsSergey Tsyptsyn ️️, 16:46

Кому Хумото?

Адобченко бахнул датасет мокап-анимаций на все случаи жизни.

"Мы представляем человеческие движения с объектами (HUMOTO), набор высокоточных данных о взаимодействии человека и объекта для создания движений, компьютерного зрения и робототехники.
Состоящая из 736 последовательностей (7 875 секунд при 30 кадрах в секунду), HUMOTO фиксирует взаимодействие с 63 точно смоделированными объектами и 72 шарнирными частями. Наши инновации включают конвейер сценариев LLM, создающий полные, целенаправленные задачи с естественным развитием событий, а также настройку записи с мокапа и камеры, позволяющую эффективно справляться с окклюзиями. Охватывая различные виды деятельности, от приготовления пищи до пикников на природе, HUMOTO сохраняет как физическую точность, так и логическое выполнение задач. Профессиональные художники тщательно очищают и
проверяют каждую последовательность, сводя к минимуму скольжение ног и проникновение предметов проникновения предметов"

Вы можете посмотреть и скачать 70 штук прямо вот отсюда:
https://adobe-research.github.io/humoto/
Вот тут много видосов:
https://jiaxin-lu.github.io/humoto/

А запросить полный доступ можно вот тут:
https://adobe-research.github.io/humoto/README.md

@cgevent

1🔥33👍9😁6😱5❤4

8.67K viewsSergey Tsyptsyn ️️, 16:58

Метаверсище и ИИще

Микрософт анонсировала MCP for Windows.

Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.

Слово - не воробей...

Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.

@cgevent

1🔥60😱20❤9👍8😁8

12.5K viewsSergey Tsyptsyn ️️, edited 19:57

About

Blog

Apps

Platform