Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Illuminate прольет свет на Google I/O.
TL;DR - PDF TO VIDEO
В прошлом году все писали про Google Illuminate - сервис, который генерирует целые подкасты из любого PDF с помощью ИИ.
Можно давать статьи и даже книги. Получите великолепное чтиво по ролям простым языком на сложные темы.
Так вот, за это время сервис вышел из вейт-листа (у меня работает под штатовским VPN). Там два раздела примеров: From research papers и From Books. Прикольно, что можно сделать гугло-поиск и потом включить в подкаст НЕСКОЛЬКО найденных работ.
Но это еще не все!
У некоторых юзеров появились экспериментальные элементы управления, такие как кнопка «Изменить», переключение подписей и даже генерация изображений для фотографий обложек.
Но и это еще не все!
А как насчет ВИДОСОВ из пдф или ссылок?!!
На некоторых гугл аккаунтах на сайте Иллюминейт появился новый раздел под названием Sparks, помеченный как Early Preview. Его описание гласит: «Представьте, что любой вопрос может быть мгновенно преобразован в короткое видео, на 100% сгенерированное ИИ ». В шапке приведены образцы вертикальных видео, обычно продолжительностью от одной до трех минут, охватывающие различные темы.
По некоторым слухам, под капотом может быть Veo3 (который возможно покажут на I/O).
Но елы-палы, до чего мы до катились!
На входе ссылки или книги, на выходе видео по мотивам этого материала.
Поглядите примеры. Это, конечно, не готовые видосы для анимации и кино. Но это очень сильно напоминает по вайбу все эти видосы на заднем плане (или на переднем) во всяких образовательных, новостных или инфо-цыганских видосах с ютюба. Мельтешение на тему. Причем порой очень осмысленное. Со временем качество подтянется и осмысленность тоже.
Гугл щас расстреливает мамкиных технических видеоблоггеров. И нутрициологов. И онолитегов. Инфлюенсеров, короче.
А сколько стартапов полегло на поле "генерим видео по вашим\нашим сценариям"...
Ох, ждем Google I/O
@cgevent
TL;DR - PDF TO VIDEO
В прошлом году все писали про Google Illuminate - сервис, который генерирует целые подкасты из любого PDF с помощью ИИ.
Можно давать статьи и даже книги. Получите великолепное чтиво по ролям простым языком на сложные темы.
Так вот, за это время сервис вышел из вейт-листа (у меня работает под штатовским VPN). Там два раздела примеров: From research papers и From Books. Прикольно, что можно сделать гугло-поиск и потом включить в подкаст НЕСКОЛЬКО найденных работ.
Но это еще не все!
У некоторых юзеров появились экспериментальные элементы управления, такие как кнопка «Изменить», переключение подписей и даже генерация изображений для фотографий обложек.
Но и это еще не все!
А как насчет ВИДОСОВ из пдф или ссылок?!!
На некоторых гугл аккаунтах на сайте Иллюминейт появился новый раздел под названием Sparks, помеченный как Early Preview. Его описание гласит: «Представьте, что любой вопрос может быть мгновенно преобразован в короткое видео, на 100% сгенерированное ИИ ». В шапке приведены образцы вертикальных видео, обычно продолжительностью от одной до трех минут, охватывающие различные темы.
По некоторым слухам, под капотом может быть Veo3 (который возможно покажут на I/O).
Но елы-палы, до чего мы до катились!
На входе ссылки или книги, на выходе видео по мотивам этого материала.
Поглядите примеры. Это, конечно, не готовые видосы для анимации и кино. Но это очень сильно напоминает по вайбу все эти видосы на заднем плане (или на переднем) во всяких образовательных, новостных или инфо-цыганских видосах с ютюба. Мельтешение на тему. Причем порой очень осмысленное. Со временем качество подтянется и осмысленность тоже.
Гугл щас расстреливает мамкиных технических видеоблоггеров. И нутрициологов. И онолитегов. Инфлюенсеров, короче.
А сколько стартапов полегло на поле "генерим видео по вашим\нашим сценариям"...
Ох, ждем Google I/O
@cgevent
1👍50❤15🔥9👎3
Live Portrait или Deepfake с помощью VACE.
В коментах умныя подписчики написали:
Помимо выхода нового Vace, на свет был откопан CausVid. С помощью KJ и коллективного разума эта хреновина была заделана в Лору и успешно протестирована.
Благодаря хитрожопой связке T2V-14b-Wan(модель)+14b-Vace(модуль)+14b-CausVid(Лора) - на вход можно подать референс имидж и получить по сути I2V.
В общем я на выходных заморочился, в который раз переразвел этот ваш сраный ComfyUI, сломал голову над обилием версий Wan и VACE (официальная, от Комфийщиков, от Киджайя, не дай бог смешать ненароком), разыскал в твитторах вменяемый воркфлоу для 1.3B, переделал его для 14B и немного погонял на А100.
Результат - последнее видео.
Памяти жрет 32 гига где-то (на 1.3В - 27).
Вот такое видео генерит 7 минут, и виной тому та самая магическая Лора CausVid, которая позволяет считать всего на 4 шага (магия, реально).
Если убрать Лору и оставить 4 шага, будет как на первом видео (недолёт).
В общем покидайте сюда звездочек, а я вечером расскажу, откуда что брать, куда класть, как обгонять, как подрезать.
Ну и кстати, примерчики в интернете ловкие, потому что берут первый кадр, стилизуют его под диснея или аниме, и подают как реф картинку обратно (так рунвей делает), поэтому перенос получается идеальный. Если взять свою картинку, все не так сладко.
@cgevent
В коментах умныя подписчики написали:
Помимо выхода нового Vace, на свет был откопан CausVid. С помощью KJ и коллективного разума эта хреновина была заделана в Лору и успешно протестирована.
Благодаря хитрожопой связке T2V-14b-Wan(модель)+14b-Vace(модуль)+14b-CausVid(Лора) - на вход можно подать референс имидж и получить по сути I2V.
В общем я на выходных заморочился, в который раз переразвел этот ваш сраный ComfyUI, сломал голову над обилием версий Wan и VACE (официальная, от Комфийщиков, от Киджайя, не дай бог смешать ненароком), разыскал в твитторах вменяемый воркфлоу для 1.3B, переделал его для 14B и немного погонял на А100.
Результат - последнее видео.
Памяти жрет 32 гига где-то (на 1.3В - 27).
Вот такое видео генерит 7 минут, и виной тому та самая магическая Лора CausVid, которая позволяет считать всего на 4 шага (магия, реально).
Если убрать Лору и оставить 4 шага, будет как на первом видео (недолёт).
В общем покидайте сюда звездочек, а я вечером расскажу, откуда что брать, куда класть, как обгонять, как подрезать.
Ну и кстати, примерчики в интернете ловкие, потому что берут первый кадр, стилизуют его под диснея или аниме, и подают как реф картинку обратно (так рунвей делает), поэтому перенос получается идеальный. Если взять свою картинку, все не так сладко.
@cgevent
14👍39❤13👎1🔥1😁1
Media is too big
VIEW IN TELEGRAM
Нейропрожарка.
Принес вам на прожарку даже не один видос, а идею ютюб канала.
Музыка Суно, Видео - Клинг.
Я не думал, что он так ловко исполняет в липсинк.
Тут интересное, что автор ютюб-канала вообще не технарь и месяц назад не знал, что такое Суно, Клинг и вот это вот все. Просто пришла в голову идея, спросил у меня, что тут есть для видео и аудио и сделал.
Точнее сделала. Своего исполнителя.
Меня удивляет столь низкий порог входа. От идеи до клипа - 3 дня. Для человека, который про ИИ не знал совсем.
Наваливайте по делу. Про мыло, топаз и все дела.
Еще клипы:
https://www.youtube.com/@AJELITABAND
@cgevent
Принес вам на прожарку даже не один видос, а идею ютюб канала.
Музыка Суно, Видео - Клинг.
Я не думал, что он так ловко исполняет в липсинк.
Тут интересное, что автор ютюб-канала вообще не технарь и месяц назад не знал, что такое Суно, Клинг и вот это вот все. Просто пришла в голову идея, спросил у меня, что тут есть для видео и аудио и сделал.
Точнее сделала. Своего исполнителя.
Меня удивляет столь низкий порог входа. От идеи до клипа - 3 дня. Для человека, который про ИИ не знал совсем.
Наваливайте по делу. Про мыло, топаз и все дела.
Еще клипы:
https://www.youtube.com/@AJELITABAND
@cgevent
👍56❤26👎6🔥5😁2
Forwarded from Machinelearning
🎁 РАЗЫГРЫВАЕМ MacBook Air!
Майские праздники продалжаются! Разыграем новенький 13-дюймовый MacBook Air !
Условия участия максимально простые:
🔸Подписаться на телеграм-канал Machine Learning
🔸Подписаться на телеграм-канал Vistehno
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник!
Итоги подведём 14 июня.
Всем удачи!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать».
Майские праздники продалжаются! Разыграем новенький 13-дюймовый MacBook Air !
Условия участия максимально простые:
🔸Подписаться на телеграм-канал Machine Learning
🔸Подписаться на телеграм-канал Vistehno
🔸Нажать кнопку "Участвовать" ниже.
ВСЁ! Вы участник!
Итоги подведём 14 июня.
Всем удачи!
⚠️ Если бот подвис — не беспокойтесь, вас все равно зарегистрирует, просто выполните условия и нажмите «Участвовать».
2❤40👎22👍7🔥5
Media is too big
VIEW IN TELEGRAM
AINSORA: Text-2-anime видеогенератор.
Ну или анимегенератор\манганиматор.
Китайцы из (на минутчку) Bilibi сделали отдельный генератор именно для аниме.
"видеоролики в различных стилях аниме, включая эпизоды сериалов, китайскую оригинальную анимацию, адаптации манги, VTuber-контент, аниме PVs, пародии в безумном стиле и многое другое!"
Я почитал, это похоже на файнтюны Wan 2.1 (AniSora V2) и CogVideoX(AniSora V1).
Но самое интересное тут даже не видосы (хотя тут у меня окопались любители аниме, судя по аватаркам).
Они полностью тренировали модель на китайский чипах Huawei Ascend 910B NPUs (entirely trained on domestic chips). Там даже две папки NPU и GPU.
Я сам ровно дышу к аниме\манге, но для китайского рынка, где эти твари-аниме-витюберы расплодились с нереальных количествах - это прям автоматизация фабрик звезд.
В репозитарии треш и угар, но сам кейс очень примечательный.
https://github.com/bilibili/Index-anisora/
@cgevent
Ну или анимегенератор\манганиматор.
Китайцы из (на минутчку) Bilibi сделали отдельный генератор именно для аниме.
"видеоролики в различных стилях аниме, включая эпизоды сериалов, китайскую оригинальную анимацию, адаптации манги, VTuber-контент, аниме PVs, пародии в безумном стиле и многое другое!"
Я почитал, это похоже на файнтюны Wan 2.1 (AniSora V2) и CogVideoX(AniSora V1).
Но самое интересное тут даже не видосы (хотя тут у меня окопались любители аниме, судя по аватаркам).
Они полностью тренировали модель на китайский чипах Huawei Ascend 910B NPUs (entirely trained on domestic chips). Там даже две папки NPU и GPU.
Я сам ровно дышу к аниме\манге, но для китайского рынка, где эти твари-аниме-витюберы расплодились с нереальных количествах - это прям автоматизация фабрик звезд.
В репозитарии треш и угар, но сам кейс очень примечательный.
https://github.com/bilibili/Index-anisora/
@cgevent
👍27❤4🔥3
Media is too big
VIEW IN TELEGRAM
Кому Хумото?
Адобченко бахнул датасет мокап-анимаций на все случаи жизни.
"Мы представляем человеческие движения с объектами (HUMOTO), набор высокоточных данных о взаимодействии человека и объекта для создания движений, компьютерного зрения и робототехники.
Состоящая из 736 последовательностей (7 875 секунд при 30 кадрах в секунду), HUMOTO фиксирует взаимодействие с 63 точно смоделированными объектами и 72 шарнирными частями. Наши инновации включают конвейер сценариев LLM, создающий полные, целенаправленные задачи с естественным развитием событий, а также настройку записи с мокапа и камеры, позволяющую эффективно справляться с окклюзиями. Охватывая различные виды деятельности, от приготовления пищи до пикников на природе, HUMOTO сохраняет как физическую точность, так и логическое выполнение задач. Профессиональные художники тщательно очищают и
проверяют каждую последовательность, сводя к минимуму скольжение ног и проникновение предметов проникновения предметов"
Вы можете посмотреть и скачать 70 штук прямо вот отсюда:
https://adobe-research.github.io/humoto/
Вот тут много видосов:
https://jiaxin-lu.github.io/humoto/
А запросить полный доступ можно вот тут:
https://adobe-research.github.io/humoto/README.md
@cgevent
Адобченко бахнул датасет мокап-анимаций на все случаи жизни.
"Мы представляем человеческие движения с объектами (HUMOTO), набор высокоточных данных о взаимодействии человека и объекта для создания движений, компьютерного зрения и робототехники.
Состоящая из 736 последовательностей (7 875 секунд при 30 кадрах в секунду), HUMOTO фиксирует взаимодействие с 63 точно смоделированными объектами и 72 шарнирными частями. Наши инновации включают конвейер сценариев LLM, создающий полные, целенаправленные задачи с естественным развитием событий, а также настройку записи с мокапа и камеры, позволяющую эффективно справляться с окклюзиями. Охватывая различные виды деятельности, от приготовления пищи до пикников на природе, HUMOTO сохраняет как физическую точность, так и логическое выполнение задач. Профессиональные художники тщательно очищают и
проверяют каждую последовательность, сводя к минимуму скольжение ног и проникновение предметов проникновения предметов"
Вы можете посмотреть и скачать 70 штук прямо вот отсюда:
https://adobe-research.github.io/humoto/
Вот тут много видосов:
https://jiaxin-lu.github.io/humoto/
А запросить полный доступ можно вот тут:
https://adobe-research.github.io/humoto/README.md
@cgevent
1🔥33👍9😁6😱5❤4
Микрософт анонсировала MCP for Windows.
Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.
Слово - не воробей...
Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.
@cgevent
Ну то есть теперь можно голосом сказать, Клод, отформатируй все жёсткие диски.
Слово - не воробей...
Шутки шутками, но на очереди MCP для офиса. И вот уже операционка превращается в LMOS, о которой говорил Андрей Карпатый.
@cgevent
1🔥60😱20❤9👍8😁8
This media is not supported in your browser
VIEW IN TELEGRAM
Гугл Джулс
А вот и ответочка от Гугла на Codex от OpenAI.
Да, это агент-девелопер, который делает задачи, которые вы хотели бы кому-то поручить
↳connect to GitHub and open PRs
↳run or write tests
↳verify code in a cloud VM
↳share its plan, reasoning, and diffs
Сайт: https://jules.google/
Доки: https://jules-documentation.web.app/
Вейтлист: https://jules.google.com/waitlist/
Похоже мы приближаемся к великим битвам агентов. И это прекрасно.
Ибо битва будет за скорость, качество и цену.
Update: похоже что 5 запросов в день и для всех, а не как у опенАИ-бояр: типа Pro, Team, а челядь потом.
@cgevent
А вот и ответочка от Гугла на Codex от OpenAI.
Да, это агент-девелопер, который делает задачи, которые вы хотели бы кому-то поручить
↳connect to GitHub and open PRs
↳run or write tests
↳verify code in a cloud VM
↳share its plan, reasoning, and diffs
Сайт: https://jules.google/
Доки: https://jules-documentation.web.app/
Вейтлист: https://jules.google.com/waitlist/
Похоже мы приближаемся к великим битвам агентов. И это прекрасно.
Ибо битва будет за скорость, качество и цену.
Update: похоже что 5 запросов в день и для всех, а не как у опенАИ-бояр: типа Pro, Team, а челядь потом.
@cgevent
3👍65🔥22❤7👎4
Вернемся к 3Д.
Meshy.AI флексит новым авторигом - это когда в вашу модель вставляется скелет, дергая за который, вы можете анимировать вашего персонажа.
Я уже писал, что коль скоро сильные 3Д-мира сего (Автодеск, Максон) не ИИ-чешутся в направлении GenAI, то все эти 3Д-генераторы будут потихоньку обрастать "профессиональными" фичами и страшными терминами: риг, скининг, карты весов, инверсная кинематика.
Пока это выглядит как "авториг", который спешно прикручивают все 3Д-генераторы.
И да, конечно, это и близко не приближается к качеству рига с Mixamo, и уж тем более к проф решениям типа Maya или Каскадер. Это просто оживляж хайполи сетки. На лоуполи такие решения не работают. Ну и вообще работают так себе (последний ролик).
Но уже почти для всех 3Д-генераторов есть плагины для Блендора, которые позволяют втащить сгенерированные сетки туда и уж там попытаться поработать с ними по-взрослому (о чем второй ролик).
Но прогресс налицо.
@cgevent
Meshy.AI флексит новым авторигом - это когда в вашу модель вставляется скелет, дергая за который, вы можете анимировать вашего персонажа.
Я уже писал, что коль скоро сильные 3Д-мира сего (Автодеск, Максон) не ИИ-чешутся в направлении GenAI, то все эти 3Д-генераторы будут потихоньку обрастать "профессиональными" фичами и страшными терминами: риг, скининг, карты весов, инверсная кинематика.
Пока это выглядит как "авториг", который спешно прикручивают все 3Д-генераторы.
И да, конечно, это и близко не приближается к качеству рига с Mixamo, и уж тем более к проф решениям типа Maya или Каскадер. Это просто оживляж хайполи сетки. На лоуполи такие решения не работают. Ну и вообще работают так себе (последний ролик).
Но уже почти для всех 3Д-генераторов есть плагины для Блендора, которые позволяют втащить сгенерированные сетки туда и уж там попытаться поработать с ними по-взрослому (о чем второй ролик).
Но прогресс налицо.
@cgevent
👍13🔥12❤2😁2
This media is not supported in your browser
VIEW IN TELEGRAM
Кстати, для Блендора есть новый плагин для текстурирования объектов или целых сцен с помощью SDXL\Flux.
Он, правда, требует ComfyUI для локального запуска, но выглядит очень нарядно.
Код здесь: https://github.com/sakalond/StableGen
А больше информации и инструкций вот тут.
@cgevent
Он, правда, требует ComfyUI для локального запуска, но выглядит очень нарядно.
Код здесь: https://github.com/sakalond/StableGen
А больше информации и инструкций вот тут.
@cgevent
🔥41👍15❤1