Огненный Китайский Липсинк и не только.
Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.
Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!
В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.
И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.
Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).
Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.
Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.
Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.
https://dreamina.capcut.com/ai-tool/video/lip-sync/generate
Штатовский впн.
@cgevent
Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.
Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!
В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.
И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.
Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).
Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.
Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.
Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.
https://dreamina.capcut.com/ai-tool/video/lip-sync/generate
Штатовский впн.
@cgevent
7👍42❤12👎5🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
В Pikaframes можно загрузить до пяти кадров и получить 20 секунд анимации\видео, "проходящей" через эти кадры.
Больше, наверное, ни у кого нет.
Но если посмотреть на 3-4 ролика, то начинаешь точно угадывать момент, в который будет стык.
Во-первых, у них на движение камеры стоит easy-in easy-out и камера притормаживает к концу плана автоматически.
Во-вторых, там типичная ошибка с дублирующимся кадром, его надо ручками выкидывать, похоже. Иначе паузы.
В-третьих, переходы с движущейся камерой получаются одинаковые, некий спотыкач.
А вот на статике может быть поинтереснее. С морфингом неплохо, и очень забавный пример со скетчем. Теперь спид-пайнт можно симулировать задав пять (и еще пять) промежуточных скетчей.
В общем Пика верна себе. Больше вирусности и ваушности.
Но движение в cторону раскадровок хорошее.
@cgevent
Больше, наверное, ни у кого нет.
Но если посмотреть на 3-4 ролика, то начинаешь точно угадывать момент, в который будет стык.
Во-первых, у них на движение камеры стоит easy-in easy-out и камера притормаживает к концу плана автоматически.
Во-вторых, там типичная ошибка с дублирующимся кадром, его надо ручками выкидывать, похоже. Иначе паузы.
В-третьих, переходы с движущейся камерой получаются одинаковые, некий спотыкач.
А вот на статике может быть поинтереснее. С морфингом неплохо, и очень забавный пример со скетчем. Теперь спид-пайнт можно симулировать задав пять (и еще пять) промежуточных скетчей.
В общем Пика верна себе. Больше вирусности и ваушности.
Но движение в cторону раскадровок хорошее.
@cgevent
🔥30👍16❤9😱3👎1
Forwarded from РЕПТИЛОИДНАЯ
Media is too big
VIEW IN TELEGRAM
ИИ-агент с визуальной навигацией.
Вчера в одном из чатов обсуждали ИИ, который живет в VR Chat, способен видеть окружение, перемещаться и взаимодействовать с живыми пользователями.
Оказалось фейком (напишу позже). Но мы — те, кто делает сказку былью.
За пару часов собрал вот такой эксперимент. Смотрите видео.
Справа — чат, как в ChatGPT, c ИИ можно общаться.
Слева — цифровой мир и аватар, которым ИИ может управлять, задействуя несколько инструментов: vision (ИИ может посмотреть на мир), а также поворот и перемещение.
Удивительно (или нет?), но это заработало. Даю ИИ команду — найди синий шар. Он начинает осматриваться, находит шар, и идет к нему! Говорю — найди красный. Находит! Не сразу, но находит! Все полностью автоматически, я пишу только одно первое сообщение.
В целом, если добавить еще кучу костылей (память, интеншены), а также голосовой чат и взаимодействие с внешним сервисом (Spatial, VR Chat, etc) — получится агент, способный реально жить в виртуальном мире.
И тратить больше денег, чем самая требовательная девушка: дорого это все. Каждый запрос в районе 1-2 центов (я спользовал Claude Sonnet 3.7), а запросов десятки.
По дешевым нейронкам положняк такой:
- gpt-4o-mini — уже через десяток шагов забывает задачу
- gemini flash — теряет ориентацию в пространстве
4o и gemini 2.5 работают, но заметно хуже sonnet 3.7
Спрашивайте ваши вопросы.
🔴 @reptiloidnaya × #ai
Вчера в одном из чатов обсуждали ИИ, который живет в VR Chat, способен видеть окружение, перемещаться и взаимодействовать с живыми пользователями.
Оказалось фейком (напишу позже). Но мы — те, кто делает сказку былью.
За пару часов собрал вот такой эксперимент. Смотрите видео.
Справа — чат, как в ChatGPT, c ИИ можно общаться.
Слева — цифровой мир и аватар, которым ИИ может управлять, задействуя несколько инструментов: vision (ИИ может посмотреть на мир), а также поворот и перемещение.
Удивительно (или нет?), но это заработало. Даю ИИ команду — найди синий шар. Он начинает осматриваться, находит шар, и идет к нему! Говорю — найди красный. Находит! Не сразу, но находит! Все полностью автоматически, я пишу только одно первое сообщение.
В целом, если добавить еще кучу костылей (память, интеншены), а также голосовой чат и взаимодействие с внешним сервисом (Spatial, VR Chat, etc) — получится агент, способный реально жить в виртуальном мире.
И тратить больше денег, чем самая требовательная девушка: дорого это все. Каждый запрос в районе 1-2 центов (я спользовал Claude Sonnet 3.7), а запросов десятки.
По дешевым нейронкам положняк такой:
- gpt-4o-mini — уже через десяток шагов забывает задачу
- gemini flash — теряет ориентацию в пространстве
4o и gemini 2.5 работают, но заметно хуже sonnet 3.7
Спрашивайте ваши вопросы.
🔴 @reptiloidnaya × #ai
🔥57👍17❤4👎2😁1
Доктор Виваго и ХайДрим.
Вы будете смеяться, но у нас новый генератор картинок, опенсорсный притом.
Есть такой не сильно известный коммерческий сайт для генерации картинок и видео. Это китайцы из Гонконга.
https://vivago.ai/
Но пару дней назад они бахнули в опенсорс свою foundation model для генерации картинок. И что самое удивительное, она обошла всех на Artificial Analysis Image Arena, включая Flux Pro, Ideogram 3 и REVE!
Давайте я сделаю серию постов про нее, чтобы разобраться.
Во-первых, это некий зоопарк из уже существующих решений:
The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct
Во-вторых, эта шняга НЕ влезет ни в одну видеокарту без квантования и плясок. У меня она ест 62GB VRAM на A100/H100.
В-третьих, она воще небыстрая. 50 сек на 1024х1024 на A100. Мы уже отвыкли от таких скоростей.
В-четвертых, есть демо на HF (и не одно), но во всех демо - сильно пожатая модель.
В-пятых, моделей ТРИ - fast, dev и full. Жрут одинаково. Скорость измерю позже.
В-шестых, уже есть кванты, которые влазят в 16GB, но имейте в виду, что там качество будет падать.
Ну и последнее в этом посте, все эти Image Arena - не очень хороший источник информации, лучше генерить самим.
Я взял картинки с арены (сравнения с другими генераторами) и прогнал все это через модель full.
Текст она генерит реально хорошо. А про остальное - следующий пост.
Забираем все отсюда:
https://github.com/HiDream-ai/HiDream-I1
Накидайте пару сотен звезд, посмотрю, что там с цензурой.
@cgevent
Вы будете смеяться, но у нас новый генератор картинок, опенсорсный притом.
Есть такой не сильно известный коммерческий сайт для генерации картинок и видео. Это китайцы из Гонконга.
https://vivago.ai/
Но пару дней назад они бахнули в опенсорс свою foundation model для генерации картинок. И что самое удивительное, она обошла всех на Artificial Analysis Image Arena, включая Flux Pro, Ideogram 3 и REVE!
Давайте я сделаю серию постов про нее, чтобы разобраться.
Во-первых, это некий зоопарк из уже существующих решений:
The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct
Во-вторых, эта шняга НЕ влезет ни в одну видеокарту без квантования и плясок. У меня она ест 62GB VRAM на A100/H100.
В-третьих, она воще небыстрая. 50 сек на 1024х1024 на A100. Мы уже отвыкли от таких скоростей.
В-четвертых, есть демо на HF (и не одно), но во всех демо - сильно пожатая модель.
В-пятых, моделей ТРИ - fast, dev и full. Жрут одинаково. Скорость измерю позже.
В-шестых, уже есть кванты, которые влазят в 16GB, но имейте в виду, что там качество будет падать.
Ну и последнее в этом посте, все эти Image Arena - не очень хороший источник информации, лучше генерить самим.
Я взял картинки с арены (сравнения с другими генераторами) и прогнал все это через модель full.
Текст она генерит реально хорошо. А про остальное - следующий пост.
Забираем все отсюда:
https://github.com/HiDream-ai/HiDream-I1
Накидайте пару сотен звезд, посмотрю, что там с цензурой.
@cgevent
47👍44❤14👎5🔥2😱1