Метаверсище и ИИще
47K subscribers
5.96K photos
4.39K videos
45 files
6.85K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Огненный Китайский Липсинк и не только.

Я уже писал про Дримину, как китайскую ответочку Креа и Фрипик. И единственное место, где можно попробовать тот самый Omni Human.

Оказывается, если зайти туда штатовским ВПНом, то кнопка с липсинком становится доступна! Бесплатно!

В общем, это больше похоже на китайскую Хедру - загружаешь портрет, аудио или текст, и жмешь Сгенерить.

И надо сказать, генеративная Марго Робби получилаcь отлично. С первого раза.

Дальше я, конечно, попытался это сломать. Присунув ей двух анимэ персонажей с широко открытыми ртами в одном кадре (T-поза для липсинка - слегка открытый рот).

Ну что сказать, получилось. Но все равно она выкрутилась. Смешно наблюдать как вход один, а рта - два. Синк на лицо\лице.

Там, кстати, цензура на звук. Отрывок из Laid Back: If you wonna be rich, you gotta be a bitch не пропустила из-за последнего слова.

Пробуем тут, я логигился капкатовским аккаунтом, а в капкате логинился гуглом. Без смс и оргий.

https://dreamina.capcut.com/ai-tool/video/lip-sync/generate

Штатовский впн.

@cgevent
7👍4212👎5🔥2
В Pikaframes можно загрузить до пяти кадров и получить 20 секунд анимации\видео, "проходящей" через эти кадры.

Больше, наверное, ни у кого нет.

Но если посмотреть на 3-4 ролика, то начинаешь точно угадывать момент, в который будет стык.

Во-первых, у них на движение камеры стоит easy-in easy-out и камера притормаживает к концу плана автоматически.
Во-вторых, там типичная ошибка с дублирующимся кадром, его надо ручками выкидывать, похоже. Иначе паузы.
В-третьих, переходы с движущейся камерой получаются одинаковые, некий спотыкач.

А вот на статике может быть поинтереснее. С морфингом неплохо, и очень забавный пример со скетчем. Теперь спид-пайнт можно симулировать задав пять (и еще пять) промежуточных скетчей.

В общем Пика верна себе. Больше вирусности и ваушности.

Но движение в cторону раскадровок хорошее.

@cgevent
🔥30👍169😱3👎1
Forwarded from РЕПТИЛОИДНАЯ
Media is too big
VIEW IN TELEGRAM
ИИ-агент с визуальной навигацией.

Вчера в одном из чатов обсуждали ИИ, который живет в VR Chat, способен видеть окружение, перемещаться и взаимодействовать с живыми пользователями.

Оказалось фейком (напишу позже). Но мы — те, кто делает сказку былью.

За пару часов собрал вот такой эксперимент. Смотрите видео.

Справа — чат, как в ChatGPT, c ИИ можно общаться.
Слева — цифровой мир и аватар, которым ИИ может управлять, задействуя несколько инструментов: vision (ИИ может посмотреть на мир), а также поворот и перемещение.

Удивительно (или нет?), но это заработало. Даю ИИ команду — найди синий шар. Он начинает осматриваться, находит шар, и идет к нему! Говорю — найди красный. Находит! Не сразу, но находит! Все полностью автоматически, я пишу только одно первое сообщение.

В целом, если добавить еще кучу костылей (память, интеншены), а также голосовой чат и взаимодействие с внешним сервисом (Spatial, VR Chat, etc) — получится агент, способный реально жить в виртуальном мире.

И тратить больше денег, чем самая требовательная девушка: дорого это все. Каждый запрос в районе 1-2 центов (я спользовал Claude Sonnet 3.7), а запросов десятки.

По дешевым нейронкам положняк такой:
- gpt-4o-mini — уже через десяток шагов забывает задачу
- gemini flash — теряет ориентацию в пространстве

4o и gemini 2.5 работают, но заметно хуже sonnet 3.7

Спрашивайте ваши вопросы.

🔴 @reptiloidnaya × #ai
🔥57👍174👎2😁1
Доктор Виваго и ХайДрим.

Вы будете смеяться, но у нас новый генератор картинок, опенсорсный притом.

Есть такой не сильно известный коммерческий сайт для генерации картинок и видео. Это китайцы из Гонконга.
https://vivago.ai/

Но пару дней назад они бахнули в опенсорс свою foundation model для генерации картинок. И что самое удивительное, она обошла всех на Artificial Analysis Image Arena, включая Flux Pro, Ideogram 3 и REVE!

Давайте я сделаю серию постов про нее, чтобы разобраться.

Во-первых, это некий зоопарк из уже существующих решений:
The VAE is from FLUX.1 [schnell], and the text encoders from google/t5-v1_1-xxl and meta-llama/Meta-Llama-3.1-8B-Instruct

Во-вторых, эта шняга НЕ влезет ни в одну видеокарту без квантования и плясок. У меня она ест 62GB VRAM на A100/H100.

В-третьих, она воще небыстрая. 50 сек на 1024х1024 на A100. Мы уже отвыкли от таких скоростей.

В-четвертых, есть демо на HF (и не одно), но во всех демо - сильно пожатая модель.

В-пятых, моделей ТРИ - fast, dev и full. Жрут одинаково. Скорость измерю позже.

В-шестых, уже есть кванты, которые влазят в 16GB, но имейте в виду, что там качество будет падать.

Ну и последнее в этом посте, все эти Image Arena - не очень хороший источник информации, лучше генерить самим.

Я взял картинки с арены (сравнения с другими генераторами) и прогнал все это через модель full.

Текст она генерит реально хорошо. А про остальное - следующий пост.

Забираем все отсюда:

https://github.com/HiDream-ai/HiDream-I1

Накидайте пару сотен звезд, посмотрю, что там с цензурой.
@cgevent
47👍4414👎5🔥2😱1