Метаверсище и ИИще
50.5K subscribers
6.31K photos
4.97K videos
48 files
7.3K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
3Д-генератор от Apple

Не уверен, что после Хуньяня, кто-то захочет им пользоваться, но оставлю тут для истории.
Они прям с нуля сделали свой 3Д-генератор по одной картинке с упором на то, что освещение с разных ракурсов помогает им восстанавливать более точную форму объекта.
Сравнивают результата с первым TRILLIS (что странно).
Пространственного разрешения, как по мне, им явно не хватает.

Зато есть код и веса:
https://github.com/apple/ml-lito
https://apple.github.io/ml-lito/

@cgevent
👍11😁5😱21🔥1
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Конкурсная работа для Союзмультфильма

Автор: Голубь Михаил
Телеграм: @Mikhail_Golub

Срок: 2 недели, ~50 часов работы

Союзмультфильм запустил конкурс «Ну ИИ погоди», приуроченный к 90-летию студии, — с целью популяризации анимации, интеграции передовых технологий и привлечения свежих творческих сил.

Условия конкурса:
⭐️Ролик от 30 до 60 секунд
⭐️Формат 9:16 или 16:9, качество минимум Full HD
⭐️В ролике должны быть цифры 9 и 0
⭐️Можно использовать персонажей студии, представленных в конкурсе

Первым делом полез смотреть, каких персонажей предложили организаторы — и там они, Винни-Пух с Пятачком. Те самые, хитруковские. Всё, решено. Дальше Пух сам подсказал сценарий. Спойлер: он связан с горшочком мёда. Кто бы мог подумать.😁

Этап 1: Модельные листы персонажей
Для консистентности и понятной анимации нужны были модельные листы Пуха и Пятачка. Собрал лучшие отрывки из старого мультика, закинул в NanoBanana Pro с целью получить профессиональные 3D-рендеры с текстурами на основе референсов. Получив подходящие изображения персонажей, снова закинул в Banana и попросил подготовить моедльный лист для каждого персонажа — виды спереди, сзади, сбоку и 3/4. Персонажи простые — нейросеть справилась с первого раза.

Этап 2: Интерьер и экстерьер
Действие крутится вокруг домика Пуха. Не стал изобретать велосипед — вырезал кадры из оригинала, скормил Claude вместе с модельными листами персонажей для понимания стиля рендера и попросил написать промпт для NanoBanana Pro. Получилось 10 вариантов интерьера/экстерьера, топ-5 стали референсами для всех сцен.

Этап 3: Шоты
Перед анимацией собрал шоты по раскадровке. Схема одна на все сцены: кидаю референсы в Claude → получаю промпт → отдаю промпт и те же референсы в том же порядке в NanoBanana Pro. Годные генерации выходили с 5–10 попытки, что-то допиливал в Photoshop.

Этап 4: Анимация
Seedance тогда ещё не было. В арсенале — только Kling 3.0 и o3. Промпты для анимации писал через Claude: кидал шоты в качестве референсов и описывал задачу — действия, эмоции персонажа. Полученный промпт отправлял в Kling + те же шоты. Анимация сначала выходила топорная, будто роботизированная. Помогла одна добавка в промпт: «движения должны быть естественными, выразительными как в профессиональной анимации». Сразу другое дело😁

Этап 5: Цветокоррекция и монтаж
Собрал всё вместе — кадры по цвету как сборная солянка. Подравнял в Premiere Pro.Потом заметил: 24 fps от Kling стробят, а хотелось плавности. Программно перегнал в 30 fps — полезли артефакты. Тогда артефактные куски вернул в 24 fps и прогнал через Topaz Video в Krea — получил честные 30 fps без мусора. Красота.

Этап 6: Звук
Все звуковые эффекты были взяты из видеогенераций. С музыкой было проще всего. За основу взял Elephant Walk Генри Манчини — уж очень по характеру подходила Пуху. Закинул идею в Claude, тот накидал промпт для Suno с разными акцентами и настроением — чтобы потом было что замиксовать. Сгенерил 10 треков по одному промпту, выбрал один. Композиция встала в мультик с единственной склейкой в финале.

💰Бюджет:
Видеогенерация — Kling: 115 генераций в Full HD по 5–6 сек с озвучкой. Каждая — 60–70 токенов. Итого сожрало ~8000 токенов. Пакет 7500 токенов = 100$. Ну чуть-чуть не вписался.

Картинки — NanoBanana Pro (через Higgsfield): подписка 49$/мес — хватило выше крыши, ещё и осталось.

Видеоулучшайзер — Topaz через Krea: некоторые генерации выходили с багами, как будто ИИ рисовал после вечеринки 😆🥴 Pro-план 35$/мес — зато видео стало плавным

Музыка — Suno 5.5: 8$/мес, 2500 токенов. Одна генерация = 2 трека за 10 токенов. Самый скромный чек в этой тусовке.

Промпты — Claude Pro: 17$/мес.

Итого бюджет: ~210$

@cgevent
👍123👎3422🔥10😁5😱1
Media is too big
VIEW IN TELEGRAM
ProMediaFlow ищет в команду

ProMediaFlow — профессиональная платформа для производства медиа на ИИ-инструментах: полный цикл от идеи до готового мастера, на уровне студийного продакшна. Мы помогаем креаторам и студиям создавать контент студийного качества — от роликов до анимационных фильмов.

Открыто три позиции. Можно откликаться на одну — или на несколько, если закрываешь сразу несколько направлений.

1. Customer Success Manager
Онбординг клиентов, обучающие материалы и разборы, сопровождение до первого результата на платформе. Сбор обратной связи и передача её продуктовой команде.

2. Content & SMM Specialist
Контент-план и упаковка результатов клиентов под Reels, Shorts, TikTok, VK. Мониторинг трендов ИИ-видео, дизайна, музыки, кино. Тестирование новых инструментов и форматов.

3. Partnerships Manager
Поиск креаторов и студий для коллабораций, выстраивание и ведение договорённостей, развитие партнёрской сети.

Ожидания
— опыт в производстве контента или работе с медиапроектами
— уверенная ориентация в индустрии ИИ-медиа
— грамотная и быстрая письменная речь
— самостоятельность и организованность

Условия
— работа на профессиональном уровне ИИ-медиа-продакшна
— прямое взаимодействие с фаундером и продуктовой командой
— возмжожен удаленый и постоянный формат. оплата от 2000$ и далее в зависимости от опыта

пишите в директ @latrack ) или team@promediaflow.com
9👍7👎5
Forwarded from Psy Eyes
Runway: выпустили Aleph 2, обновлённый инструмент для редактирования видео. Первый Aleph вышел около года назад.

Можно внести правки в конкретный кадр и изменения будут применены ко всему видео. Работает даже в мультишот сценах, например, из Seedance 2. Правки могут применяться как в целом ко всему фрейму, скажем для смены стиля, так и точечно к объектам вроде куртки на модели, лампы в углу кадра, итд. Замена объекта будет произведена с учетом его физики и освещения сцены, при этом бэкграунд останется максимально нетронутым.

Aleph 2 работает с видео разрешением 1080p и длиной до 30 сек. Им можно воспользоваться в рабочем пространстве Studio: там есть превью, можно делать правки текстом, и вкидывать реф картинки.

На странице с ценами Aleph фигурирует начиная с подписки Standard (без уточнения версии). В шапке сайта нашёл у них промокод RUNWAY50 со скидкой 50%, но он на Pro подписку, хотя может кому пригодиться.

Сайт
Анонс
🔥383
Первые тесты Aleph 2

Исходник - погоня, сделанная в Seedance.

Редактирование - инструкция переодеть всех ниндзя в розовый.

Тут правда водитель попал под раздачу.

Выглядит как ответчика редактирующих возможностям Gemini Omni.

@cgevent
😁20🔥10👍6
Ого, а вот это интересно!

Capcut парнерится в Гуглом.

В скором времени пользователи смогут редактировать изображения и видео прямо в приложении Gemini, используя расширенные возможности монтажа CapCut.

Цитата: "По мере того как творческие рабочие процессы становятся все более взаимосвязанными и плавными, мы верим, что будущее творчества станет более диалоговым, интуитивным и интеллектуально интегрированным между различными инструментами и интерфейсами."

Грубо говоря, в Gemini App приедет таймлайн для монтажа.

За кадром остается любопытный вопрос, а что будет с интерфейсом Flow? Об этом в анонсе ни слова.

Гугл, конечно, любит плодить сущности..

Также интересно поразмыслить, что гугл придерживается традиционного подхода к генерации контента, предполагая, что монтаж - неотъемлемая его часть.

В то время как Higgsfield, например, делает ставку на агентский подход и на то, что монтаж будет происходить прямо во время генерации - грубо говоря, ИИ будет решать как смонтировать финальный клип.

Новость интересная, конечно. При том, что на Дримине и в Капкате уже можно использовать и Seedance, Nanobanana и другие модели, а с появлением API Gemini Omni, там появятся и модель от Гугла.

@cgevent
🔥207😁6
This media is not supported in your browser
VIEW IN TELEGRAM
PanoWorld.

Интересный пример использования Qwen-Edit.

Он преобразует двухмерные планы этажей для всего дома в фотореалистичные, согласованные виртуальные туры по этому дому. Утверждается, что структура дома сохраняется при передвижении.
Виртуальный тур по дому, которого еше нет. Для недвиги и риелторов самое то.
Под капотом гауссианы, на сайте много примеров:
https://jjrcn.github.io/PanoWorld-project-home/
Код должен быть, но его пока нет.

@cgevent
🔥26👍102
This media is not supported in your browser
VIEW IN TELEGRAM
WavFlow: Audio Generation in Waveform Space

Интересная работа от Метачки. Это Foley - генерация звука по видео (и по тексту).
Тут примечательно то, что генерация происходит напрямую в "звуковом" пространстве (в пространстве waveform) и не используется никакого VAE и сжатия в латентное пространство. Это аналог генераторов картинок, которые работают напрямую в пиксельном пространстве без VAE.

Утверждается, что работает быстрее и не хуже.

На сайте много примеров, код есть:
https://facebookresearch.github.io/WavFlow/#demos

Если вам надо переозвучить свои видео - вариант.

@cgevent
👍194👎4🔥4
This media is not supported in your browser
VIEW IN TELEGRAM
У Black Forrest Lab немного странный апдейт.

Им бы давно пора бахнуть Flux.3, а они выпускают удалятор объектов.
Причем удялятор требует ручной грубой маски.

Я копнул глубже, там под капотом Flux.2 Klein 9B

Причем доступно это, только по API и в виде их демо на сайте.

Веса Flux.2 Klein 9B не обновлялись с февраля, хотя они пишут "FLUX is now trained to erase and reconstruct as one task at the model level."

Демо тут:
https://flux-tools.bfl.ai/erase

Я попробовал и у меня вообще не отработало.

Попробуйте, может у вас получится.

Подробнее тут:
https://docs.bfl.ai/flux_erase

В то время как Банана умеет то же самое без масок, а Омни вообще удаляет объекты с видео, такой чахлый релиз выглядит ну очень странно.

@cgevent
7🔥2😁2👍1
Любопытно, что в твитторе одного из разработчиков Krea.ai появился такой пост:

Планы:
1. Постоянные улучшения и новые возможности в K2.
2. Выпуск версии с открытым исходным кодом.
3. Технический отчет и блоги разработчиков.
4. На личном уровне — мои размышления до и после обучения, которыми я хочу поделиться в своих статьях.
5. Возможно, специальная модель аниме.

Интересно, он какой опенсорсной модели идет речь?

"Теперь, когда мы заслужили право обучать более амбициозные (и БОЛЬШИЕ) модели, нужно сначала научиться ходить, прежде чем начинать бегать. Думаю, мы уже научились ходить, и теперь, по-моему, мы готовы начать бегать."

Интригует.

@cgevent
13🔥6👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Еще один пример World Knowledge у Gemini Omni Flash

Ей не надо прописывать каждый шаг, достаточно сформулировать концепцию видео.
Она сама находит теорию, описания объектов и деталей, визуализирует их, добавляет текст.
Образование не будет прежним.

P.S. Режиссура образовательных роликов - это сторителлинг другого рода. Драки и погони не нужны. Нужны концепции. Их есть внутри.

@cgevent
🔥46👍87
Forwarded from Neural Shit
This media is not supported in your browser
VIEW IN TELEGRAM
Как тебе такое, Илон Маск?
😁91🔥17👎63
Media is too big
VIEW IN TELEGRAM
#Нейропрожарка

Рекламный ролик

Автор: Stasy Smith

Забрел в Беханс клиент с заказом: серия забавных рекламных роликов для компании-производителя ЖБИ. Собственно, на этом ТЗ закончилось... :) Заказ мечты, очевидно.

Из предложенных идей утвердили историю с маскотом: железобетонный блок Олег, который спасает ситуации на стройках. Во второй серии к нему присоединились в качестве постоянных участников Прораб и двое рабочих - Геннадий и Константин, очень уж они клиентам понравились. На каждый ролик - примерно неделя работы (вместе с прокрастинацией, другими проектами и правками).

Сценарий - из головы (кроме второй серии, та - чистый плагиат), ключи - НаноБанана и ГПТ-имедж, анимация - Клинг, Грок, Сора. Начиная с третьего ролика, Сиданс. Звук - Илеванлабз, Суно и бесплатные коллекции. Всё клепалось в одно жало, так как проект скорее не коммерческий, а ламповый - повеселить партнеров, разбавить рассылку прайс-листов.

Сейчас есть четыре серии примерно по минуте каждая, можно посмотреть тут https://www.youtube.com/@neuralSmith/shorts

@cgevent
👎63😁25👍10🔥2😱2