Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Luma: выпустили инструмент Modify Video для своего видеогенератора Ray2.

Позволяет через vid-2-vid сменить стиль видео длиной до 10 сек с сохранением динамики персонажей, лицевой анимации, и деталей фона. Или изолировать отдельные элементы вроде одежды, лиц, и предметов, чтобы стайлтрансфер их не касался.

Можно скармливать как футажи с телефона, так и 3D превизы. И подавать вместе с этим на вход визуальные референсы для больше контроля контента на выходе.

В плане качества пока в глаза бросаются артефакты. Если только что-то стилизованное делать вроде мультипликации. Runway с Gen-4 по ощущениям ушли вперед, да собственно и опенсорс см VACE не отстаёт. Хотя Luma в анонсе бок-о-бок сравнивают себя Runway, показывая что у них лучше отрабатывает динамика.

Пока раскатано на Unlimited и Enterprise тарифы.

Анонс
Сайт
1
This media is not supported in your browser
VIEW IN TELEGRAM
FishAudio: выпустили генератор речи OpenAudio S1.

Модель натренирована на 2 млн часов аудио, поддерживает клонирование голоса, настройку эмоций, тона, и эффектов вроде смеха толпы или стонов やめて下さい

На сайте нет генерации на русском, как и про это не сказано в анонсе. Но если вкинуть русский текст и выбрать инглишь, то модель спокойно произнесет его, просто с английским акцентом. То бишь из 2 млн часов на русском что-то в ней есть. Собственно на хаггинге указано, что опенсорсная версия поддерживает русский.

Есть две модели: полная S1 размером 4B, которая доступна только на сайте, и S1-mini, размером 0.5B выложенная в опенсорс и доступная в демке на хаггинге. Также скоро выпустят модель для перевода голоса в текст с разбивкой по спикерам и описанию эмоций.

Mini модель кушает 10 ГБ VRAM. Возможно поэтому крупняк и не выложили. Или просто ход для монетизации. Видео-рисовую братву гигантские размеры моделей никогда не останавливали от доминирования пространства твоего SSD/VRAM.

А вчера мы на руки получили ттс PlayDiffusion с контролем речи.

Анонс
Демо (сайт)
Демо (хаггинг)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
А вот это уже хорошо. В Comfy на следующей неделе добавят возможность не просто группировать ноды, а объединять куски воркфлоу в суб-графы. Собственно групповые ноды автоматом будут заменены на них.

Помимо очевидного использования для причёсывания хаоса, это ещё интересно тем, что потенциально можно много ворфлоу сцеплять между собой, например для генерации длительной сцены (благодаря новым методам и оптимизациям мы в любом случае к этому придём). Если нужно что-то в кадре изменить, суб-граф можно раскрыть, поменять промт, параметры, итд.

Можно даже вкладывать суб-граф внутрь суб-графа внутрь суб-графа....

При этом, если найден баг и он исправлен в одном инстансе, то остальные в воркфлоу обновляются автоматом. А если нужно, чтобы они работали изолированно: клонируете суб-граф, это делает его уникальным, и правки применяются только к нему.

Кому не терпится ветка с суб-графами уже публична на гитхабе фронтенда Comfy.

Анонс
Гитхаб
Это самое качественное 4D из сплатов, которое я видел на данный момент.

Пока для его создания нужен риг из множества камер. Но учитывая как развивается генерация видео и 3D, скоро можно будет полученные сцены конвертить в 4D, чтобы зритель мог как угодно крутить камерой.

Покрутить камеру
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: добавили информационные страницы, призванные помочь разобраться с нодами. И собираются обновить сами ноды до V3, чтобы уменьшить количество конфликтов в воркфлоу.

WanGP: в фреймворк для запуска видеомоделей на малом количестве VRAM добавлен Hunyuan Video Avatar. Требования снижены до 10 ГБ VRAM.

Epic Games: в рамках конференции State of Unreal представили Unreal Engine 5.6 и обновлённый Metahuman, с помощью которого можно делать реалистичные анимации персонажей, используя, например, вебку или камеру смартфона. Также сделали AI-ассистента, помогающего в разработке контента для Fortnite и работе с Verse кодом.

Google: видеомодель Veo3 теперь доступна на Krea, Fal, Replicate и Flora.

Higgsfield: добавили Speak для генерации видео с липсинком.

Генератор LUT для цветокоррекции.

Pinokio: поменял домен на pinokio.co (со старым возникла проблема из-за Squarespace) и выпустил версию V 3.9 исправляющую не загружавшуюся страницу Discovery.

Хуньянь: выпустили код и веса для HunyuanCustom для создания видео из нескольких рефов.

Комфи ноды Gaze для отслеживания взгляда, и OmniConsistency для стайлтрансфера.

World Labs: выпустили в опенсорс Forge, движок для рендера сплатов в вебе. Гитхаб

Bytedance: релизнули ContentV, фреймворк для эффективной тренировки видеомоделей, и одноимённый видеогенератор размером 8B.

Nvidia: дропнули визуальный энкодер PS3-4K-SigLIP, вытаскивающий данные из изображений в разрешении до 4К.

Stability: выпустили обновление v 1.1 для своей виртуальной камеры. Теперь объект крутится не в отрыве от окружения.

DCM: ещё один ускоритель для видеомоделей. На примерах даёт 10х буст Хуньяню, сокращая генерацию с 1500 сек до 120 сек.

DualParal: метод генерации видео через распределенку.

Microsoft: выпустили Bing Video Creator, через который можно бесплатно погенерить видео через Sora.

🎸 ЗВУК 🎸

Suno: улучшили UI редактора треков и пришили больше контроля над генерируемой музыкой. Теперь можно загружать композиции длиной до 8 минут и вытаскивать до 12 стемов.

ElevenLabs: выпустили в альфа-режиме модель Eleven V3, которая звучит экспрессивно, чисто, и обладает рульками для контроля генерируемой речи. В демке на сайте на русском не пашет, но бравые подписчики нашли способ разговорить на русском через кастомные голоса. Также разговорные AI-агенты теперь поддерживают мультиголосовой режим.

Hume: релизнули генератор речи EVI 3, который может выдавать разные эмоциональные голоса, а не только на выбор из списка спикеров.

Heygen: запустили AI Studio для создания аватаров с клонированием/переносом голоса (Voice Mirroring), его контролем (Voice Director), и не только.

🤖 ЧАТЫ 🤖

n8n: в фреймворке для автоматизации AI-агентов теперь можно с помощью Evaluations оценивать работоспособность собранного воркфлоу без влияния на продакшен.

Qwen: выпустили серию моделей Embedding плюс Reranker для генерации вытаскивания инфы из документов, RAG, классификации, итд.

Xenova: сделал WebGPU варики на новые модели Qwen и приложение для реалтайм общения с ллм в браузере.

Hcompany: выпустили AI-агента Holo1 в размерах от 3B до 7B для выполнения заданий в вебе.

VideoXL2: опенсорсная модель для понимания длинных видео и чата по ним.

Sakana: представили машину Гёделя, которая пишет свой код и сама себя улучшает.

Google: обновили ллм Gemini 2.5 Pro, улучшив результаты в рассуждениях, кодинге, и науке. А ещё недавно они выпустили приложение Gallery для запуска ллм у себя на Android или iOS.

OpenAI: немного улучшили кросс-чатовую память для бесплатных пользователей. Также раскатали Codex на владельцев Plus подписки, дали ChatGPT возможность тянуть реалтайм данные из внутренней документации, и обновили расширенный голосовой режим.
This media is not supported in your browser
VIEW IN TELEGRAM
Apple анонсировали, что WebGPU заедет в Safari 26 в бета-режиме. До этого она в течение года работала в превью.

WebGPU это технология для рендера 3D и запуска AI прямо в браузере без необходимости установки — модель и сопутствующие файлы ставятся сами на фоне. Можно гонять игры, сайты с графикой, генераторы текста/ картинок/ музыки/ итд.

Компания считает WebGPU заменит WebGL на операционках их экосистемы, она лучше работает с железом и графическим API Metal, а также предпочтительней для новых сайтов и веб-приложений. Сделали для разработчиков видео о технологии WebGPU и её применении.

Вот вам приколюхи на WebGPU:
* сайт-визитка
* генератор речи на основе Kokoro
* FPS шутер
* и мой пост на тему как MPC толпа может использовать WebGPU

Анонс
Видео про WebGPU от Apple
This media is not supported in your browser
VIEW IN TELEGRAM
Comfy воркфлоу для Wan VACE, чтобы генерить залупленные зацикленные видео. Не пинг-понгом единым.

Для рилсов пойдёт.

Гитхаб
Adobe: ...ты ли это?

Представили метод Self Forcing, позволяющий генерить видео реалтайм в режиме стриминга на одной 4090.

Технология имитирует процесс инференса во время тренировки видеомодели, выполняя авторегрессионную развертку с KV-кэшированием. Это позволяет добиться высокого соответствия выходных результатов оригинальным видосам.

Сделали модель на основе Wan 2.1, которая после разогрева в 0,8 сек генерирует 480p 10 fps в реалтайме на 4090. На H100 выдаёт 16 fps. В целом по требованиям нужно минимум 24 ГБ VRAM и 64 ГБ RAM (первый раз как-то явно RAM прописывается).

В отличии от большинства анонсов Адоба, где тебе только пускают бумажную пыль в глаза, здесь есть код. Но тестировалось только на Linux. Ну штош Ubuntu, настало твоё время.

Сайт
Гитхаб
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Topaz: запустили креативный апскейлер Astra для повышения разрешения видео до 4к, интерполяции кадров до 120 fps (или х8 слоумо), и генерации новых деталей.

При этом может работать в Precise режиме, чтобы максимально придерживаться оригинала. Есть выбор фокуса на качестве или на скорости. Последний вариант в 4 раза быстрее и в 3 раза дешевле модели Starlight.

До этого они представили линейку моделей Bloom для креативного апскейла картинок.

Пока доступно в приватном режиме. Доступ запрашивается у них в комментах в твитторе.

Анонс
Сайт
Работа члена нашего сообщества @evgenypyrev

Дальше слова автору:

Привет! Коммент к кейсу

Чтобы сделать этот ролик и понять, что подойдёт под нашу задачу, нам понадобилось протестировать все самые современные модели генерации видео.

На самом деле первая версия, которую мы сделали, была достаточно простой и плоской — мы выбрали чисто иллюстративный стиль. Но в процессе генерации мы обнаружили, что нейросети придают плоской иллюстрации необычный объём.

Зацепившись за этот подход, мы решили сделать стиль, похожий на анимационный фильм «Spider-Man».

Производственный стек: Runway, Sora, Flow, Kling, Krea, Midjourney, Higgsfield, Luma, DaVinci Resolve, Adobe After Effects.

Также мы поставили себе задачу сделать ролик насыщенным брендингом. Поэтому все актёры в кроссовках Adidas с узнаваемыми тремя полосками, а логотипы появляются в течение всего ролика.

Кроме того, мы постарались выдержать единый сеттинг по цвету и стилю, что было непросто, так как генерация пока не сильно управляема. Мы в основном использовали image-to-video, поэтому перед генерацией приходилось дорабатывать имиджи вручную.

Ещё протестировали технологию наложения на видео определённого стилистического фильтра — в некоторых кадрах это получилось сделать.

Мы считаем, что при создании AI-видео прежде всего нужно добиваться цельности. Это помогает создать ощущение, что это не просто нарезка кадров, а цельная история, в которую веришь.

Нам часто задают вопросы, как мы это сделали, и многие даже переспрашивают: «Точно вы делали это видео?».
На самом деле это приятно :) и мотивирует создавать ещё больше новых роликов.

Щи Продакшен
Режиссёр, AI-продюсер — Евгений Пырьев @brandiver
AI-продюсер, моушен-дизайнер — Александр Мартынов
Только мы разговаривали про 4D видео из сплатов, где можно свободно менять угол обзора, но нужен риг из множества камер.

А сегодня Nvidia опубликовала код видео модели GEN3C, в котором можно брать на вход одну картинку, двигать камерой внутри сцены словно в 3D пространстве, и получать видео с нужным пролётом камеры. Альтернативно можно подавать несколько картинок или видео.

Под капотом используется 3D кэш в виде облака точек, полученного из карты глубины изображения или вытащенных кадров. Для генерации новых видов GEN3C задействует траекторию движения камеры от юзера и 2D рендеры 3D кэша. GEN3C можно подрубать к разным видео генераторам, например, видосы выше сгенерированы в Cosmos и есть примеры на SVD.

Про потребление VRAM не сказано, однако чуваку в твиттере 48 ГБ VRAM не хватает. Есть скрипт для запуска на одном GPU и на Multi-GPU. Зато интерфейс с рульками удобными. И да, только Linux... хэй Ubuntu... кыс-кыс!

Сайт
Гитхаб
Fal: говорят, что они первыми наваяли у себя вертикальные видео в Veo3.

Проблема в том, что похоже это аутпейнт. Причём и на сайте у них, и в превью на компе — полученное видео отображается как вертикальное, а стоит его воспроизвести или загрузить в телегу, ты видишь только горизонтальное (см. второе видео). Что занятно, первое видео скачано из твиттера FAL и оно действительно вертикальное.

А ещё сами гугл выкатили Veo3 Fast, доступную во Flow и приложении Gemini. Цена в 5 раз дешевле (20 кредитов против 100 за видео), скорость в 2 раза быстрее, качество и длительность те же: 720p и 8 сек. Третье видео Fast, четвёртое Quality.

Fast больше подходит для превью перед генерацией в качестве. Но народ в целом жалуется в твитторе на Veo3 из-за высокой стоимости, и запоротых генераций, за которые всё равно идёт списание.