Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
PlayAI: выпустили в опенсорс генератор речи PlayDiffusion с возможность редактирования сказанного.

Традиционные модели на авторегрессии для этого не предназначены — они либо генерируют все заново (теряя ритм), либо выпячивают артефакты, либо ломают произношение на границах редактирования.

PlayDiffusion использует другой подход. Он выполняет инпейтинг поверх дискретных токенов аудио, маскируя область под замену, и генерирует новую версию, которая плавно сливается с окружающей речью. Работает как с реальным, так и с синтетическим аудио.

Модель используется под капотом их недавно внедрённого редактора речи Speech Editor. Можно вкидывать видео или просто аудио длиной до 50 секунд, и после распознавания речи, менять слова. На русском работает хуже, чем на инглише, но работает. Лицензия Apache 2, разрешающая коммерческое использование.

Ещё подрубили инструмент для липсинка. Его бы тоже в опенсорс.

PlayDiffusion должна запуститься на массовом железе. Если что, есть онлайн демка на хаггинге.

Демо (сайт PlayAI)
Демо (хаггинг)
Анонс
Гитхаб
Хаггинг
Там на Runpod завезли RTX 6000 PRO с 96 ГБ VRAM. Та самая видюха в форм-факторе обычной 2-слотовой карты, но по цене $10 000. А на ранподе аренда $1,79/час.

При этом H100 стоит $2,39/час, а А100 $1,64/час, но у них по 80 ГБ VRAM. То есть это самое дешевое решение с таким объёмом VRAM внутри одной видюхи. Остальные потребуют multi-GPU, и там будут свои ограничения.

Вместе с этим Runpod в бета-режиме запустили Hub, через который AI-приложения можно разворачивать в пару кликов в serverless режиме, то есть с оплатой только за использование, а не по времени.

Runpod
Обзор (Level1)
Обзор (Der8auer)
Замена головы сына Арнольда на него самого с помощью Wan VACE.

Выглядит весьма хорошо на средних планах. На крупных как обычно могут выдавать глаза, но в целом тоже неплохо. Если вам нужно поменять актёра, но дипфейк лица не походит голове по пропорциям, то можно попробовать это решение.

Воркфлоу для Comfy лежит на OpenMuse. Я его когда закинул, сначала глазами начал вскарабкиваться по стене кастомных нод, которые надо установить. Затем, когда всё поставил и перезапустил комфи, моментально был ослеплён сложносочинённой поэзией этой бешенной вермишели. В бортовом компьютере космического корабля рулек и то меньше будет.

Когда нащупал кнопку Вася Run выяснилось, что это ещё не всё, и некоторые ноды надо поставить с гитхаба напрямую в Custom Nodes, ибо их нет в менеджере.

Ок, поставил, запустил. Первый раз мне выдало ошибку, что что-то не так с Depth Crafter. Я оставил как есть, закрыл и ушел. Когда запустил заново, ошибка была уже в чём-то другом, а лог километровой длины. Comfy-лутбоксики, каждый раз что-то новое.

Если у вас запустится, скидывайте результаты в комменты.

Comfy воркфлоу
Luma: выпустили инструмент Modify Video для своего видеогенератора Ray2.

Позволяет через vid-2-vid сменить стиль видео длиной до 10 сек с сохранением динамики персонажей, лицевой анимации, и деталей фона. Или изолировать отдельные элементы вроде одежды, лиц, и предметов, чтобы стайлтрансфер их не касался.

Можно скармливать как футажи с телефона, так и 3D превизы. И подавать вместе с этим на вход визуальные референсы для больше контроля контента на выходе.

В плане качества пока в глаза бросаются артефакты. Если только что-то стилизованное делать вроде мультипликации. Runway с Gen-4 по ощущениям ушли вперед, да собственно и опенсорс см VACE не отстаёт. Хотя Luma в анонсе бок-о-бок сравнивают себя Runway, показывая что у них лучше отрабатывает динамика.

Пока раскатано на Unlimited и Enterprise тарифы.

Анонс
Сайт
1
This media is not supported in your browser
VIEW IN TELEGRAM
FishAudio: выпустили генератор речи OpenAudio S1.

Модель натренирована на 2 млн часов аудио, поддерживает клонирование голоса, настройку эмоций, тона, и эффектов вроде смеха толпы или стонов やめて下さい

На сайте нет генерации на русском, как и про это не сказано в анонсе. Но если вкинуть русский текст и выбрать инглишь, то модель спокойно произнесет его, просто с английским акцентом. То бишь из 2 млн часов на русском что-то в ней есть. Собственно на хаггинге указано, что опенсорсная версия поддерживает русский.

Есть две модели: полная S1 размером 4B, которая доступна только на сайте, и S1-mini, размером 0.5B выложенная в опенсорс и доступная в демке на хаггинге. Также скоро выпустят модель для перевода голоса в текст с разбивкой по спикерам и описанию эмоций.

Mini модель кушает 10 ГБ VRAM. Возможно поэтому крупняк и не выложили. Или просто ход для монетизации. Видео-рисовую братву гигантские размеры моделей никогда не останавливали от доминирования пространства твоего SSD/VRAM.

А вчера мы на руки получили ттс PlayDiffusion с контролем речи.

Анонс
Демо (сайт)
Демо (хаггинг)
Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
А вот это уже хорошо. В Comfy на следующей неделе добавят возможность не просто группировать ноды, а объединять куски воркфлоу в суб-графы. Собственно групповые ноды автоматом будут заменены на них.

Помимо очевидного использования для причёсывания хаоса, это ещё интересно тем, что потенциально можно много ворфлоу сцеплять между собой, например для генерации длительной сцены (благодаря новым методам и оптимизациям мы в любом случае к этому придём). Если нужно что-то в кадре изменить, суб-граф можно раскрыть, поменять промт, параметры, итд.

Можно даже вкладывать суб-граф внутрь суб-графа внутрь суб-графа....

При этом, если найден баг и он исправлен в одном инстансе, то остальные в воркфлоу обновляются автоматом. А если нужно, чтобы они работали изолированно: клонируете суб-граф, это делает его уникальным, и правки применяются только к нему.

Кому не терпится ветка с суб-графами уже публична на гитхабе фронтенда Comfy.

Анонс
Гитхаб
Это самое качественное 4D из сплатов, которое я видел на данный момент.

Пока для его создания нужен риг из множества камер. Но учитывая как развивается генерация видео и 3D, скоро можно будет полученные сцены конвертить в 4D, чтобы зритель мог как угодно крутить камерой.

Покрутить камеру
Дайджест:

📹 ВИДЕО + АРТ 🎨

Comfy: добавили информационные страницы, призванные помочь разобраться с нодами. И собираются обновить сами ноды до V3, чтобы уменьшить количество конфликтов в воркфлоу.

WanGP: в фреймворк для запуска видеомоделей на малом количестве VRAM добавлен Hunyuan Video Avatar. Требования снижены до 10 ГБ VRAM.

Epic Games: в рамках конференции State of Unreal представили Unreal Engine 5.6 и обновлённый Metahuman, с помощью которого можно делать реалистичные анимации персонажей, используя, например, вебку или камеру смартфона. Также сделали AI-ассистента, помогающего в разработке контента для Fortnite и работе с Verse кодом.

Google: видеомодель Veo3 теперь доступна на Krea, Fal, Replicate и Flora.

Higgsfield: добавили Speak для генерации видео с липсинком.

Генератор LUT для цветокоррекции.

Pinokio: поменял домен на pinokio.co (со старым возникла проблема из-за Squarespace) и выпустил версию V 3.9 исправляющую не загружавшуюся страницу Discovery.

Хуньянь: выпустили код и веса для HunyuanCustom для создания видео из нескольких рефов.

Комфи ноды Gaze для отслеживания взгляда, и OmniConsistency для стайлтрансфера.

World Labs: выпустили в опенсорс Forge, движок для рендера сплатов в вебе. Гитхаб

Bytedance: релизнули ContentV, фреймворк для эффективной тренировки видеомоделей, и одноимённый видеогенератор размером 8B.

Nvidia: дропнули визуальный энкодер PS3-4K-SigLIP, вытаскивающий данные из изображений в разрешении до 4К.

Stability: выпустили обновление v 1.1 для своей виртуальной камеры. Теперь объект крутится не в отрыве от окружения.

DCM: ещё один ускоритель для видеомоделей. На примерах даёт 10х буст Хуньяню, сокращая генерацию с 1500 сек до 120 сек.

DualParal: метод генерации видео через распределенку.

Microsoft: выпустили Bing Video Creator, через который можно бесплатно погенерить видео через Sora.

🎸 ЗВУК 🎸

Suno: улучшили UI редактора треков и пришили больше контроля над генерируемой музыкой. Теперь можно загружать композиции длиной до 8 минут и вытаскивать до 12 стемов.

ElevenLabs: выпустили в альфа-режиме модель Eleven V3, которая звучит экспрессивно, чисто, и обладает рульками для контроля генерируемой речи. В демке на сайте на русском не пашет, но бравые подписчики нашли способ разговорить на русском через кастомные голоса. Также разговорные AI-агенты теперь поддерживают мультиголосовой режим.

Hume: релизнули генератор речи EVI 3, который может выдавать разные эмоциональные голоса, а не только на выбор из списка спикеров.

Heygen: запустили AI Studio для создания аватаров с клонированием/переносом голоса (Voice Mirroring), его контролем (Voice Director), и не только.

🤖 ЧАТЫ 🤖

n8n: в фреймворке для автоматизации AI-агентов теперь можно с помощью Evaluations оценивать работоспособность собранного воркфлоу без влияния на продакшен.

Qwen: выпустили серию моделей Embedding плюс Reranker для генерации вытаскивания инфы из документов, RAG, классификации, итд.

Xenova: сделал WebGPU варики на новые модели Qwen и приложение для реалтайм общения с ллм в браузере.

Hcompany: выпустили AI-агента Holo1 в размерах от 3B до 7B для выполнения заданий в вебе.

VideoXL2: опенсорсная модель для понимания длинных видео и чата по ним.

Sakana: представили машину Гёделя, которая пишет свой код и сама себя улучшает.

Google: обновили ллм Gemini 2.5 Pro, улучшив результаты в рассуждениях, кодинге, и науке. А ещё недавно они выпустили приложение Gallery для запуска ллм у себя на Android или iOS.

OpenAI: немного улучшили кросс-чатовую память для бесплатных пользователей. Также раскатали Codex на владельцев Plus подписки, дали ChatGPT возможность тянуть реалтайм данные из внутренней документации, и обновили расширенный голосовой режим.
This media is not supported in your browser
VIEW IN TELEGRAM
Apple анонсировали, что WebGPU заедет в Safari 26 в бета-режиме. До этого она в течение года работала в превью.

WebGPU это технология для рендера 3D и запуска AI прямо в браузере без необходимости установки — модель и сопутствующие файлы ставятся сами на фоне. Можно гонять игры, сайты с графикой, генераторы текста/ картинок/ музыки/ итд.

Компания считает WebGPU заменит WebGL на операционках их экосистемы, она лучше работает с железом и графическим API Metal, а также предпочтительней для новых сайтов и веб-приложений. Сделали для разработчиков видео о технологии WebGPU и её применении.

Вот вам приколюхи на WebGPU:
* сайт-визитка
* генератор речи на основе Kokoro
* FPS шутер
* и мой пост на тему как MPC толпа может использовать WebGPU

Анонс
Видео про WebGPU от Apple
This media is not supported in your browser
VIEW IN TELEGRAM
Comfy воркфлоу для Wan VACE, чтобы генерить залупленные зацикленные видео. Не пинг-понгом единым.

Для рилсов пойдёт.

Гитхаб
Adobe: ...ты ли это?

Представили метод Self Forcing, позволяющий генерить видео реалтайм в режиме стриминга на одной 4090.

Технология имитирует процесс инференса во время тренировки видеомодели, выполняя авторегрессионную развертку с KV-кэшированием. Это позволяет добиться высокого соответствия выходных результатов оригинальным видосам.

Сделали модель на основе Wan 2.1, которая после разогрева в 0,8 сек генерирует 480p 10 fps в реалтайме на 4090. На H100 выдаёт 16 fps. В целом по требованиям нужно минимум 24 ГБ VRAM и 64 ГБ RAM (первый раз как-то явно RAM прописывается).

В отличии от большинства анонсов Адоба, где тебе только пускают бумажную пыль в глаза, здесь есть код. Но тестировалось только на Linux. Ну штош Ubuntu, настало твоё время.

Сайт
Гитхаб
Хаггинг
This media is not supported in your browser
VIEW IN TELEGRAM
Topaz: запустили креативный апскейлер Astra для повышения разрешения видео до 4к, интерполяции кадров до 120 fps (или х8 слоумо), и генерации новых деталей.

При этом может работать в Precise режиме, чтобы максимально придерживаться оригинала. Есть выбор фокуса на качестве или на скорости. Последний вариант в 4 раза быстрее и в 3 раза дешевле модели Starlight.

До этого они представили линейку моделей Bloom для креативного апскейла картинок.

Пока доступно в приватном режиме. Доступ запрашивается у них в комментах в твитторе.

Анонс
Сайт
Работа члена нашего сообщества @evgenypyrev

Дальше слова автору:

Привет! Коммент к кейсу

Чтобы сделать этот ролик и понять, что подойдёт под нашу задачу, нам понадобилось протестировать все самые современные модели генерации видео.

На самом деле первая версия, которую мы сделали, была достаточно простой и плоской — мы выбрали чисто иллюстративный стиль. Но в процессе генерации мы обнаружили, что нейросети придают плоской иллюстрации необычный объём.

Зацепившись за этот подход, мы решили сделать стиль, похожий на анимационный фильм «Spider-Man».

Производственный стек: Runway, Sora, Flow, Kling, Krea, Midjourney, Higgsfield, Luma, DaVinci Resolve, Adobe After Effects.

Также мы поставили себе задачу сделать ролик насыщенным брендингом. Поэтому все актёры в кроссовках Adidas с узнаваемыми тремя полосками, а логотипы появляются в течение всего ролика.

Кроме того, мы постарались выдержать единый сеттинг по цвету и стилю, что было непросто, так как генерация пока не сильно управляема. Мы в основном использовали image-to-video, поэтому перед генерацией приходилось дорабатывать имиджи вручную.

Ещё протестировали технологию наложения на видео определённого стилистического фильтра — в некоторых кадрах это получилось сделать.

Мы считаем, что при создании AI-видео прежде всего нужно добиваться цельности. Это помогает создать ощущение, что это не просто нарезка кадров, а цельная история, в которую веришь.

Нам часто задают вопросы, как мы это сделали, и многие даже переспрашивают: «Точно вы делали это видео?».
На самом деле это приятно :) и мотивирует создавать ещё больше новых роликов.

Щи Продакшен
Режиссёр, AI-продюсер — Евгений Пырьев @brandiver
AI-продюсер, моушен-дизайнер — Александр Мартынов