Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
SkyWorks: выпустили в опенсорс версию V2 своего видеогенератора SkyReels. Писал о них ранее.

В тираж пошли две модели: большая на 14B параметров и мелкая на 1.3B. Выдают видео в разрешении 540p (544 х 960) или 720p (720 x 1280). Позже в опенсорс прибудет промежуточная модель на 5B параметров и модель для управления камерой. 1.3B и 5B могут генерить видео длиной до 97 кадров, а 14B до 121 кадра.

При этом фичей данного релиза является Infinite Length или Diffusion Forcing — возможность создавать видео любой длины. Работает как отдельная модель с приставкой DF, которая может брать на вход как текст, так и картинки. Пока только в 540p. Можно играться с количеством кадров идущих внахлест, но может упасть качество. Потенциально у нас может быть ещё один генератор длинных видосов как FramePack.

Под капотом используется мультимодальная языковая модель, которая которая описывает полное видео в общих чертах, а также остро-заточенные мелкие эксперты, описывающие кадры. Разрабы выпустили отдельно модель для аннотирования видео данных — SkyCaptioner-V1.

Для генерации видео с разрешением 540P с помощью модели 1.3B требуется около 15 ГБ VRAM, а для видео с тем же разрешением с помощью модели 14B около 52 ГБ VRAM.

Судя по 30 сек примерам с твиттера качество хорошее, и динамичность на длинной дистанции удерживается неплохо. Но при этом все репостят одни и те же видео, а на сайте не пишется генеришь ты в V2 или предыдущей модели.

Kijai уже веса наваял и воркфлоу на DF. Хотел погонять на винде на 4090, но выяснилось, что нужен triton. Поставил его, но всё равно не завелось. У кого линь скиньте в комментах, что у вас получилось.

Если появится онлайн демка пришью к посту.

Сайт
Гитхаб
Хаггинг
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Jawset: обновили до V 0.6 Postshot, софт в котором можно рендерить 3D объекты и сцены из фото/видео в виде сплатов. Релиз включает в себя некоторые фичи, мелькавшие в пре-релизах.

Что нового:
* Новый профиль тренировки Splat3 с высокой детализацией
* Фокусирование трени на конкретном регионе, чтобы ускорить процесс и сэкономить память
* Добавлено сглаживание (anti-aliasing)
* Новые инструменты для управления камерой и очистки сплатов
* Поддержка Nvidia 50-й серии
* Много мелких исправлений и улучшений.

Сайт
Анонс
Скачать
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Suno: добавили возможность загружать видео для замены дефолтной обложки.

Чтобы загрузить видео идём в библиотеку, через три точки открываем меню трека, наводим на Song Editor, выбираем Song Details. Появляется окно загрузки видео.

Требования:
* Вертикальный формат 9x16
* Как минимум 720px по высоте
* MP4, MOV
* Длина ограничена 10 секундами. Для шортсов/тиктоков пойдёт.

Также это означает, что у Suno начинает накапливаться датасет на основе видео. Быть может через некоторое время увидим от них возможность и генерить полноценные музыкальные клипы заодно. Или хотя бы загружать видео и генерить под него музыку.

Сайт
Твит
Про Suno V4
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
1
Там на Runpod завезли 5090. Цена $0,89/час.

Отличный вариант потестить видюхи, чтобы не ломать голову стоят ли они своих денег, и будут ли они тянуть ваши задачи. Собственно на ранподе я и сравнивал бок о бок 3090 и 4090 в генерации контента перед покупкой.

Runpod
Анонс
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Tenstorrent — новый конкурент Nvidia в потребительском и серверном сегменте GPU.

У истоков компании Джим Келлер, архитектор микропроцессоров Apple, AMD, и Tesla, занимающийся этим уже 40 лет. Он был ведущим разработчиком чипа для автопилота Tesla, а также процессоров Athlon и Ryzen, позволивших AMD забрать у Intel ощутимую часть рынка.

Tenstorrent выпускают GPU на основе открытой модульной архитектуры RISC-V, с возможностью расширения набора инструкций под задачи и оптимизации разных AI моделей для запуска на их железе. Также эти GPU используют технологию network on chip для обмена данными между разными частями микросхемы с помощью сетевой архитектуры, что позволяет ускорить обработку данных и легко масштабироваться.

В отличие от Nvidia, аппаратные решения которых являются закрытыми для разработчиков, Tenstorrent полностью открывают в опенсорс программный стек, позволяя разработчикам получить доступ к железу на всех уровнях. Есть SDK для работы на софтверном уровне (TT-Buda), аппаратном (TT-Metalium), а также компилятор TT-Forge для работы с разными ML-фреймворками.

Продукты:

* Blackhole p100 ($999) — 28 ГБ GDDR6 // TDP 300 Ватт // активное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 120 Tensix ядер // без входа Ethernet.

* Blackhole p150 ($1399) — 32 ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 140 Tensix ядер // есть 4 Ethernet порта для объединения памяти нескольких видюх в общий пул.

* Wormhole n150 (от $999) — 12ГБ GDDR6 // TDP 160 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 72 Tensix ядра // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* Wormhole n300 (от $1399) — 24ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 128 Tensix ядер // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* TT-Quietbox Blackhole ($11 999) — рабочая станция с жидким охлаждением на базе 4 Blackhole p150 для запуска неквантованных 80B моделей или множества мельче. Внутри 128 ГБ GDDR6 // 48 RISC-V ядер и 480 Tensix ядер // 256 ГБ DDR5 // CPU AMD EPYC 8124P // 10 Гбитные Ethernet порты // 4 TB NVMe SSD.

* Есть ещё рабочая станция TT-Quietbox Wormhole ($15 000) с жидким охлаждением на базе 4 Wormhole n300 c 96 ГБ VRAM и TT-LoudBox тоже с 96ГБ VRAM, но воздушным охлаждением. Для корпоративных клиентов имеется сервер Tenstorrent Galaxy с 32 Wormhole n150 (384 ГБ VRAM) и рэковая стойка из 6 таких (2304 ГБ VRAM).

Можно погонять в облаке на Koyeb. Пока доступны только Wormhole n300 (24 ГБ) или 4xn300 (96 ГБ), причём ограниченное количество времени бесплатно. Но команда вручную апрувит доступ к ним на 2 недели, так что придётся подождать.

Есть живое сравнение n150 и 4090 на ламе 3.1 от Стаса. n150 выдаёт 26 токенов/сек, а 4090 уже 58 ток/сек, но цена первой $999, а второй значительно выше $2000 у него на видео. Так что по соотношению цена/токен получается весьма неплохо. И это ещё нет публичных тестов n300 и Blackhole серии. Надо кстати ещё иметь ввиду, что драйвера пока есть только на Ubuntu.

Из нейронок на данный момент в основном поддерживаются разные языковые модели (DeepSeek, QwQ, лама, итд). Я спросил в их дискорде про генерацию видео и картинок: сказали в тестовом режиме поддерживают SD 3.5... Так себе вариант конечно. Хотя на недавней презе показали, что Tensеorrent может гонять Mochi, что уже хорошо. Посмотрим, что будет дальше. Список готовых к запуску моделей у них на портале.

Сайт
Гитхаб
Дискорд
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
JEN: этот музыкальный генератор выкатил фичу StyleFilter, позволяющую применить к сгенерированному на платформе треку стиль артиста из библиотеки. При этом музыкант получает выплаты. Я писал, что подобное будет, и вот мы уже здесь.

Работает это через маркетплейс, где ты выбираешь артиста и конкретный трек, стиль которого надо применить. Дальше, покупаешь фильтр либо со слабым следованием стилю за $4.99 либо с сильным за $7.99. Сколько с этого получает артист, каким образом, и в какие сроки неизвестно.

Подключается фильтр кнопкой в интерфейсе генерации рядом с Jenerate. Дальше пишем промт, слушаем превью как это будет звучать, и генерим. Применить можно максимум на 90 минут музыки.

Из артистов на данный момент доступна только Imogen Heap (подгружать свою музыку и тренировать лору нельзя). Плохо, что не дают менять стиль уже сгенерированных треков, или хотя бы услышать пусть и в зашакаленном превью как это могло бы быть, чтобы подстегнуть к покупке. При этом на странице фильтра внизу можно послушать треки, к которым фильтры уже применили, но без возможности переключить в оригинал это мало о чём говорит.

Собственно Riffusion, Suno, Udio уже наложение стиля предлагают по загруженным рефам. Причём Riffusion идёт дальше, позволяя персонализировать AI под свой стиль. А там глядишь и свои лоры тренировать дадут с монетизацией.

Проблема JEN остаётся прежней — плохое качество генерируемого материала (скорее всего из-за ограниченности датасета лицензионным каталогом). Пока они это не решат массовая аудитория не придёт.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Pika: теперь эффекты можно применять не только к картинкам, но и к видео.

На данный момент доступно 4 опции:
* It's Alive — оживление вещей
* Duplicate it — дублирование объектов в кадре
* Wizard Cat — шапка волшебника
* It's Computer — когда не прошёл капчу

Видео должно быть минимум 5 секунд длиной.

PS: Remade уже поди начали печь опенсорс версии версий для Wan и LTXV.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Higgsfield: выпустили Turbo версию своего генератора видео. Она в 1.5 раза быстрее базовой модели, на 30% дешевле, и генерации имеют приоритет в очереди.

Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.

Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.

Сейчас они добавили 7 новых пресетов/эффектов:

* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера

Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.

Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2