Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Tenstorrent — новый конкурент Nvidia в потребительском и серверном сегменте GPU.

У истоков компании Джим Келлер, архитектор микропроцессоров Apple, AMD, и Tesla, занимающийся этим уже 40 лет. Он был ведущим разработчиком чипа для автопилота Tesla, а также процессоров Athlon и Ryzen, позволивших AMD забрать у Intel ощутимую часть рынка.

Tenstorrent выпускают GPU на основе открытой модульной архитектуры RISC-V, с возможностью расширения набора инструкций под задачи и оптимизации разных AI моделей для запуска на их железе. Также эти GPU используют технологию network on chip для обмена данными между разными частями микросхемы с помощью сетевой архитектуры, что позволяет ускорить обработку данных и легко масштабироваться.

В отличие от Nvidia, аппаратные решения которых являются закрытыми для разработчиков, Tenstorrent полностью открывают в опенсорс программный стек, позволяя разработчикам получить доступ к железу на всех уровнях. Есть SDK для работы на софтверном уровне (TT-Buda), аппаратном (TT-Metalium), а также компилятор TT-Forge для работы с разными ML-фреймворками.

Продукты:

* Blackhole p100 ($999) — 28 ГБ GDDR6 // TDP 300 Ватт // активное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 120 Tensix ядер // без входа Ethernet.

* Blackhole p150 ($1399) — 32 ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2-слотовая // PCIe 5 // ATX 3.1 // 16 RISC-V ядер и 140 Tensix ядер // есть 4 Ethernet порта для объединения памяти нескольких видюх в общий пул.

* Wormhole n150 (от $999) — 12ГБ GDDR6 // TDP 160 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 72 Tensix ядра // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* Wormhole n300 (от $1399) — 24ГБ GDDR6 // TDP 300 Ватт // активное или пассивное охлаждение // 2 или 3-слотовая (зависит от охлада) // PCIe 4 // 128 Tensix ядер // есть 2 Ethernet порта и мосты а-ля SLI для объединения памяти нескольких видюх в общий пул.

* TT-Quietbox Blackhole ($11 999) — рабочая станция с жидким охлаждением на базе 4 Blackhole p150 для запуска неквантованных 80B моделей или множества мельче. Внутри 128 ГБ GDDR6 // 48 RISC-V ядер и 480 Tensix ядер // 256 ГБ DDR5 // CPU AMD EPYC 8124P // 10 Гбитные Ethernet порты // 4 TB NVMe SSD.

* Есть ещё рабочая станция TT-Quietbox Wormhole ($15 000) с жидким охлаждением на базе 4 Wormhole n300 c 96 ГБ VRAM и TT-LoudBox тоже с 96ГБ VRAM, но воздушным охлаждением. Для корпоративных клиентов имеется сервер Tenstorrent Galaxy с 32 Wormhole n150 (384 ГБ VRAM) и рэковая стойка из 6 таких (2304 ГБ VRAM).

Можно погонять в облаке на Koyeb. Пока доступны только Wormhole n300 (24 ГБ) или 4xn300 (96 ГБ), причём ограниченное количество времени бесплатно. Но команда вручную апрувит доступ к ним на 2 недели, так что придётся подождать.

Есть живое сравнение n150 и 4090 на ламе 3.1 от Стаса. n150 выдаёт 26 токенов/сек, а 4090 уже 58 ток/сек, но цена первой $999, а второй значительно выше $2000 у него на видео. Так что по соотношению цена/токен получается весьма неплохо. И это ещё нет публичных тестов n300 и Blackhole серии. Надо кстати ещё иметь ввиду, что драйвера пока есть только на Ubuntu.

Из нейронок на данный момент в основном поддерживаются разные языковые модели (DeepSeek, QwQ, лама, итд). Я спросил в их дискорде про генерацию видео и картинок: сказали в тестовом режиме поддерживают SD 3.5... Так себе вариант конечно. Хотя на недавней презе показали, что Tensеorrent может гонять Mochi, что уже хорошо. Посмотрим, что будет дальше. Список готовых к запуску моделей у них на портале.

Сайт
Гитхаб
Дискорд
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
JEN: этот музыкальный генератор выкатил фичу StyleFilter, позволяющую применить к сгенерированному на платформе треку стиль артиста из библиотеки. При этом музыкант получает выплаты. Я писал, что подобное будет, и вот мы уже здесь.

Работает это через маркетплейс, где ты выбираешь артиста и конкретный трек, стиль которого надо применить. Дальше, покупаешь фильтр либо со слабым следованием стилю за $4.99 либо с сильным за $7.99. Сколько с этого получает артист, каким образом, и в какие сроки неизвестно.

Подключается фильтр кнопкой в интерфейсе генерации рядом с Jenerate. Дальше пишем промт, слушаем превью как это будет звучать, и генерим. Применить можно максимум на 90 минут музыки.

Из артистов на данный момент доступна только Imogen Heap (подгружать свою музыку и тренировать лору нельзя). Плохо, что не дают менять стиль уже сгенерированных треков, или хотя бы услышать пусть и в зашакаленном превью как это могло бы быть, чтобы подстегнуть к покупке. При этом на странице фильтра внизу можно послушать треки, к которым фильтры уже применили, но без возможности переключить в оригинал это мало о чём говорит.

Собственно Riffusion, Suno, Udio уже наложение стиля предлагают по загруженным рефам. Причём Riffusion идёт дальше, позволяя персонализировать AI под свой стиль. А там глядишь и свои лоры тренировать дадут с монетизацией.

Проблема JEN остаётся прежней — плохое качество генерируемого материала (скорее всего из-за ограниченности датасета лицензионным каталогом). Пока они это не решат массовая аудитория не придёт.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Pika: теперь эффекты можно применять не только к картинкам, но и к видео.

На данный момент доступно 4 опции:
* It's Alive — оживление вещей
* Duplicate it — дублирование объектов в кадре
* Wizard Cat — шапка волшебника
* It's Computer — когда не прошёл капчу

Видео должно быть минимум 5 секунд длиной.

PS: Remade уже поди начали печь опенсорс версии версий для Wan и LTXV.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Higgsfield: выпустили Turbo версию своего генератора видео. Она в 1.5 раза быстрее базовой модели, на 30% дешевле, и генерации имеют приоритет в очереди.

Качество изображения на высоком уровне, а по реалистичности и динамике где-то даже превосходит конкурентов. Text-2-vid выдаёт 720p в 30fps, но на фантастичных сюжетах далёких от тренировочных датасетов легко словить шумы и артефакты. Для более стабильных результатов стоит использовать картинки, которые можно кормить разных размеров. Следованию промту хорошее (пусть и не без косяков) и есть улучшатель. Судя по черрипикам цензура лайтовая.

Отдельного внимания заслуживают пресеты движения камеры (похожее есть в Luma) и эффекты как в Pika. Их можно комбинировать и вес каждого менять ползунком как в Krea. Многие результаты на сайте и в твиттере выглядят довольно реалистично.

Сейчас они добавили 7 новых пресетов/эффектов:

* FACE PUNCH — удар в лицо, и не обязательно кулаком
* ARC (left/right) — облёт слева/справа
* JIB (up/down) — подъём/опускание камеры
* DOUBLE DOLLY — наезд или отъезд с изменением фокусного расстояния
* STATIC — статичная камера

Пресеты можно запускать без промта, но он не помешает. Я задал ARC RIGHT вокруг кота, а камера стала крутиться влево. Kling с этим справился ловчее, в том числе в плане качества.

Бесплатного аккаунта хватит на два видео и пару картинок. Одно видео генерится минут 10. Подписка от $9.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Двойной 3D удар!

CSM: организовали на сайте редактирование 3D объектов чатом. Можно: вытаскивать объекты из сцены для img-2-3D; сегментировать на отдельные элементы чтобы потом собрать вместе, например, в блендоре; менять/удалять объекты, или менять их позу.

Есть 10 бесплатных кредитов в месяц на тесты.

Хуньянь-3D: на сайте обновился до V2.5. Количество параметров увеличилось в 10 раз до 10B. Вместе с этим улучшилась и детализация 3D объектов, появилась поддержка текстур высокого качества, и авториг (похожее недавно опенсорснули Tripo в UniRig)

В опенсорс в отличие от V2 модель не пошла (по крайне мере пока). Более детальный взгляд на релиз у Сергея в 4 постах.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Hailuo: добавили персонализацию (Subject reference) для генерации изображений. До этого оно работало только для видео.

Можно загрузить фото целевой персоны, создать несколько кадров, и понравившийся сгенерить в видео.

От одного фото многого ожидать не стоит, если только персоны уже не было в тренировочном датасете Hailuo. Если вы вкинули фото под углом, модель по умолчанию будет тянуть отобразить персонажа под тем же углом. Шаг в сторону и она начнёт терять пропорции, ибо не знает реальных данных персонажа. Ситуация ухудшается с отдалением от камеры.

Если они предложат тренировку на своём датасете по фото или видео, это может измениться.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI: запустили генерацию картинок моделью gpt-image-1 через API. Можно попробовать на Playground.

Она может использоваться как для создания новых изображений, редактирования существующих (например, для смены стиля), или композиции разных объектов вместе.

Работает с разрешениями 1024х1024, 1024х1536 (портрет), или 1536x1024 (пейзаж). Может выдавать картинки с прозрачным фоном. Есть три режима качества Low, Medium, High, каждый из которых потребляет своё количество токенов. Финальная цена за генерацию = количество входных токенов + токенов на редактирование img2img + выходных токенов.

На генерацию может уйти пара минут. Возможны проблемы с рендерингом текста, стабильностью персонажей, и композицией.

Либо можно воспользоваться платформами, на которые модель уже подрубили:

Comfy
Higgsfield
Krea
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Wan: Alibaba выпустили обновлённый V 1.1 Fun контролнет для WAN.

Повысилось качество, стало больше динамики, и меньше артефактов. Помимо контроля видео по 2 кадрам, Canny, Depth, Pose, MLSD и траектории, теперь есть работа с референсным изображением, например, для анимации аватаров.

Также появились отдельные модели для управления камерой. Движения базовые (влево / вправо / вверх / вниз), но их можно комбинировать.

Натренировано выдавать до 81 кадра на 16 fps в разных разрешениях (512, 768, 1024). Минимум нужно 12 ГБ VRAM, для модели 1.3B. Для 14B лучше иметь 24ГБ+ VRAM.

Гитхаб
Хаггинг
Comfy (официальное)
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM