Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
StepFun: выпустили Step1X-Edit для редактирования картинок текстом. Можно использовать для добавления / изменения / удаления объектов в кадре или смены стиля.

Неплохо справляется, например, с рекламным контентом, где объект хорошо выделен в кадре. С надписями работает хуже, чем KV-Edit.

Чтобы гонять локально без оффлоада в RAM, нужно 43 ГБ или 50ГБ VRAM для работы c разрешением 512 или 1024 соответственно. С оффлоадом 26 ГБ или 29 ГБ. Сообщество уже наваяло fp8 веса: самый лайтовый вариант запуска 18 ГБ VRAM.

Демо
Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Bytedance: выпустили ID-Patch для групповой персонализации фото.

Демка работает с 2 персонами, но примеры есть и с 8. Закидываем фотки требуемых людей (порядок загрузки влияет на порядок в кадре), загружаем реф с позой, задаём промт + настройки, и генерим контент.

По скорости и качеству есть ощущение, что под капотом что-то вроде SD (апдейт, действительно SDXL). Лица шакалит даже если человек на фото прямо смотрит в камеру.

До этого они дропнули Infinite You (InfU) для генерации картинок с одной персоной.

Больше, чем с одним человеком в кадре работает ещё, например, InstantID.

Демо
Сайт
Гитхаб
Хаггинг
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
PlayAI: выпустили два продукта:

Audio Cleaner для очистки аудио от шума, Максимальная длина 160 секунд. Можно подгружать сразу видео, но лайв выступления сразу не стоит кормить ибо заточено голос вытаскивать. Похожая фича есть у ElenLabs, или можно использовать Audacity, iZotope RX, или Adobe Audition.

Voice Changer
Замена голоса на аудио или видео. Выбор даётся из библиотеки персонажей, но можно клонировать целевой голос — для этого есть либо Instant режим (достаточно 30 секунд аудио), либо High Fidelity с детальной проработкой (нужно 20минут аудио).

Есть 1000 бесплатных кредитов, чтобы попробовать.

Сайт
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Дайджест:

📹 ВИДЕО + АРТ 🎨

Wan: выпустили модель FLF2V с контролем по 2 кадрам, добавили на сайт бесплатную генерацию в Relax режиме (но генерит долго). Сообществом была адаптирована модель UniAnimate для анимации персонажей, и контроль кадра в Wan VACE через референс, v2v, или маску. Версия WanGP для слабых видюх теперь работает с FLF2V, управлением камерой от Recam Master, и может генерить длинные видео от SkyReels DF.

Comfy: добавилась поддержка Wan Fun, Wan FLF2V, Wan VACE, HiDream, pytorch 2.7+cu128, и не только.

Stability: в коллабе с AMD оптимизировали работу SD на Ryzen AI APU. До этого была оптимизация под видюхи Radeon.

Zluda: в CUDA для видюх AMD добавилась поддержка paddleocr.

Runway: добавили генерацию видео на основе нескольких рефов со стабильными персонажами и объектами (как в Kling, Wan или SkyReels). Пока доступно конкурсантам Gen48. Также Gen-4 теперь появился на мобиле (iOS).

Luma: представили пресеты движения камеры и сделали их доступными по API. А также организовали MCP сервер для десктопного Claude. Ещё видеомодель Ray 2 теперь добавлена в Adobe Firefly.

Pika: дропнули PikaTwists для реалистичного манипулирования персонажами или объектами на видео.

Kling: выпустили видеогенератор Kling V2 Master с улучшенным качеством изображения, следованием промту и движениями камеры. С помощью Multi-elements можно комбинировать объекты в кадре по рефам. Также выпустили KOLORS 2 для генерации/редактирования картинок или смены стиля. Помимо сайта Kling V2 доступен в Krea, Flora, итд. (спс @JohnDoe171)

Krea: сделали инструментарий для сборки сцен в 3D на основе картинок и текста для последующего рендера видео или изображений. Также организовали экспорт 3D сцен в Blender.

Adobe: выпустили генератор картинок Firefly Image Model 4, плюс версию Ultra с повышенным реализмом.

Bytedance: показали t2i модель Seedream 3 для генерации изображений в 2к на сайте + генератор видео Seaweed. Ещё выпустили Uno для композиции изображений по нескольким рефам. Гитхаб // Pinokio

Midjourney: обновили UI редактора, добавили редактирование по слоям, смарт-выделение, новый промт-бар, параметры weird / tile / remix добавили в V7, и не только.

Invoke: в этот опенсорсный фоторедактор завезли улучшенную поддержку Flux Redux, уменьшенное потребление VRAM, обновлённый лаунчер, который сам разбирается с зависимостями, и не только.

CraftsMan3D: Kijai наваял веса для этого генератора 3D.

ArtList: платформа для генерации картинок и видео. Хорошо слушается промта, выдаёт норм качество. Есть 5 бесплатных генераций.

SuperSplat: появилось выделение сплатов боксом, рендер выбранных областей, контроль цвета и фреймрейта.

PlayCanvas: улучшение в обработке теней сплатов, чтобы они не смотрелись оторванными от сцены и ускорился их рендер.

Brush: браузерный фреймворк на основе WebGPU для тренировки сплатов.

Three.js: добавили поддержку мультивью для WebGPU.

Diffusers.js: поддержка новых генераторов видео и картинок (Wan, Хуньянь, Sana), remote vae для разгрузки своего железа, оптимизация для инференса, итд.

Chrome: интеграция WebGPU с WebXR теперь доступна для тестирования разработчиками на Windows и Android. Сократилось время компиляции шейдеров.

Nerfstudio: выпустили gsplat 1.5, позволяющий тренировать сплаты быстрее и потреблять меньше памяти. И добавили в gsplat экспорт в форматах: .ply, .splat для вьюера antimatter, и сжатого ply.

Mesh2Splat: конвертер 3D мешей в сплаты.
4
Nvidia: выпустили стабильный релиз 3DGRUT и добавили профиль MCMC для рендера сплатов, а также оптимизацию SparseAram, и работу с масками на изображениях. Также подружили сплаты с Vulkan.

VivagoAI: выпустили новый генератор картинок HiDream-I1. Имеет 17B параметров, есть 3 версии Full, Dev, и Fast, генерящие в 50, 28 и 16 шагов соответственно. Промту следует неплохо и хорошо работает с портретами и надписями, но картинка шумновата, особенно в фантастических сюжетах. Тем не менее благодаря лицензии MIT, позволяющей коммерческое использование может прижиться в сообществе. Демо // Гитхаб // Comfy (спс @WaveCut)

VAST-AI
: дропнули HoloPart для декомпозиции 3D объектов на составные части.

PixelFlow: модель, генерирующая картинки прямо в пиксельном пространстве, а не в латентном.

MAGI:
новый опенсорсный видеогенератор с 24B параметрами, натренированный работать в режиме стриминга. 24B призывают гонять на 8xH100, а в конце апреля обещают 4.5B версию. На черрипиках качество высокое, но на сайте у них очень нестабильные результаты выдаются как с улучшайзером промта, так и без. Но лицензия Apache 2, разрешающая коммерческое использование — посмотрим как примет сообщество.

InstantX
: релизнули InstantCharacter для генерации картинок с целевой персоной в нужном стиле. Гитхаб // Comfy.

Cobra: колоризация лайн-арта.

Flux обзавёлся Union Pro 2 с улучшенным качеством и контролем генерации картинок. А также в Forge довезли поддержку Flux Tools.

NormalCrafter: получение карты нормалей видео.

LayerAnimate: генерация анимации по слоям.

Phygital+: добавили Gemini для редактирования картинок промтом, Character и Style Reference в Midjourney, ускорили работу Flux, IP-Adapter и SDXL ~4 раза, и не только.

Vidu: выпустили генератор видео Q1, выдающий 1080p, и работающий со звуком и кейфреймами.
🎸 ЗВУК 🎸

sync.: выпустили Sync Studio для полноценной работы с липсинком.

OuteAI: дропнули TTS (генератора речи) Oute 0.3 в размерах до 1B, с фокусом на контроле произношения пунктуацией.

MoonshotAI: выпустили Kimi-Audio для распознавания речи, чата по ней, генерации подписей, и не только.

Yandex: Яндекс Браузер научился передавать оригинальные голоса и интонации при переводе видео.

Nvidia: выпустили Canary 1B, модель для распознавания речи и перевода между 4 языками: английский, испанский, немецкий, французский.

ElevenLabs: добавили бесшовный переход при голосовом общении с AI-агентами, имеющими доступ к общей базе знаний.

Heygen: теперь можно делать своего говорящего аватара на основе и фото и видео. Также добавили загрузку брендинга, возможность направлять взгляд в камеру, и запустили новый MCP сервер.

Dia: опенсорсная альтернатива NotebookLM для клонирования голоса, а также генерации озвучки и диалогов с эмоциональностью. Демо // Гитхаб // Pinokio

Tavus: выпустили Hummingbird, модель для zero-shot липсинка.

🤖 ЧАТЫ 🤖

PyTorch: обновился до V 2.7.0. Появилась поддержка CUDA 12.8, карт 50-й серии Nvidia, ускорение через fp_16_fast, инференс через FlexAttention, улучшена работа на Intel GPU, и не только. Гитхаб.

OWUI: в V 0.6.5 опенсорсного UI для чата с языковыми моделями (LLM) добавили детальную настройку доступа к голосовому режиму, копирование сгенерированного контента с форматированием, улучшения в работе с RAG, итд.

Ollama: ускорен запуск ллм, дефолтное контекстное окно 4к, исправлена потеря памяти, повышена производительность ollama create, добавлена тестовая поддержка ламы 4, DeepdCoder, IBM Granite 3.3, итд.

LM Studio: добавлена поддержка Nvidia 50xx и CUDA 12.8, обновился UI системного промта, улучшился вызов инструментов, в превью появилась возможность шарить с сообществом пресеты системных промтов и параметров модели.

Google: выпустили Gemini 2.5 Flash (компактная и эффективная версия Pro), а также опубликовали примеры для работы с Gemini API и квантизированную Gemma 3 27B для запуска на 3090.

Xenova: адаптировали ллм SmolLM2 1.7B и ризонер Zyphra-ZR1 1.5B для запуска в браузере через WebGPU.

Anthropic: в Claude Code теперь можно вкидывать картинки, а также закидывать таски в очередь. Ещё они опубликовали гайд как лучше работать с AI-агентами для написания кода.

OpenAI: выпустили для разработчиков GPT-4.1 и выложили в опенсорс Codex Cli (аналог Claude Code) — ассистента для программирования естественным языком. Также обновили GPT-4o, удвоили лимиты, открыли бесплатным пользователям лайтовый доступ к deep research, и сделали o3 и o4-mini доступными по API.

Grok: теперь можно дать ему доступ к камере и получать ответы в реалтайме на нескольких языках. Также Grok 3 стал доступен по API, и был запущен Grok Studio для генерации кода, документов, игр, и отчётов.

Qwen
: выпустили мобильную апу (Android // iOS).

Alibaba: опубликовали GME модели для работы эмбеддингами на основе Qwen2-VL.

MoonshotAI: релизнули Kimi-VL-A3B, серию опенсорсных визуальных языковых моделей (VLM) для чата по тексту, картинкам и видео.

Запрещёнка выкатила мультимодальную ламу 4 в размерах: Scout (109B), Maverick (400B), Behemoth (2Т (триллиона)). Все модели работают с текстом, картинками и видео, и имеют 10М контекст. Локально такое не погоняем. Там ещё и выяснилось, что запрещёнка схитрила на бенчах.

Skywork: опубликовали мультимодальную рассуждающую модель Skywork-R1V2-38B, показывающую хорошее понимание визуала.

Bytedance: выпустили опенсорсного AI-агента UI-TARS-1.5 для выполнения задач в GUI и играх.

Nvidia: дропнули модель DAM для генерации описаний картинок и видео.

Microsoft: как использовать AI-агентный режим в VS Code.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
5
HiDream: выпустили редактор картинок текстом E1 на основе своей модели HiDream Full.

Загружаем изображение, задаём промт с нужными изменениями + шевелим настройки по желанию, и генерим.

Результаты пока не впечатляют. Отрабатывает поверхностно, в лучшем случае теряя детали. Причём, как с включенным улучшателем промта, так и без. Пока можно использовать для быстрых драфтов и компоновки мудборда.

Демо
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
WildGS-SLAM: трекинг и удаление объектов на видео с помощью сплатов.

Исследователи создали специальную карту неопределённости на основе DINOv2, которая показывает, где в кадре есть движение или неясные данные. При построении трёхмерной сцены и рендеринга эти данные используются, чтобы обновить сплат без объектов.

Благодаря этому, в отличие от подобных систем, WildGS-SLAM хорошо работает с динамичными движениями камеры, и следует за объектами для их удаления.

Явных артефактов подход не оставляет и чистит в том числе и тени.

Сайт
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Riffusion: выкатили генератор музыки FUZZ-1.0. До этого на сайте висела версия 0.9.

Идёт в двух версиях: Mini доступна всем безлимитно в relax режиме, и Pro с улучшенной проработкой звука и доступом к дополнительным инструментам по подписке. На бесплатном акке остался только базовый инструментарий.

На сайте не отображается какой версией FUZZ что сгенерировано. Но если по дефолту сейчас стоит Mini, то по качеству звука она всё также на уровне между Suno 3.5 и 4. Есть пример звучания Pro.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В PyTorch 2.7 завезли оптимизацию генерации через Fast FP16.

Заявляется ускорение на 20%, без сильного влияния на качество. У меня на тестах в комфи показывается в районе 10%. Можно скрестить с SageAttention для ускорения в 2 раза, но сильно упадёт качество.

В последней портативной сборке comfy есть отдельный скрипт для запуска fast fp16. У меня при запуске комфи менеджер начал жаловаться на недостающие ноды, но при их установке через сам менеджер зависал. Поставил вручную с гитхаба в папке custom nodes, и тогда оно жаловаться перестало.

Воркфлоу в комментах.

У вас какие показатели?
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
FramePack: появилась лора для поворота персонажа на 360 градусов.

В онлайн демке ограничение в 3 секунды.

Будет появляться что-то новое по этой теме — добавлю.

Демо
Хаггинг
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
2