Psy Eyes

Народ пилит лоры персонажей на SD и, используя шаблон Microwave в PixVerse (кручения объекта с картинки в микроволновке), создаёт 360 обзор персонажа по одному изображению.

Дальше оно собирается и редактируется в Metashape и Postshot для получения 3D сцены, которую можно крутить как хочешь.

Твит
Сайт

13.2K views13:20

Psy Eyes

Там Midjourney издалека намекают, что готовят к релизу свой видеогенератор и вопрошают каким мы хотели бы его видеть.

Форма опроса

2.12K views14:32

Psy Eyes

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

На Wan появился контроль кадра через начальный и конечный кейфрейм. Первое видео 720p второе 480p.

Работает на основе нод Кижая. Рекомендуется длительность ставить 25 кадров и выше (оно и так 33 стоит по дефолту в общем-то).

Гитхаб

2.22K views18:08

Psy Eyes

This media is not supported in your browser

VIEW IN TELEGRAM

Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.

Хаггинг

1.95K views17:01

Psy Eyes

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.

Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.

Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.

Сайт
Гитхаб
Хаггинг

2.11K views19:29

Psy Eyes

1.49K views15:02

Psy Eyes

Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб

Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.

Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.

Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.

Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.

Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.

Pika: тизерят технологию манипулирования объектами на видео.

Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.

Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio

Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy

Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.

Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.

Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.

PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.

PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.

Два метода повышения качества сплатов HTGS и PGSR.

Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.

SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.

D2GV: быстрый и качественный рендер сплатов на 400 fps.

Neurogen: добавили новую бесплатную модель и обновили сайт.

BiGS: релайтинг сплатов.

Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.

SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.

Thera: апскейлер с анти-алиасингом на борту. Демо

1.8K viewsedited 15:02

Psy Eyes

🎸 ЗВУК 🎸

Suno: добавили каверы на iOS и ремастеры на Android.

Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.

Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо

Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.

OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.

🤖 ЧАТЫ 🤖

Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.

Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.

Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.

Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо

Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.

Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.

Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.

Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.

Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.

1.89K views15:03

Psy Eyes

Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.

Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.

Из коробки работает с контролнетами, лорами, и IP-адаптерами.

Демо
Сайт
Гитхаб

9.33K views08:50

Psy Eyes

Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт
Твит

2.15K views12:51

About

Blog

Apps

Platform