Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Народ пилит лоры персонажей на SD и, используя шаблон Microwave в PixVerse (кручения объекта с картинки в микроволновке), создаёт 360 обзор персонажа по одному изображению.

Дальше оно собирается и редактируется в Metashape и Postshot для получения 3D сцены, которую можно крутить как хочешь.

Твит
Сайт
6
Там Midjourney издалека намекают, что готовят к релизу свой видеогенератор и вопрошают каким мы хотели бы его видеть.

Форма опроса
2
На Wan появился контроль кадра через начальный и конечный кейфрейм. Первое видео 720p второе 480p.

Работает на основе нод Кижая. Рекомендуется длительность ставить 25 кадров и выше (оно и так 33 стоит по дефолту в общем-то).

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.

Хаггинг
DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.

Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.

Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.

Сайт
Гитхаб
Хаггинг
Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб

Glif
: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.

Invoke
: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.

Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.

Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.

Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.

Pika: тизерят технологию манипулирования объектами на видео.

Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.

Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio

Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy

Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.

Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.

Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.

PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.

PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.

Два метода повышения качества сплатов HTGS и PGSR.

Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.

SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.

D2GV: быстрый и качественный рендер сплатов на 400 fps.

Neurogen: добавили новую бесплатную модель и обновили сайт.

BiGS: релайтинг сплатов.

Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.

SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.

Thera: апскейлер с анти-алиасингом на борту. Демо
4
🎸 ЗВУК 🎸

Suno: добавили каверы на iOS и ремастеры на Android.

Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.

Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо

Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.

OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.

🤖 ЧАТЫ 🤖

Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.

Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.

Tencent:
выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.

Reka
: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо

Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.

Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.

Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.

Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.

Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
4
Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.

Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.

Из коробки работает с контролнетами, лорами, и IP-адаптерами.

Демо
Сайт
Гитхаб
Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт

Твит