Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
На Wan появился контроль кадра через начальный и конечный кейфрейм. Первое видео 720p второе 480p.

Работает на основе нод Кижая. Рекомендуется длительность ставить 25 кадров и выше (оно и так 33 стоит по дефолту в общем-то).

Гитхаб
This media is not supported in your browser
VIEW IN TELEGRAM
Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.

Хаггинг
DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.

Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.

Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.

Сайт
Гитхаб
Хаггинг
Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб

Glif
: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.

Invoke
: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.

Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.

Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.

Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.

Pika: тизерят технологию манипулирования объектами на видео.

Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.

Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio

Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy

Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.

Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.

Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.

PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.

PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.

Два метода повышения качества сплатов HTGS и PGSR.

Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.

SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.

D2GV: быстрый и качественный рендер сплатов на 400 fps.

Neurogen: добавили новую бесплатную модель и обновили сайт.

BiGS: релайтинг сплатов.

Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.

SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.

Thera: апскейлер с анти-алиасингом на борту. Демо
4
🎸 ЗВУК 🎸

Suno: добавили каверы на iOS и ремастеры на Android.

Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.

Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо

Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.

OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.

🤖 ЧАТЫ 🤖

Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.

Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.

Tencent:
выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.

Reka
: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо

Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.

Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.

Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.

Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.

Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
4
Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.

Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.

Из коробки работает с контролнетами, лорами, и IP-адаптерами.

Демо
Сайт
Гитхаб
Topaz: представили софт для апскейла изображений Gigapixel 8.3.

Что нового:

* Модель Redefine для креативного апскейла с указанием промтом что нужно изменить, или в какой стиль/сеттинг всё перенести. Может дать прокашляться Magnific.

* Модель Recover для восстановления старых фото. Лучше всего работает с картинками до 1000х. Также пишут, что сканы и фото принтов лучше даунскейлить перед апскейлом, чтобы модель могла понять родное разрешение у как картинку улучшить.

* Модель Face Recovery Gen 2 с фокусом на восстановлении лиц. Улучшена проработка глаз, зубов, а также креативное восстановление в местах с недостатком данных вроде лиц вдалеке. Также на их бенчах модель значительно быстрее SDXL и Fux, если её гонять на L40S.

Апкейлить можно как локально, так и с обработкой в облаке.

Сайт

Твит
Synclabs: тизерят V2 своей липсинк модели.

Дубляж на разные языки идёт с сохранением голоса актёра. И работает даже, когда в кадре несколько говорящих.

Чтобы ввалиться в бету нужно написать им в личку в твиттере.

Твит
This media is not supported in your browser
VIEW IN TELEGRAM
Meshy: в превью режиме запустили V5 своего генератора 3D.

В этой версии улучшена проработка текстур и освещения. А также повысилось качество геометрии.

В честь запуска дают 50% скидку на подписку, промокод MESHY5.

Сайт
1
This media is not supported in your browser
VIEW IN TELEGRAM
Riffusion: развивается и быть может даже не даст заскучать Suno и Udio.

Что нового:
* Загрузка своего трека для работы по нему
* Swap Sound — меняем инструментальные партии, не трогая вокал.
* Swap Vocal — меняем вокал, оставляя инструменты.
* Get Stems — делим композицию на стемы и скачиваем архивом отдельные дорожки.
* Trim — обрезаем, оставляя нужный кусок, и от него танцуем
* Ghostwriter — AI пишет тексты песен

Есть расширенные настройки звука для экспериментов с weirdness, а также работа по нескольким промтам и ползунками их силы (20% дабстепа / 30% эмо-кора / 50% Надежды Кадышевой — смешать и отбежать).

Ещё из интересного у них обозначена персонализация — чем больше ты используешь платформу, тем лучше модель адаптируется генерить звучание под тебя. У Suno пока персонализация только относительно прослушивания заявлена. Так что у Riffusion есть карты в рукаве.

И, кстати, на скачанных стемах голос изолирует вполне себе. Если нужно будет отделить вокал от инструментала — можно быстренько закинуть и выцепить.

Плейлист с примером замененных элементов.

Сайт
Твит
Нравится как Kling крутит камеру. Сам понимает как достроить сцену, добавляет детали.

Да на фоне видны артефакты, вероятно там где он сшивает куски. Но все эти видосы получены с первого раза. Реф картинка в конце.

Кстати есть ощущение, что если его попросить перевести фокус на фон и сделать его детальнее, можно получить неплохую карту глубины.

Сайт
35