Psy Eyes

0:53

Freepik: добавили фичу Objects, позволяющую вкинуть изображения с объектом или персонажем, и вписать его в новые сеттинги. Можно комбинировать натренированные объекты в сцене.

Также добавили редактирование картинок промтом через Gemini.

Твит
Сайт

2.17K viewsedited 14:47

Google: Veo2 img-2-vid завезли в:

* Krea
* Fal
* Freepik
* Nim

По ценам для ориентира: одна 5 секундная генерация на Fal обойдётся в $2,5.

Твит

2.27K views15:53

0:22

PikaSwaps как виртуальная примерочная. Вполне возможно при спросе Pika смогут вывести этот продукт в отдельный сервис. Kling так и сделал с Virtual Try-On.

Твит

9.27K views16:58

0:08

0:28

Народ пилит лоры персонажей на SD и, используя шаблон Microwave в PixVerse (кручения объекта с картинки в микроволновке), создаёт 360 обзор персонажа по одному изображению.

Дальше оно собирается и редактируется в Metashape и Postshot для получения 3D сцены, которую можно крутить как хочешь.

Твит
Сайт

13.2K views13:20

Там Midjourney издалека намекают, что готовят к релизу свой видеогенератор и вопрошают каким мы хотели бы его видеть.

Форма опроса

2.12K views14:32

0:05

0:05

На Wan появился контроль кадра через начальный и конечный кейфрейм. Первое видео 720p второе 480p.

Работает на основе нод Кижая. Рекомендуется длительность ставить 25 кадров и выше (оно и так 33 стоит по дефолту в общем-то).

Гитхаб

2.22K views18:08

Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.

Хаггинг

1.95K views17:01

0:24

DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.

Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.

Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.

Сайт
Гитхаб
Хаггинг

2.11K views19:29

1.49K views15:02

Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб

Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.

Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.

Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.

Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.

Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.

Pika: тизерят технологию манипулирования объектами на видео.

Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.

Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio

Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy

Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.

Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.

Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.

PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.

PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.

Два метода повышения качества сплатов HTGS и PGSR.

Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.

SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.

D2GV: быстрый и качественный рендер сплатов на 400 fps.

Neurogen: добавили новую бесплатную модель и обновили сайт.

BiGS: релайтинг сплатов.

Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.

SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.

Thera: апскейлер с анти-алиасингом на борту. Демо

1.8K viewsedited 15:02

🎸 ЗВУК 🎸

Suno: добавили каверы на iOS и ремастеры на Android.

Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.

Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо

Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.

OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.

🤖 ЧАТЫ 🤖

Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.

Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.

Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.

Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо

Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.

Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.

Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.

Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.

Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.

1.89K views15:03