This media is not supported in your browser
VIEW IN TELEGRAM
RGB-лапша
Для тех, кто хочет навести красоты в Comfy или сделать воркфлоу более презентабельными.
Гитхаб
Для тех, кто хочет навести красоты в Comfy или сделать воркфлоу более презентабельными.
Гитхаб
Наткнулся на новость, что в Китае суд встал на защиту человека сгенерировавшего арт в Midjourney, потому что в процессе использовался интеллектуальный труд в виде написания промта, сгенерированный результат является уникальным, и доводился до ума в фотошопе. Также в пользу истца сыграло то, что по пользовательскому соглашению Midjourney созданные на платформе изображения принадлежат клиенту.
Суд обязал обе компании, которые без разрешения автора использовали его арт в своих соцсетях/проектах, публично извиниться и выплатить штраф 10 000 юаней (~$1 380). Причём одна из них работает в сфере недвижимости.
В посте нет ссылок на источники. Дабы самому не канифолиться я попросил Grok и Perplexity проверить правда ли это, и найти оригинал опубликованного решения суда на китайском.
Grok нашел только посты на английском, а вот Perplexity добрался до подтверждающей публикации на китайском в домене gov.
Глубокий поиск Grok
Глубокий поиск Perplexity
Суд обязал обе компании, которые без разрешения автора использовали его арт в своих соцсетях/проектах, публично извиниться и выплатить штраф 10 000 юаней (~$1 380). Причём одна из них работает в сфере недвижимости.
В посте нет ссылок на источники. Дабы самому не канифолиться я попросил Grok и Perplexity проверить правда ли это, и найти оригинал опубликованного решения суда на китайском.
Grok нашел только посты на английском, а вот Perplexity добрался до подтверждающей публикации на китайском в домене gov.
Глубокий поиск Grok
Глубокий поиск Perplexity
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
PikaSwaps как виртуальная примерочная. Вполне возможно при спросе Pika смогут вывести этот продукт в отдельный сервис. Kling так и сделал с Virtual Try-On.
Твит
Твит
6
Там Midjourney издалека намекают, что готовят к релизу свой видеогенератор и вопрошают каким мы хотели бы его видеть.
Форма опроса
Форма опроса
2
This media is not supported in your browser
VIEW IN TELEGRAM
Wan: теперь есть лора на контроль кадра через карту глубины. Натренировано на основе DepthAnythingV2-small.
Хаггинг
Хаггинг
DreamMesh: инструмент для преобразования 3D объекта из облака точек в меш.
Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.
Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.
Сайт
Гитхаб
Хаггинг
Можно, например, снять облёт объекта на видео —> кинуть его в Postshot —> получить поинтклауд и обрезать лишнее —> скормить в DreamMesh для ретопологии. А дальше анимируем в блендоре, или чём ещё.
Тестировалось на железе с A100 и выше. Но авось найдётся способ оптимизировать и для пользовательских машин.
Сайт
Гитхаб
Хаггинг
Comfy: добавилась поддержка SkipLayerGuidance для улучшения видео в Wan, плюс работа с лорами на контроль кадра. Также подрубили Hunyuan 3D v2 с его мультивью версией. Гитхаб
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
Glif: появился глиф для создания стабильных RPG персонажей с помощью редактирования промтом в Gemini.
Invoke: уменьшено потребление VRAM, добавлена поддержка Flux Tools (Fill в пре-релизе), работа с форматом WEBP, и не только.
Zluda: CUDA для видюх AMD. Теперь cuDNN работает в A1111 форке для AMD GPU.
Stepfun: выпустили видеогенератор на основе текста и картинки (TI2V) размером 30B (не влезет в 24 ГБ) и организовали для него Comfy.
Kling: добавили эффект DizzyDizzy как MicroWave в PixVerse.
Pika: тизерят технологию манипулирования объектами на видео.
Stability: выпустили фреймворк для виртуального управления камерой..., который работает нестабильно.
Roblox: дропнули в опенсорс 3D генератор Cube. Демо... особо не впечатляет // Гитхаб // Pinokio
Tencent: обновили Хуньянь 3D V2 и добавили версии: Mini для работы на 3 ГБ VRAM, и Multi-view для получения 3D объекта из нескольких точек обзора. Также выпустили фреймворк Turbo (FlashVDM) для ускорения генерации просто меша за 1~5 сек, и текстурированного меша за 30~100 сек. Хаггинг // Pinokio // Comfy
Nvidia: выпустили код 3DGRUT, метода получения 3D сцен из фотографий, который, в отличие от сплатов, сочетает в себе и растеризацию прямых лучей и рейтрейсинг для работы с отражениями, преломлениями, и тенями.
Также на GTC они анонсировали новые рабочие станции для AI задач. Ещё представили RTX 6000 PRO с 96 ГБ VRAM и серверные Blackwell Ultra. Полная преза.
Google: в свою очередь релизнули код EVER, метода получения 3D сцен с меньшим количеством артефактов, чем в оригинальных сплатах. Позволяет выдавать ~30 fps 720p на 4090, и, благодаря поддержке рейтрейсинга, работает с дефокусом, блюром, и дисторшеном.
PostShot: добавили Splat3 метод для обработки кадров, немного улучшающий детали.
PlayCanvas: обновили движок, ускорив его работу, и добавив обработчик теней.
Два метода повышения качества сплатов HTGS и PGSR.
Phygital+: обновили creative upscale, вариации и апскейл Midjourney, добавили ноду для замены фона.
SeeLe: ускорение сплатов на мобильных устройствах до 90 fps.
D2GV: быстрый и качественный рендер сплатов на 400 fps.
Neurogen: добавили новую бесплатную модель и обновили сайт.
BiGS: релайтинг сплатов.
Apple-Log2Linear: опенсорсный инструмент для преобразования .MOV файлов, закодированных в Apple ProRes Log, в полностью откалиброванные линейные RGB-изображения.
SVRaster: растеризация 3D сцен через воксели, без использования нейронок и сплатов.
Thera: апскейлер с анти-алиасингом на борту. Демо
4
🎸 ЗВУК 🎸
Suno: добавили каверы на iOS и ремастеры на Android.
Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.
Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо
Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.
OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.
🤖 ЧАТЫ 🤖
Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.
Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.
Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.
Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо
Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.
Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.
Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.
Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.
Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
Suno: добавили каверы на iOS и ремастеры на Android.
Udio: выпустили модель Allegro, являющуюся дистиллированной ускоренной версией оригинальной 1.5 модели. По умолчанию теперь она стоит в бесплатных генерациях. Плюс подъехал видеогайд по функционалу от разработчиков.
Sesame: голосовой ассистент и опенсорсный генератор речи (TTS) с фокусом на эмоциональное и реалистичное звучание. На русском не пашет. Сайт // Демо
Orpheus: тоже эмоциональная TTS, но на основе ламы 3B.
OpenAI: выкатили TTS с GPT-4o mini под капотом, чтобы не отставать.
🤖 ЧАТЫ 🤖
Ollama: добавлена поддержка AMD Strix Halo, и Gemma 3 теперь работает с множеством картинок на вход.
Bolt.diy: в этот локальный редактор кода V 0.0.7 добавлена индикация рассуждений LLM, а также поддержка Gemini 2 и DeepSeek R1, улучшен UI.
Tencent: выпустил свою размышляющую модель T1 на разработанной архитектуре Hybrid-Mamba-Transformer MoE.
Reka: опенсорсная ллм Reka Flash 3 размером 21B, нативно заточенная на AI-агентные задания и работающая на уровне OpenAI o1-mini. Демо
Mistral: дропнули Mistral-Small-3.1-24B визуальную языковую модель (VLM) с контекстом 128к (можно скормить книжки). Влезет в 24 ГБ, уже есть кванты для LM Studio.
Anthropic: добавили в Claude Code "think" триггер для крупных задач, кастомные слэш коды, итд. Запустили блог для инженеров.
Cohere: выпустили ллм Command A размером 111B с фокусом на AI-агентных задачах и работе в корпоративном сегменте.
Hermes: релизнули DeepHermes, гибридную размышляющую модель в размерах от 3B до 24B.
Google: выкатили Gemini Canvas, аналог холста от OpenAI или Artifacts в OpenWebUI / Claude.
4
Bytedance: выпустили Infinite You (InfU), фреймворк для генерации картинок с целевой персоной.
Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.
Из коробки работает с контролнетами, лорами, и IP-адаптерами.
Демо
Сайт
Гитхаб
Работает как PuLID, InstantID, PhotoMaker, и другие модели на эту тему, вписывая загруженное лицо в нужный сеттинг. Но в отличие от них здесь используется InfuseNet — компонент, который внедряет идентификационные характеристики в базовую модель DiT, позволяя придерживаться лица с рефа, при этом чётко следуя промту и выдавая высокое качество изображения.
Из коробки работает с контролнетами, лорами, и IP-адаптерами.
Демо
Сайт
Гитхаб