HiDream: выпустили редактор картинок текстом E1 на основе своей модели HiDream Full.
Загружаем изображение, задаём промт с нужными изменениями + шевелим настройки по желанию, и генерим.
Результаты пока не впечатляют. Отрабатывает поверхностно, в лучшем случае теряя детали. Причём, как с включенным улучшателем промта, так и без. Пока можно использовать для быстрых драфтов и компоновки мудборда.
Демо
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Загружаем изображение, задаём промт с нужными изменениями + шевелим настройки по желанию, и генерим.
Результаты пока не впечатляют. Отрабатывает поверхностно, в лучшем случае теряя детали. Причём, как с включенным улучшателем промта, так и без. Пока можно использовать для быстрых драфтов и компоновки мудборда.
Демо
Гитхаб
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
WildGS-SLAM: трекинг и удаление объектов на видео с помощью сплатов.
Исследователи создали специальную карту неопределённости на основе DINOv2, которая показывает, где в кадре есть движение или неясные данные. При построении трёхмерной сцены и рендеринга эти данные используются, чтобы обновить сплат без объектов.
Благодаря этому, в отличие от подобных систем, WildGS-SLAM хорошо работает с динамичными движениями камеры, и следует за объектами для их удаления.
Явных артефактов подход не оставляет и чистит в том числе и тени.
Сайт
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Исследователи создали специальную карту неопределённости на основе DINOv2, которая показывает, где в кадре есть движение или неясные данные. При построении трёхмерной сцены и рендеринга эти данные используются, чтобы обновить сплат без объектов.
Благодаря этому, в отличие от подобных систем, WildGS-SLAM хорошо работает с динамичными движениями камеры, и следует за объектами для их удаления.
Явных артефактов подход не оставляет и чистит в том числе и тени.
Сайт
Гитхаб
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Riffusion: выкатили генератор музыки FUZZ-1.0. До этого на сайте висела версия 0.9.
Идёт в двух версиях: Mini доступна всем безлимитно в relax режиме, и Pro с улучшенной проработкой звука и доступом к дополнительным инструментам по подписке. На бесплатном акке остался только базовый инструментарий.
На сайте не отображается какой версией FUZZ что сгенерировано. Но если по дефолту сейчас стоит Mini, то по качеству звука она всё также на уровне между Suno 3.5 и 4. Есть пример звучания Pro.
Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Идёт в двух версиях: Mini доступна всем безлимитно в relax режиме, и Pro с улучшенной проработкой звука и доступом к дополнительным инструментам по подписке. На бесплатном акке остался только базовый инструментарий.
На сайте не отображается какой версией FUZZ что сгенерировано. Но если по дефолту сейчас стоит Mini, то по качеству звука она всё также на уровне между Suno 3.5 и 4. Есть пример звучания Pro.
Сайт
Твит
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В PyTorch 2.7 завезли оптимизацию генерации через Fast FP16.
Заявляется ускорение на 20%, без сильного влияния на качество. У меня на тестах в комфи показывается в районе 10%. Можно скрестить с SageAttention для ускорения в 2 раза, но сильно упадёт качество.
В последней портативной сборке comfy есть отдельный скрипт для запуска fast fp16. У меня при запуске комфи менеджер начал жаловаться на недостающие ноды, но при их установке через сам менеджер зависал. Поставил вручную с гитхаба в папке custom nodes, и тогда оно жаловаться перестало.
Воркфлоу в комментах.
У вас какие показатели?
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Заявляется ускорение на 20%, без сильного влияния на качество. У меня на тестах в комфи показывается в районе 10%. Можно скрестить с SageAttention для ускорения в 2 раза, но сильно упадёт качество.
В последней портативной сборке comfy есть отдельный скрипт для запуска fast fp16. У меня при запуске комфи менеджер начал жаловаться на недостающие ноды, но при их установке через сам менеджер зависал. Поставил вручную с гитхаба в папке custom nodes, и тогда оно жаловаться перестало.
Воркфлоу в комментах.
У вас какие показатели?
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
FramePack: появилась лора для поворота персонажа на 360 градусов.
В онлайн демке ограничение в 3 секунды.
Будет появляться что-то новое по этой теме — добавлю.
Демо
Хаггинг
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
В онлайн демке ограничение в 3 секунды.
Будет появляться что-то новое по этой теме — добавлю.
Демо
Хаггинг
Comfy (Kijai)
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Alibaba: выпустили языковую модель Qwen 3 с гибридным режимом работы: обычный и рассуждение.
Часть серии ллм включает в себя обычные модели 0.6B // 1.7B // 4B // 8B // 14B // и 32B. Версия на 0.6B может работать на телефоне, для 14B поместится в 24 ГБ VRAM, а 32B надо будет запускать уже с выгрузкой в RAM. Модели 0.6B - 4B имеют контекст 32к (можно кормить книжки), остальные 128к (небольшая библиотека).
Также 0.6B может использоваться для ускорения больших моделей посредством предсказывания очевидных токенов. Задаётся через настройку speculative decoding в боковой панели LM Studio или llama.cpp.
Другая часть это экспертные модели (MoE) 30B-A3B и 235B-A22B, у которых количество параметров 30B и 235B соответственно, а активных 3B или 22B. Тут у всех контекст 128к. Эти модели уже для запуска на серверах.
По бенчам бьёт другие опенсорсные модели и закрытые вроде Gemini 2.5 Pro, Grok 3, и o3-mini. Хорошо себя показывает как в креативном копирайтинге, так и написании кода и математике.
Как и прежде русский язык поддерживается. Режим размышлений можно выключать или задать бюджет на это (thinking budget), что может ускорить ответы.
Уже завезли в ollama и можно гонять в OpenWebUI. Или просто скачать LM Studio и прямо там в интерфейсе подберется оптимальная модель под ваше железо.
Для получения оптимальных результатов рекомендуется: при рассуждениях ставить настройки Temperature=0.6, TopP=0.95, TopK=20, и MinP=0, а при обычном режиме Temperature=0.7, TopP=0.8, TopK=20, и MinP=0. Я сначала прогнал свой тест на родственные связи (правильный ответ — двоюродная племянница) без этих настроек и результат был хуже, а где-то модель уходила и вовсе в мыслительный лимб.
Модели 0.6B и 1.7B можно будет гонять на смартфоне, например, через PocketPal или в браузере через WebGPU. А я решил помимо промежуточных вариантов ещё попробовать запустить у себя самый крупняк в самом простом варике весом 111 ГБ... Штош, оно запустилось, съело и почти все 24 ГБ VRAM и 128 RAM, а ответ занял 34 минуты и не сказать, что впечатлил.
Меньшие размеры были и пошустрее и пришли к правильному ответу:
❌ 0.6B (Q8_0) — 307.44 ток/с // 4,26 сек
❌ 8B (Q8_0) — 82.37 ток/с // 23,19 сек
✅ 32B (q3_k_l) — 10.67 ток/с // 5 мин 26 сек
✅ 30B-A3B — 131.53 ток/с // 8,25 сек
Демо (хаггинг)
Демо (сайт)
Приложение (Android // iOS).
Анонс
Гитхаб
Хаггинг
Ollama
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Часть серии ллм включает в себя обычные модели 0.6B // 1.7B // 4B // 8B // 14B // и 32B. Версия на 0.6B может работать на телефоне, для 14B поместится в 24 ГБ VRAM, а 32B надо будет запускать уже с выгрузкой в RAM. Модели 0.6B - 4B имеют контекст 32к (можно кормить книжки), остальные 128к (небольшая библиотека).
Также 0.6B может использоваться для ускорения больших моделей посредством предсказывания очевидных токенов. Задаётся через настройку speculative decoding в боковой панели LM Studio или llama.cpp.
Другая часть это экспертные модели (MoE) 30B-A3B и 235B-A22B, у которых количество параметров 30B и 235B соответственно, а активных 3B или 22B. Тут у всех контекст 128к. Эти модели уже для запуска на серверах.
По бенчам бьёт другие опенсорсные модели и закрытые вроде Gemini 2.5 Pro, Grok 3, и o3-mini. Хорошо себя показывает как в креативном копирайтинге, так и написании кода и математике.
Как и прежде русский язык поддерживается. Режим размышлений можно выключать или задать бюджет на это (thinking budget), что может ускорить ответы.
Уже завезли в ollama и можно гонять в OpenWebUI. Или просто скачать LM Studio и прямо там в интерфейсе подберется оптимальная модель под ваше железо.
Для получения оптимальных результатов рекомендуется: при рассуждениях ставить настройки Temperature=0.6, TopP=0.95, TopK=20, и MinP=0, а при обычном режиме Temperature=0.7, TopP=0.8, TopK=20, и MinP=0. Я сначала прогнал свой тест на родственные связи (правильный ответ — двоюродная племянница) без этих настроек и результат был хуже, а где-то модель уходила и вовсе в мыслительный лимб.
Модели 0.6B и 1.7B можно будет гонять на смартфоне, например, через PocketPal или в браузере через WebGPU. А я решил помимо промежуточных вариантов ещё попробовать запустить у себя самый крупняк в самом простом варике весом 111 ГБ... Штош, оно запустилось, съело и почти все 24 ГБ VRAM и 128 RAM, а ответ занял 34 минуты и не сказать, что впечатлил.
Меньшие размеры были и пошустрее и пришли к правильному ответу:
❌ 0.6B (Q8_0) — 307.44 ток/с // 4,26 сек
❌ 8B (Q8_0) — 82.37 ток/с // 23,19 сек
✅ 32B (q3_k_l) — 10.67 ток/с // 5 мин 26 сек
✅ 30B-A3B — 131.53 ток/с // 8,25 сек
Демо (хаггинг)
Демо (сайт)
Приложение (Android // iOS).
Анонс
Гитхаб
Хаггинг
Ollama
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Freepik + Fal: выпустили генератор картинок F-Lite.
Имеет 10B параметров и натренирован на 80 млн картинок свободных от копирайта и SFW контенте. Лицензия Apacehe 2 разрешающая коммерческое использование.
Модель идёт в двух вариантах:
* F-Lite — базовая версия для генераций в широком спектре тем.
* F-Lite-Texture — версия с более богатыми текстурами и улучшенными деталями.
Freepik предоставляют сразу два комфи для запуска: Simple и Advanced. Оба они максимально минималистичные, состоят из пары нод. Отличие лишь в том, что Advanced лучше работает с детальным промтом и может разворачивать короткий промт в длинный.
Решил погонять просто F-Lite. Кижаевские ноды у меня были, плюс я поставил ComfyUI-Custom-Scripts. Но у меня как я ни пробовал не получилось найти F-lite ноду. Пришлось запускать в cli через Diffusers.
Потребляет 20-21 ГБ VRAM и на тестах выдаёт 1,5 сек/ит. На одну картинку 1024х1024 в 30 шагов уходит ~45 сек. Я после видеогенераторов и забыл, что такое скорость.
Без улучшения промта (я пользовался Grok 3), качество ад. И приходится деталь много подходов, чтобы сгенерить что-то путное. Хотя всё равно в фантастичных сюжетах получается мрак. на более-менее рекламном контенте фотосеты на пляже, 3D рендеры, и можно как-то выехать. Но с трудом. Надо будет потом запустить F-Lite Texture.
Ну если где-то есть F-Lite, то на сайте Fal есть F-Standard. А там глядишь и F-Large/Heavy подтянется.
Демо Lite (хаггинг)
Демо Lite (Fal)
Демо Texture (хаггинг)
Хаггинг
Гитхаб
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Имеет 10B параметров и натренирован на 80 млн картинок свободных от копирайта и SFW контенте. Лицензия Apacehe 2 разрешающая коммерческое использование.
Модель идёт в двух вариантах:
* F-Lite — базовая версия для генераций в широком спектре тем.
* F-Lite-Texture — версия с более богатыми текстурами и улучшенными деталями.
Freepik предоставляют сразу два комфи для запуска: Simple и Advanced. Оба они максимально минималистичные, состоят из пары нод. Отличие лишь в том, что Advanced лучше работает с детальным промтом и может разворачивать короткий промт в длинный.
Решил погонять просто F-Lite. Кижаевские ноды у меня были, плюс я поставил ComfyUI-Custom-Scripts. Но у меня как я ни пробовал не получилось найти F-lite ноду. Пришлось запускать в cli через Diffusers.
Потребляет 20-21 ГБ VRAM и на тестах выдаёт 1,5 сек/ит. На одну картинку 1024х1024 в 30 шагов уходит ~45 сек. Я после видеогенераторов и забыл, что такое скорость.
Без улучшения промта (я пользовался Grok 3), качество ад. И приходится деталь много подходов, чтобы сгенерить что-то путное. Хотя всё равно в фантастичных сюжетах получается мрак. на более-менее рекламном контенте фотосеты на пляже, 3D рендеры, и можно как-то выехать. Но с трудом. Надо будет потом запустить F-Lite Texture.
Ну если где-то есть F-Lite, то на сайте Fal есть F-Standard. А там глядишь и F-Large/Heavy подтянется.
Демо Lite (хаггинг)
Демо Lite (Fal)
Демо Texture (хаггинг)
Хаггинг
Гитхаб
Comfy
————————————————————
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM