Psy Eyes
6.8K subscribers
1.43K photos
1.57K videos
5 files
1.55K links
Креатив + AI + Web3... и мемы

Личная страница @AndreyBezryadin

Купить рекламу: https://telega.in/c/Psy_Eyes
Без наценки Telegain и индивидуальными датами — в личке.
Download Telegram
Nvidia: выпустили стабильный релиз 3DGRUT и добавили профиль MCMC для рендера сплатов, а также оптимизацию SparseAram, и работу с масками на изображениях. Также подружили сплаты с Vulkan.

VivagoAI: выпустили новый генератор картинок HiDream-I1. Имеет 17B параметров, есть 3 версии Full, Dev, и Fast, генерящие в 50, 28 и 16 шагов соответственно. Промту следует неплохо и хорошо работает с портретами и надписями, но картинка шумновата, особенно в фантастических сюжетах. Тем не менее благодаря лицензии MIT, позволяющей коммерческое использование может прижиться в сообществе. Демо // Гитхаб // Comfy (спс @WaveCut)

VAST-AI
: дропнули HoloPart для декомпозиции 3D объектов на составные части.

PixelFlow: модель, генерирующая картинки прямо в пиксельном пространстве, а не в латентном.

MAGI:
новый опенсорсный видеогенератор с 24B параметрами, натренированный работать в режиме стриминга. 24B призывают гонять на 8xH100, а в конце апреля обещают 4.5B версию. На черрипиках качество высокое, но на сайте у них очень нестабильные результаты выдаются как с улучшайзером промта, так и без. Но лицензия Apache 2, разрешающая коммерческое использование — посмотрим как примет сообщество.

InstantX
: релизнули InstantCharacter для генерации картинок с целевой персоной в нужном стиле. Гитхаб // Comfy.

Cobra: колоризация лайн-арта.

Flux обзавёлся Union Pro 2 с улучшенным качеством и контролем генерации картинок. А также в Forge довезли поддержку Flux Tools.

NormalCrafter: получение карты нормалей видео.

LayerAnimate: генерация анимации по слоям.

Phygital+: добавили Gemini для редактирования картинок промтом, Character и Style Reference в Midjourney, ускорили работу Flux, IP-Adapter и SDXL ~4 раза, и не только.

Vidu: выпустили генератор видео Q1, выдающий 1080p, и работающий со звуком и кейфреймами.
🎸 ЗВУК 🎸

sync.: выпустили Sync Studio для полноценной работы с липсинком.

OuteAI: дропнули TTS (генератора речи) Oute 0.3 в размерах до 1B, с фокусом на контроле произношения пунктуацией.

MoonshotAI: выпустили Kimi-Audio для распознавания речи, чата по ней, генерации подписей, и не только.

Yandex: Яндекс Браузер научился передавать оригинальные голоса и интонации при переводе видео.

Nvidia: выпустили Canary 1B, модель для распознавания речи и перевода между 4 языками: английский, испанский, немецкий, французский.

ElevenLabs: добавили бесшовный переход при голосовом общении с AI-агентами, имеющими доступ к общей базе знаний.

Heygen: теперь можно делать своего говорящего аватара на основе и фото и видео. Также добавили загрузку брендинга, возможность направлять взгляд в камеру, и запустили новый MCP сервер.

Dia: опенсорсная альтернатива NotebookLM для клонирования голоса, а также генерации озвучки и диалогов с эмоциональностью. Демо // Гитхаб // Pinokio

Tavus: выпустили Hummingbird, модель для zero-shot липсинка.

🤖 ЧАТЫ 🤖

PyTorch: обновился до V 2.7.0. Появилась поддержка CUDA 12.8, карт 50-й серии Nvidia, ускорение через fp_16_fast, инференс через FlexAttention, улучшена работа на Intel GPU, и не только. Гитхаб.

OWUI: в V 0.6.5 опенсорсного UI для чата с языковыми моделями (LLM) добавили детальную настройку доступа к голосовому режиму, копирование сгенерированного контента с форматированием, улучшения в работе с RAG, итд.

Ollama: ускорен запуск ллм, дефолтное контекстное окно 4к, исправлена потеря памяти, повышена производительность ollama create, добавлена тестовая поддержка ламы 4, DeepdCoder, IBM Granite 3.3, итд.

LM Studio: добавлена поддержка Nvidia 50xx и CUDA 12.8, обновился UI системного промта, улучшился вызов инструментов, в превью появилась возможность шарить с сообществом пресеты системных промтов и параметров модели.

Google: выпустили Gemini 2.5 Flash (компактная и эффективная версия Pro), а также опубликовали примеры для работы с Gemini API и квантизированную Gemma 3 27B для запуска на 3090.

Xenova: адаптировали ллм SmolLM2 1.7B и ризонер Zyphra-ZR1 1.5B для запуска в браузере через WebGPU.

Anthropic: в Claude Code теперь можно вкидывать картинки, а также закидывать таски в очередь. Ещё они опубликовали гайд как лучше работать с AI-агентами для написания кода.

OpenAI: выпустили для разработчиков GPT-4.1 и выложили в опенсорс Codex Cli (аналог Claude Code) — ассистента для программирования естественным языком. Также обновили GPT-4o, удвоили лимиты, открыли бесплатным пользователям лайтовый доступ к deep research, и сделали o3 и o4-mini доступными по API.

Grok: теперь можно дать ему доступ к камере и получать ответы в реалтайме на нескольких языках. Также Grok 3 стал доступен по API, и был запущен Grok Studio для генерации кода, документов, игр, и отчётов.

Qwen
: выпустили мобильную апу (Android // iOS).

Alibaba: опубликовали GME модели для работы эмбеддингами на основе Qwen2-VL.

MoonshotAI: релизнули Kimi-VL-A3B, серию опенсорсных визуальных языковых моделей (VLM) для чата по тексту, картинкам и видео.

Запрещёнка выкатила мультимодальную ламу 4 в размерах: Scout (109B), Maverick (400B), Behemoth (2Т (триллиона)). Все модели работают с текстом, картинками и видео, и имеют 10М контекст. Локально такое не погоняем. Там ещё и выяснилось, что запрещёнка схитрила на бенчах.

Skywork: опубликовали мультимодальную рассуждающую модель Skywork-R1V2-38B, показывающую хорошее понимание визуала.

Bytedance: выпустили опенсорсного AI-агента UI-TARS-1.5 для выполнения задач в GUI и играх.

Nvidia: дропнули модель DAM для генерации описаний картинок и видео.

Microsoft: как использовать AI-агентный режим в VS Code.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
5
HiDream: выпустили редактор картинок текстом E1 на основе своей модели HiDream Full.

Загружаем изображение, задаём промт с нужными изменениями + шевелим настройки по желанию, и генерим.

Результаты пока не впечатляют. Отрабатывает поверхностно, в лучшем случае теряя детали. Причём, как с включенным улучшателем промта, так и без. Пока можно использовать для быстрых драфтов и компоновки мудборда.

Демо
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
WildGS-SLAM: трекинг и удаление объектов на видео с помощью сплатов.

Исследователи создали специальную карту неопределённости на основе DINOv2, которая показывает, где в кадре есть движение или неясные данные. При построении трёхмерной сцены и рендеринга эти данные используются, чтобы обновить сплат без объектов.

Благодаря этому, в отличие от подобных систем, WildGS-SLAM хорошо работает с динамичными движениями камеры, и следует за объектами для их удаления.

Явных артефактов подход не оставляет и чистит в том числе и тени.

Сайт
Гитхаб
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
6
Riffusion: выкатили генератор музыки FUZZ-1.0. До этого на сайте висела версия 0.9.

Идёт в двух версиях: Mini доступна всем безлимитно в relax режиме, и Pro с улучшенной проработкой звука и доступом к дополнительным инструментам по подписке. На бесплатном акке остался только базовый инструментарий.

На сайте не отображается какой версией FUZZ что сгенерировано. Но если по дефолту сейчас стоит Mini, то по качеству звука она всё также на уровне между Suno 3.5 и 4. Есть пример звучания Pro.

Сайт
Твит
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
В PyTorch 2.7 завезли оптимизацию генерации через Fast FP16.

Заявляется ускорение на 20%, без сильного влияния на качество. У меня на тестах в комфи показывается в районе 10%. Можно скрестить с SageAttention для ускорения в 2 раза, но сильно упадёт качество.

В последней портативной сборке comfy есть отдельный скрипт для запуска fast fp16. У меня при запуске комфи менеджер начал жаловаться на недостающие ноды, но при их установке через сам менеджер зависал. Поставил вручную с гитхаба в папке custom nodes, и тогда оно жаловаться перестало.

Воркфлоу в комментах.

У вас какие показатели?
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
FramePack: появилась лора для поворота персонажа на 360 градусов.

В онлайн демке ограничение в 3 секунды.

Будет появляться что-то новое по этой теме — добавлю.

Демо
Хаггинг
Comfy (Kijai)
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
2
Alibaba: выпустили языковую модель Qwen 3 с гибридным режимом работы: обычный и рассуждение.

Часть серии ллм включает в себя обычные модели 0.6B // 1.7B // 4B // 8B // 14B // и 32B. Версия на 0.6B может работать на телефоне, для 14B поместится в 24 ГБ VRAM, а 32B надо будет запускать уже с выгрузкой в RAM. Модели 0.6B - 4B имеют контекст 32к (можно кормить книжки), остальные 128к (небольшая библиотека).

Также 0.6B может использоваться для ускорения больших моделей посредством предсказывания очевидных токенов. Задаётся через настройку speculative decoding в боковой панели LM Studio или llama.cpp.

Другая часть это экспертные модели (MoE) 30B-A3B и 235B-A22B, у которых количество параметров 30B и 235B соответственно, а активных 3B или 22B. Тут у всех контекст 128к. Эти модели уже для запуска на серверах.

По бенчам бьёт другие опенсорсные модели и закрытые вроде Gemini 2.5 Pro, Grok 3, и o3-mini. Хорошо себя показывает как в креативном копирайтинге, так и написании кода и математике.

Как и прежде русский язык поддерживается. Режим размышлений можно выключать или задать бюджет на это (thinking budget), что может ускорить ответы.

Уже завезли в ollama и можно гонять в OpenWebUI. Или просто скачать LM Studio и прямо там в интерфейсе подберется оптимальная модель под ваше железо.

Для получения оптимальных результатов рекомендуется: при рассуждениях ставить настройки Temperature=0.6, TopP=0.95, TopK=20, и MinP=0, а при обычном режиме Temperature=0.7, TopP=0.8, TopK=20, и MinP=0. Я сначала прогнал свой тест на родственные связи (правильный ответ — двоюродная племянница) без этих настроек и результат был хуже, а где-то модель уходила и вовсе в мыслительный лимб.

Модели 0.6B и 1.7B можно будет гонять на смартфоне, например, через PocketPal или в браузере через WebGPU. А я решил помимо промежуточных вариантов ещё попробовать запустить у себя самый крупняк в самом простом варике весом 111 ГБ... Штош, оно запустилось, съело и почти все 24 ГБ VRAM и 128 RAM, а ответ занял 34 минуты и не сказать, что впечатлил.

Меньшие размеры были и пошустрее и пришли к правильному ответу:
0.6B (Q8_0) — 307.44 ток/с // 4,26 сек
8B (Q8_0) — 82.37 ток/с // 23,19 сек
32B (q3_k_l) — 10.67 ток/с // 5 мин 26 сек
30B-A3B — 131.53 ток/с // 8,25 сек

Демо (хаггинг)
Демо (сайт)
Приложение (Android // iOS).
Анонс
Гитхаб
Хаггинг
Ollama
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Freepik + Fal: выпустили генератор картинок F-Lite.

Имеет 10B параметров и натренирован на 80 млн картинок свободных от копирайта и SFW контенте. Лицензия Apacehe 2 разрешающая коммерческое использование.

Модель идёт в двух вариантах:
* F-Lite — базовая версия для генераций в широком спектре тем.
* F-Lite-Texture — версия с более богатыми текстурами и улучшенными деталями.

Freepik предоставляют сразу два комфи для запуска: Simple и Advanced. Оба они максимально минималистичные, состоят из пары нод. Отличие лишь в том, что Advanced лучше работает с детальным промтом и может разворачивать короткий промт в длинный.

Решил погонять просто F-Lite. Кижаевские ноды у меня были, плюс я поставил ComfyUI-Custom-Scripts. Но у меня как я ни пробовал не получилось найти F-lite ноду. Пришлось запускать в cli через Diffusers.

Потребляет 20-21 ГБ VRAM и на тестах выдаёт 1,5 сек/ит. На одну картинку 1024х1024 в 30 шагов уходит ~45 сек. Я после видеогенераторов и забыл, что такое скорость.

Без улучшения промта (я пользовался Grok 3), качество ад. И приходится деталь много подходов, чтобы сгенерить что-то путное. Хотя всё равно в фантастичных сюжетах получается мрак. на более-менее рекламном контенте фотосеты на пляже, 3D рендеры, и можно как-то выехать. Но с трудом. Надо будет потом запустить F-Lite Texture.

Ну если где-то есть F-Lite, то на сайте Fal есть F-Standard. А там глядишь и F-Large/Heavy подтянется.

Демо Lite (хаггинг)
Демо Lite (Fal)
Демо Texture (хаггинг)
Хаггинг
Гитхаб
Comfy
————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM