Psy Eyes

Nvidia: выпустили стабильный релиз 3DGRUT и добавили профиль MCMC для рендера сплатов, а также оптимизацию SparseAram, и работу с масками на изображениях. Также подружили сплаты с Vulkan.

VivagoAI: выпустили новый генератор картинок HiDream-I1. Имеет 17B параметров, есть 3 версии Full, Dev, и Fast, генерящие в 50, 28 и 16 шагов соответственно. Промту следует неплохо и хорошо работает с портретами и надписями, но картинка шумновата, особенно в фантастических сюжетах. Тем не менее благодаря лицензии MIT, позволяющей коммерческое использование может прижиться в сообществе. Демо // Гитхаб // Comfy (спс @WaveCut)

VAST-AI: дропнули HoloPart для декомпозиции 3D объектов на составные части.

PixelFlow: модель, генерирующая картинки прямо в пиксельном пространстве, а не в латентном.

MAGI: новый опенсорсный видеогенератор с 24B параметрами, натренированный работать в режиме стриминга. 24B призывают гонять на 8xH100, а в конце апреля обещают 4.5B версию. На черрипиках качество высокое, но на сайте у них очень нестабильные результаты выдаются как с улучшайзером промта, так и без. Но лицензия Apache 2, разрешающая коммерческое использование — посмотрим как примет сообщество.

InstantX: релизнули InstantCharacter для генерации картинок с целевой персоной в нужном стиле. Гитхаб // Comfy.

Cobra: колоризация лайн-арта.

Flux обзавёлся Union Pro 2 с улучшенным качеством и контролем генерации картинок. А также в Forge довезли поддержку Flux Tools.

NormalCrafter: получение карты нормалей видео.

LayerAnimate: генерация анимации по слоям.

Phygital+: добавили Gemini для редактирования картинок промтом, Character и Style Reference в Midjourney, ускорили работу Flux, IP-Adapter и SDXL ~4 раза, и не только.

Vidu: выпустили генератор видео Q1, выдающий 1080p, и работающий со звуком и кейфреймами.

1.34K views09:42

Psy Eyes

🎸 ЗВУК 🎸

sync.: выпустили Sync Studio для полноценной работы с липсинком.

OuteAI: дропнули TTS (генератора речи) Oute 0.3 в размерах до 1B, с фокусом на контроле произношения пунктуацией.

MoonshotAI: выпустили Kimi-Audio для распознавания речи, чата по ней, генерации подписей, и не только.

Yandex: Яндекс Браузер научился передавать оригинальные голоса и интонации при переводе видео.

Nvidia: выпустили Canary 1B, модель для распознавания речи и перевода между 4 языками: английский, испанский, немецкий, французский.

ElevenLabs: добавили бесшовный переход при голосовом общении с AI-агентами, имеющими доступ к общей базе знаний.

Heygen: теперь можно делать своего говорящего аватара на основе и фото и видео. Также добавили загрузку брендинга, возможность направлять взгляд в камеру, и запустили новый MCP сервер.

Dia: опенсорсная альтернатива NotebookLM для клонирования голоса, а также генерации озвучки и диалогов с эмоциональностью. Демо // Гитхаб // Pinokio

Tavus: выпустили Hummingbird, модель для zero-shot липсинка.

🤖 ЧАТЫ 🤖

PyTorch: обновился до V 2.7.0. Появилась поддержка CUDA 12.8, карт 50-й серии Nvidia, ускорение через fp_16_fast, инференс через FlexAttention, улучшена работа на Intel GPU, и не только. Гитхаб.

OWUI: в V 0.6.5 опенсорсного UI для чата с языковыми моделями (LLM) добавили детальную настройку доступа к голосовому режиму, копирование сгенерированного контента с форматированием, улучшения в работе с RAG, итд.

Ollama: ускорен запуск ллм, дефолтное контекстное окно 4к, исправлена потеря памяти, повышена производительность ollama create, добавлена тестовая поддержка ламы 4, DeepdCoder, IBM Granite 3.3, итд.

LM Studio: добавлена поддержка Nvidia 50xx и CUDA 12.8, обновился UI системного промта, улучшился вызов инструментов, в превью появилась возможность шарить с сообществом пресеты системных промтов и параметров модели.

Google: выпустили Gemini 2.5 Flash (компактная и эффективная версия Pro), а также опубликовали примеры для работы с Gemini API и квантизированную Gemma 3 27B для запуска на 3090.

Xenova: адаптировали ллм SmolLM2 1.7B и ризонер Zyphra-ZR1 1.5B для запуска в браузере через WebGPU.

Anthropic: в Claude Code теперь можно вкидывать картинки, а также закидывать таски в очередь. Ещё они опубликовали гайд как лучше работать с AI-агентами для написания кода.

OpenAI: выпустили для разработчиков GPT-4.1 и выложили в опенсорс Codex Cli (аналог Claude Code) — ассистента для программирования естественным языком. Также обновили GPT-4o, удвоили лимиты, открыли бесплатным пользователям лайтовый доступ к deep research, и сделали o3 и o4-mini доступными по API.

Grok: теперь можно дать ему доступ к камере и получать ответы в реалтайме на нескольких языках. Также Grok 3 стал доступен по API, и был запущен Grok Studio для генерации кода, документов, игр, и отчётов.

Qwen: выпустили мобильную апу (Android // iOS).

Alibaba: опубликовали GME модели для работы эмбеддингами на основе Qwen2-VL.

MoonshotAI: релизнули Kimi-VL-A3B, серию опенсорсных визуальных языковых моделей (VLM) для чата по тексту, картинкам и видео.

Запрещёнка выкатила мультимодальную ламу 4 в размерах: Scout (109B), Maverick (400B), Behemoth (2Т (триллиона)). Все модели работают с текстом, картинками и видео, и имеют 10М контекст. Локально такое не погоняем. Там ещё и выяснилось, что запрещёнка схитрила на бенчах.

Skywork: опубликовали мультимодальную рассуждающую модель Skywork-R1V2-38B, показывающую хорошее понимание визуала.

Bytedance: выпустили опенсорсного AI-агента UI-TARS-1.5 для выполнения задач в GUI и играх.

Nvidia: дропнули модель DAM для генерации описаний картинок и видео.

Microsoft: как использовать AI-агентный режим в VS Code.

————————————————————
🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin

Please open Telegram to view this post