Psy Eyes

🎸 ЗВУК 🎸

Riffusion: обновили инструмент Vibes, позволяющий генерировать музыку в стиле загруженного трека. Улучшилось следование референсу, смешивание вайбов, а также повысилось качество звучания, и разнообразие длины треков.

Suno: разрешили делать ремиксы чьих-угодно треков на платформе, не только своих. Под ремиксом тут понимается возможность через меню трека делать кавер, расширение, или использование промта. Создание ремикса не даёт коммерческих прав на трек. Можно запретить делать ремиксы на свои треки, если что.

Ace-Step: опенсорсный генератор музыки, который за секунды ваяет треки длиной в несколько минут, и обладает множеством функций: инпейнт, вариация выделенного фрагмента, расширение, итд. Можно тренировать лоры. Есть демо.

Udio: сделали мобильную апу для iOS.

ResembleAI: выпустили генератор речи (TTS) Chatterbox, который неплохо себя показывает на бенчах. Маленький, шустрый, с клонированием голоса без трени и лайтовыми рульками для контроля. Лицензия MIT, позволяющая коммерческое использование, но генерит с водяными знаками и на русском не пашет. Демо // Гитхаб

Tiger: модель для выделения из аудио диалогов, эффектов, и музыки.

KDTalker: опенсорсный генератор говорящих голов обзавёлся заменой фона и контролем эмоций.

Stability: выпустили мелкую модельку Stable Audio Open Small для генерации аудио на телефонах с Arm.

ElevenLabs: релизнули Conversational AI 2 с голосовыми агентами на лету переключающимися на нужный язык, удерживающими роли нескольких персонажей, а также встроенным RAG, и не только. Пилят приложение на iOS.

Heygen: запустили модель Avatar IV для создания реалистичных аватаров по фото/скрипту и аудио.

Bytedance: к модели для опенсорсного липсинка добавилась поддержка MCP.

MEMO: липсинк людей и персонажей по диалогам и пению.

Hedra: добавили в свой генератор говорящих голов возможность задать кто сейчас должен произносить речь, когда несколько персонажей в кадре.

1.49K views19:42

Psy Eyes

🤖 ЧАТЫ 🤖

OWUI: в V 0.6.13 опенсорсного UI для чата с языковыми моделями (LLM) добавили расширенную настройку параметров ллм, визуализацию загруженных моделей и их выгрузку из памяти, а также улучшения в производительности и работе с RAG, итд.

DeepSeek: выпустили DeepSeek-R1-0528, новую версию ллм DeepSeek-R1 со значительно улучшенной глубиной рассуждений. Размер 685B, так что локально никак не погонять. Тем не менее есть дистиллят, полученный на основе Qwen3-8B, который может выдавать ответы уровня Qwen3-235B. Вместе с этим обновился и DeepSite для генерации веб-приложений по тексту (новый дипсик выбирается в настройках ввода). Демо // Хаггинг // Ollama

Ollama: добавлена поддержка стриминга ответов и размышлений (DeepSeek-R1-0528 или Qwen3). Также улучшена работа с памятью, и движок стал поддерживать мультимодальные модели лама 4, Gemma 3, Qwen2.5 VL, и другие для чата по визуалу, в том числе и на webp.

LMStudio: вышла из превью возможность шарить пресеты настроек/промтов ллм. Теперь можно сохранять KV кэш в GPU, и вызывать ллм в терминале командой lms chat. Ещё добавилась поддержка DeepSeek-R1-0528 и обновилась архитектура для работы с MLX моделями на маках.

Bolt: этот локальный редактор кода обновился до V 1.0.0. Добавлена возможность восстановления проекта из снимка, поддержка Grok 3 и Claude 3.7 по API, интеграция с Vercel и Supabase (опенсорсная альтернатива Firebase), итд.

n8n: ElevenLabs стали верифицированными партнёрами n8n. Теперь в AI-агентном воркфлоу можно использовать голосовые модели ElevenLabs напрямую.

Советы по вайбкодингу от создателя протокола BitTorrent Брэма Коена.

Amazon: выпустили опенсорсный фреймворк Agent-Squad для оркестровки AI-агентов.

Workflow Use для автоматизации выполнения AI-агентами задач на компе. От создателей Browser Use.

Локальный запуск Deep Research на связке ollama + Langgraph.

Маководы теперь могут через MLX LM запускать ллмки с хаггина у себя локально с помощью Use this model. Нужно включить поддержку MLX LM в настройках хаггинга.

Anthropic: выпустили Claude 4, который на бенчах бьёт Gemini 2.5 в написании кода. Может использовать размышление вместе с глубоким поиском (а не что-то одно), задействовать разные инструменты параллельно, и не только. Claude Code теперь доступен широкой публике.

Google: провели конфу I/O, на которой показали видеомодель Veo 3, которая на данный момент в топе по качеству и генерит со звуком. Также представили генератор картинок Imagen 4, музыкальную модель Lyria 2, и другое. Внедряют AI во все Google сервисы и дружат их с MCP.

Microsoft: провели конфу Build, на которой представили Windows ML как аналог ollama для запуска ллм моделей прямо на твоём железе (CPU, GPU, NPU). Также заявили нативную поддержку MCP в Windows 11, и AI-агентного движа для запуска и автономной работы агентов на твоём компе.

OpenAI: Operator и ChatGPT теперь использует актуальную рассуждающую модель. Также запустили AI-агента Codex с фокусом на разработке софта, и завезли его на iOS. GPT-4.1 теперь доступен в ChatGPT.

Perplexity: выпустили инструмент Perplexity Labs, который может ваять таблицы и дашборды, создавать приложения, генерить отчеты, итд.

Stepfun: релизнули рассуждающую модель OR1 в размерах от 7B до 32B. На бенчах показывает себя лучше Qwen3 32B.

Qwen: добавили в Qwen Chat глубокий поиск и запустили режим веб-разработчика для быстрой генерации веб-приложений а-ля DeepSite.

Alibaba: в свою очередь тоже выпустили рассуждалку DistilQwen-ThoughtX в размерах от 7B до 32B на основе Qwen2.5.

Grok: голосовой режим на андройде теперь доступен глобально, а ещё Grok научился ваять графики.

Bytedance: выпустили Bagel, единую рассуждающую модель для генерации изображений, их редактирования текстом, или чата по загруженным.

Gen-Verse: тоже дропнули единую модель для понимания, генерации и редактирования картинок под названием MMaDA.

Nvidia: релизнули рассуждающую AceReason в размерах от 7B до 32B для задач по математике и коду.

1.96K views19:42