⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
👍117👏30❤24🔥21🤩6💯4☃2🎉2
Media is too big
VIEW IN TELEGRAM
В отличие от базовых версий, у модели снижен порог отказов: фильтры безопасности не блокируют запросы на поиск багов и оборонительное программирование.
GPT-5.4-Cyber получила продвинутые возможности бинарного реверс-инжиниринга - исследователи могут анализировать скомпилированное ПО на наличие вредоносных компонентов и уязвимостей, даже не имея доступа к исходному коду.
Из-за двойного назначения функционала доступ к модели строго регулируется. OpenAI распространяет новинку через программу Trusted Access for Cyber: нужна верификация личности, а корпоративным клиентам - одобрение профильного менеджера.
openai.com
Компания начала проверять личность пользователей в рамках регулярных процедур безопасности. Технический партнёр инициативы - сервис Persona. Для процедуры понадобится паспорт, водительские права или ID-карта, а также камера для селфи. Цифровые версии документов, ксерокопии и студенческие билеты система не принимает.
В Anthropic обещают не использовать собранные данные для обучения ИИ-моделей. Фото документов и биометрия шифруются и хранятся на серверах Persona. Разработчик Claude выступает лишь контроллером данных и запрашивает доступ к записям только в спорных ситуациях - например, при апелляции на блокировку аккаунта.
support.claude.com
Стартап представил открытый рендерер Spark 2.0 на базе THREE.js и WebGL2, который плавно отрисовывает локации из 100 млн 3D-гауссианов прямо в браузере. Обычное железо с трудом переваривает больше пяти миллионов точек, поэтому разработчикам пришлось полностью перестроить пайплайн загрузки графики.
Производительность обеспечивают три механизма. Иерархическая система детализации подбирает оптимальное количество гауссианов под выделенный бюджет рендеринга, сохраняя стабильный FPS. Тяжёлые ассеты обрабатываются стримингом: новый формат
.RAD выводит базовый каркас, а затем динамически подтягивает детали в зависимости от угла обзора камеры. Память управляется через резервирование фиксированного пула на GPU и постраничного тасования блоков данных.Ядро Spark 2.0 написано на Rust, скомпилировано в WebAssembly и вынесено в фоновый Web Worker. Изначально это был внутренний инструмент для ИИ-генератора 3D-миров Marble, но теперь он общедоступен.
worldlabs.ai
В десктопной версии Chrome появилась функция Skills: больше не нужно повторно вводить запросы к Gemini. Удачные промпты теперь можно сохранять из истории чата и запускать в один клик через слэш или кнопку плюса.
Инструмент умеет обрабатывать как активную страницу, так и сразу несколько выбранных вкладок - это позволяет быстро сравнивать информацию или искать нужные данные в объёмных документах.
Google также подготовил библиотеку готовых skills, каждый из которых можно кастомизировать. Новая функция разворачивается на macOS, Windows и ChromeOS для англоязычных пользователей.
blog.google
ИИ-генератор изображений Midjourney обновился до версии 8.1. Главное нововведение - поддержка 2K. Создатели заявляют рост производительности в 3 раза по сравнению с V8, а стоимость генерации снизилась на две трети. В 1K-режиме V8.1 работает быстрее draft-режимов седьмого поколения модели.
Помимо оптимизации архитектуры, Midjourney прислушались к критике пользователей и вернули платформе узнаваемую художественную эстетику. В арсенал инструментов снова добавлена функция image-to-image, временно отключённая в предыдущей сборке.
Также команда обновила систему референсов стилей, доработала мудборды и представила обновлённую утилиту Describe для реверс-инжиниринга текстовых промптов по готовым изображениям.
Midjourney в сети Х
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👨💻18🎉8🤓6❤3👍1👏1😢1