Machinelearning

⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи

Главная фишка - Audio Tags.

Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.

Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)

На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).

Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/

@ai_machinelearning_big_data

#google `#tts

👍117👏30❤24🔥21🤩6💯4☃2🎉2

15.8K viewsedited 16:13

✔️

OpenAI представила модель GPT-5.4-Cyber для специалистов по кибербезопасности

В отличие от базовых версий, у модели снижен порог отказов: фильтры безопасности не блокируют запросы на поиск багов и оборонительное программирование.

GPT-5.4-Cyber получила продвинутые возможности бинарного реверс-инжиниринга - исследователи могут анализировать скомпилированное ПО на наличие вредоносных компонентов и уязвимостей, даже не имея доступа к исходному коду.

Из-за двойного назначения функционала доступ к модели строго регулируется. OpenAI распространяет новинку через программу Trusted Access for Cyber: нужна верификация личности, а корпоративным клиентам - одобрение профильного менеджера.
openai.com

⚡️

Anthropic внедряет систему верификации личности

Компания начала проверять личность пользователей в рамках регулярных процедур безопасности. Технический партнёр инициативы - сервис Persona. Для процедуры понадобится паспорт, водительские права или ID-карта, а также камера для селфи. Цифровые версии документов, ксерокопии и студенческие билеты система не принимает.

В Anthropic обещают не использовать собранные данные для обучения ИИ-моделей. Фото документов и биометрия шифруются и хранятся на серверах Persona. Разработчик Claude выступает лишь контроллером данных и запрашивает доступ к записям только в спорных ситуациях - например, при апелляции на блокировку аккаунта.
support.claude.com

✔️

World Labs выложила в опенсорс движок рендеринга 3D-сцен в браузере

Стартап представил открытый рендерер Spark 2.0 на базе THREE.js и WebGL2, который плавно отрисовывает локации из 100 млн 3D-гауссианов прямо в браузере. Обычное железо с трудом переваривает больше пяти миллионов точек, поэтому разработчикам пришлось полностью перестроить пайплайн загрузки графики.

Производительность обеспечивают три механизма. Иерархическая система детализации подбирает оптимальное количество гауссианов под выделенный бюджет рендеринга, сохраняя стабильный FPS. Тяжёлые ассеты обрабатываются стримингом: новый формат .RAD выводит базовый каркас, а затем динамически подтягивает детали в зависимости от угла обзора камеры. Память управляется через резервирование фиксированного пула на GPU и постраничного тасования блоков данных.

Ядро Spark 2.0 написано на Rust, скомпилировано в WebAssembly и вынесено в фоновый Web Worker. Изначально это был внутренний инструмент для ИИ-генератора 3D-миров Marble, но теперь он общедоступен.
worldlabs.ai

✔️

В Google Chrome добавили функцию Skills для промптов

В десктопной версии Chrome появилась функция Skills: больше не нужно повторно вводить запросы к Gemini. Удачные промпты теперь можно сохранять из истории чата и запускать в один клик через слэш или кнопку плюса.

Инструмент умеет обрабатывать как активную страницу, так и сразу несколько выбранных вкладок - это позволяет быстро сравнивать информацию или искать нужные данные в объёмных документах.

Google также подготовил библиотеку готовых skills, каждый из которых можно кастомизировать. Новая функция разворачивается на macOS, Windows и ChromeOS для англоязычных пользователей.
blog.google

✔️

Midjourney выпустила версию 8.1

ИИ-генератор изображений Midjourney обновился до версии 8.1. Главное нововведение - поддержка 2K. Создатели заявляют рост производительности в 3 раза по сравнению с V8, а стоимость генерации снизилась на две трети. В 1K-режиме V8.1 работает быстрее draft-режимов седьмого поколения модели.

Помимо оптимизации архитектуры, Midjourney прислушались к критике пользователей и вернули платформе узнаваемую художественную эстетику. В арсенал инструментов снова добавлена функция image-to-image, временно отключённая в предыдущей сборке.

Также команда обновила систему референсов стилей, доработала мудборды и представила обновлённую утилиту Describe для реверс-инжиниринга текстовых промптов по готовым изображениям.
Midjourney в сети Х

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👨‍💻18🎉8🤓6❤3👍1👏1😢1

5.25K views05:48

About

Blog

Apps

Platform