Нейронавт | Нейросети в творчестве

chatterbox-turbo

Новая версия голосовой модели от Resemble AI, всего 350М параметров

Для естественности можно добавлять паралингвистические теги, например [cough], [laugh], [chuckle]

В аудиофайлы, созданные с помощью Chatterbox, встраиваются незаметные нейронные водяные знаки Perth, которые сохраняются при сжатии MP3, редактировании аудио и других манипуляциях

Ну и главное - есть мультиязычная версия модели на 500М параметров, поддерживающая более 23 языков, в том числе русский

HF
Демо
Демо мультиязычный - спасибо @Black_human

#voicecloning #tts #russian

🔥11👍2

2.19K views12:16

Нейронавт | Нейросети в творчестве

1:26

This media is not supported in your browser

VIEW IN TELEGRAM

Molmo 2: State-of-the-art video understanding, pointing, and tracking

Семейство пониматоров видео и изображений от AI2 (Allen AI)

#SOTA среди открытых моделей

— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео

— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины

— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы

— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео

Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности

Эти две модели на базе Qwen 3

Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами

Playground
HF

#vlm #multimodal

👍8🔥2❤1

2.29K views13:16

Нейронавт | Нейросети в творчестве

ChatGPT Images Быстрый и точный редактор картинок от Open AI Новый король? посмотрим Пробуем в ChatGPT #imageediting #text2image

Gpt-image-1.5 Prompting Guide

Руководство по промптингу Gpt-image-1.5

#prompting #guide

Openai

Gpt-image-1.5 Prompting Guide

gpt-image-1.5 is our latest image generation model, designed for production-quality visuals and highly controllable creative workflows. It d

👍5👎1

1.7K views14:17

Нейронавт | Нейросети в творчестве

1:30

This media is not supported in your browser

VIEW IN TELEGRAM

Music Videos by Mozart AI

Короче вот в чем суть обновки у генератора музыки Mozart AI

Они теперь делают видеоклипы до минуты хронометража

Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата

Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер

Ну что ж, суно и удио ушли, на поляне стало просторнее

#music #vusicediting #music2video #musicvideo #midi

👍6🔥3👎1

2.33K views15:18

Нейронавт | Нейросети в творчестве

Gemini 3 Flash: frontier intelligence built for speed

Еще версия иишки от гугла

Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле

Тоже понимает картинки и видео, и аудио. Умеет кодить

#news #assistant

❤10👍2

2.04K views16:11

Нейронавт | Нейросети в творчестве

1:09

This media is not supported in your browser

VIEW IN TELEGRAM

0:09

This media is not supported in your browser

VIEW IN TELEGRAM

SAM Audio

Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)

Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его

Умеет изолировать как повседневные шумы так и музыкальные инструменты

Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост

Спасибо @EvgenyiPerm

#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal

🔥10👍4🤯3👎1

1.74K views07:41

Нейронавт | Нейросети в творчестве

2:06

Media is too big

VIEW IN TELEGRAM

V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Комплексный редактор видео от Adobe на базе WAN2.1

Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.

Можно отредактировать один кадр и применить эти изменения ко всему видео.

Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены

Код ждем

#videoediting #relighting #compositing #videoinpainting

🔥8👍1

1.94K views09:12

Нейронавт | Нейросети в творчестве

1:51

This media is not supported in your browser

VIEW IN TELEGRAM

Qwen Code v0.5.0

Обновлен инструмент для кодинга

— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость

— нативный TypeScript SDK для лёгкой интеграции с Node/TS

— автоматически сохраняет сессии и продолжает разговоры

— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2

— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK

— имеет поддержку русского языка благодаря добавлению интернационализации

— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии

— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.

установка в терминале

npm install -g @qwen-code/qwen-code

Гитхаб

#coding #assistant

👍10🔥3

2.2K views10:13

Нейронавт | Нейросети в творчестве

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

TurboDiffusion

Ускорение диффузной видеогенерации в 100 раз

Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.

На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные

Теперь заживем

Гитхаб
HF

#text2video #image2video #optimization

🤯11👍4🔥4😱3🍾3

2.37K views14:12

Нейронавт | Нейросети в творчестве

1:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:51

This media is not supported in your browser

VIEW IN TELEGRAM

ComfyUI обновил менеджер и прикрутил упрощенный интерфейс для скрытия структуры, лапши и вот этого всего

ComfyUI-Manager:

— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете

— устанавливает все недостающие узлы сразу, без необходимости делать это по одному

— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов

— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах

— ищет пользовательские узлы по названию пакета или имени отдельного узла

— поддерживает полную локализацию интерфейса

#comfyUI #news

❤18🔥4😁1😈1

1.94K views15:18

Нейронавт | Нейросети в творчестве

#humor

😁16👍1

1.77K views17:12

Нейронавт | Нейросети в творчестве

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

На видео засняли как админ с утра поднимается к ии-богам за новостями

#humor

😁24👍7💯1

1.84K views05:08

Нейронавт | Нейросети в творчестве

This media is not supported in your browser

VIEW IN TELEGRAM

StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

Моделька превращает обычные изображения в стерео не используя явные данные о глубине

Гитхаб
Демо

#image2stereo #novelview #stereo

👍8😱1

1.87K views06:12

Нейронавт | Нейросети в творчестве

0:22

Media is too big

VIEW IN TELEGRAM

Steer3D: Feedforward 3D Editing via Text-Steerable Image-to-3D

3D контролнет, с которым 3d-генерилки становятся 3d-редакторами

Гитхаб
HF

#3dediting #controlnet

🔥5👍2

1.95K viewsedited 07:08

Нейронавт | Нейросети в творчестве

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

Mistral OCR 3

Новая версия распознавалки ~~текcтов~~ документов от Mistral

Русский поддерживает

С недавно вышедшей HunyuanOCR почему-то себя не сравнивают

Playground
AI studio

#ocr #image2text #image2doc

👍8🤔1

2.1K views08:11

About

Blog

Apps

Platform