Нейронавт | Нейросети в творчестве

MiniCPM-o 4.5

Потоковая дуплексная аудио-видео мультимодалка. Что ???
Видео и аудио понимает, ответы и речь генерирует, но только на английском и китайском

Собрано из SigLip2, Whisper-medium, CosyVoice2 и Qwen3-8B - всего 9B параметров

Заявлено:

— обрабатывает видео и аудио в реальном времени, одновременно генерируя текст и речь, "не блокируя потоки данных"

— понимает и генерирует речь на английском и китайском, может клонировать голос и имитировать разные роли по короткому аудиообразцу

— справляется с OCR-задачами, разбирает документы и таблицы, работает с текстами на более чем 30 языках;

— может вести диалоги, имитируя разных персонажей, подстраиваясь под заданный стиль общения

— поддерживает разные режимы работы: простой чат, стриминг, дуплексный режим для одновременной обработки нескольких потоков данных

Но судя по демо, далеко не все так радужно, попробуйте сами

Гитхаб
HF
Стриминговое демо с вебкой
Демо
Cookbook

#streaming #dialog #voicemode #voicecloning #vlm #realtime

👍10🔥2

1.73K views15:18

Нейронавт | Нейросети в творчестве

ACE-Step UI

инструмент для локального запуска ACE-Step 1.5

Спасибо @m_franz

#music #text2music #musicediting

👍17🔥1

1.45K views16:19

Нейронавт | Нейросети в творчестве

1:11

This media is not supported in your browser

VIEW IN TELEGRAM

Moya

Реалистичный человекоподобный женобот от китайской компании DroidUp

Робот умеет имитировать эмоции благодаря системе управления лицевыми мышцами. У Moya есть встроенная камера и алгоритмы искусственного интеллекта, которые помогают поддерживать зрительный контакт и генерировать микровыражения. Корпус робота имитирует структуру кожи, жировой ткани и мышц, а система терморегуляции поддерживает температуру поверхности на уровне 32–36 градусов Цельсия.

Короче самая продвинутая на сегодня имитация женщины

Продажи планируют начать в конце 2026 года, стоимость — около 173 тысяч долларов

А вы заметили что у чувака на видео у самого кожа нереалистичная силиконовая? Думайте

#robot

😁4😱3👍1🥴1

1.45K views17:22

Нейронавт | Нейросети в творчестве

Привыкайте

#humor

😁41❤3👍2

1.51K views18:22

Нейронавт | Нейросети в творчестве

#humor

😁25👍1🍌1

1.57K views19:22

Нейронавт | Нейросети в творчестве

1:27

This media is not supported in your browser

VIEW IN TELEGRAM

Claude Opus 4.6

особенно хорош в кодинге, анализе данных и работе с документами

#sota на агентом программировании, междисциплинарноме рассуждении, агентном поиске

Ну и главное - миллион токенов контекста

Claude.ai

#assistant #coding #agent

👍5👎3❤1

1.34K views06:07

Нейронавт | Нейросети в творчестве

GPT-5.3-Codex

Ну и конкуренты сразу тоже

Агентные задачи, код, взаимодействие с пользователем, анализ данных

#assistant #coding #agent

👍4👎2

1.34K views06:41

Нейронавт | Нейросети в творчестве

g.ai

А что, так можно было?!

#assistant

🤯6👍3🔥2😐1

1.28K views07:11

Нейронавт | Нейросети в творчестве

Kling 3.0 Prompting Guide

Kling 3.0 — модель, которая понимает кинематографический замысел, а не просто визуальные описания. Вот её ключевые фишки:

— думает кадрами, а не клипами: может генерировать до шести кадров в одном выводе, если описать каждый кадр как часть последовательности

— запоминает персонажей и объекты: если в начале описать основных персонажей и объекты, модель будет сохранять их консистентность на протяжении всех кадров

— хорошо реагирует на указания по движению: нужно чётко описывать, как двигается камера и персонажи, например, отслеживание, панорамирование, замирание

— работает с аудио: может генерировать диалоги, фоновые звуки и контролировать тон голоса, важно только чётко указывать, кто и когда говорит

— поддерживает длинные ролики до 15 секунд: можно описать развитие сцены во времени, как меняются действия и камера, и модель сделает непрерывное повествование

— умеет превращать статичные изображения в видео: берёт картинку за основу и добавляет движение и глубину, сохраняя детали вроде текста и вывесок

Вот вам пример шаблона промпта для Kling 3.0:

Сцена: [описание места, времени суток и атмосферы].

Персонажи:

— [имя или описание персонажа 1] — [действие или состояние];

— [имя или описание персонажа 2] — [действие или состояние].

Звуки и музыка:

— фоновые звуки: [например, шум дождя, гудение холодильника, музыка];

— диалоги:

[Персонаж 1, тон голоса]: «Текст реплики».

[Персонаж 2, тон голоса]: «Ответная реплика».
1

Движение камеры и персонажей:

— камера [например, панорамирует, отслеживает персонажа, делает крупный план];

— персонажи [например, подходят ближе, отходят, танцуют].

Кадры:

— кадр 1: [краткое описание кадра, композиция, что происходит];

— кадр 2: [описание следующего кадра, как он связан с предыдущим].

Длительность сцены: [указать, если важно, например, 5 секунд, 10 секунд].

#guide #prompting

👍7😁1👀1

1.15K viewsedited 07:41

Нейронавт | Нейросети в творчестве

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:14

This media is not supported in your browser

Dummy Forcing: Efficient Autoregressive Video Diffusion with Dummy Head

Метод ускорения видеогенерации, быстрее чем Self-Forcing. Контекстное окно длиннее чем у LongLive. Да, меряемся

НА 720p и 1080p скорость генерации увеличивается вдвое. Получают рилтайм 24.3 fps на H100. Для этого нужно 40 ГБ VRAM

Определяет «пустые» (dummy) блоки в моделях, которые почти не используют предыдущий контекст, а смотрят только на текущий кадр

Увеличивает длину кэша без серьёзного роста нагрузки на вычислительные ресурсы

Гитхаб

#optimization #realtime #image2video #text2video

👍5🔥1🤔1

1.71K views08:11

Нейронавт | Нейросети в творчестве

#humor

😁20👍8

1.32K views09:13

Нейронавт | Нейросети в творчестве

nanobot: Ultra-Lightweight Personal AI Assistant

ультралёгкий персональный ИИ-ассистент, вдохновлённый Clawdbot. Его главная фишка — компактность: всего около 3400 строк кода против более чем 430 тысяч у Clawdbot

Поддерживает несколько провайдеров ИИ-моделей

Умеет работать с локальными моделями через vLLM

Интегрируется с мессенджерами: Telegram, Discord, WhatsApp, Feishu

#assistant #agent

👍7😁2❤1🔥1

1.52K views10:13

Нейронавт | Нейросети в творчестве

1:22

Media is too big

VIEW IN TELEGRAM

Mureka V8

У Мурки уже 8 версия, в которой они заявляют что избавились от "иишности"

Имитирует человеческую логику в композиции, благодаря чему музыка получается связной и последовательной

Создаёт мелодии, которые развиваются, а не просто представляет набор экспериментальных отрывков

Под капотом своя разработка MusiCoT - там на сайте есть примеры работы генерилок с MusiCoT и без него

Визуал клипа от Skywork.ai

#musicediting #text2music

👍4❤3👎2😐1

1.66K views12:19

Нейронавт | Нейросети в творчестве

#humor

1😁16❤3👎3🔥3

1.28K views13:17

Нейронавт | Нейросети в творчестве

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

0:04

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models

Плагин от NVIDIA к видеогенераторам для удаления объектов с видео вместе с их эффектами - тенями, отражениями и т д. Не требует дообучения

На A100 работает в рилтайме

Гитхаб - прикручено к LTX-video, рекомендовано 32 ГБ VRAM

#plugin #videoediting #objectremoval #cleanup #realtime

🔥15🤔1

1.68K views15:18

About

Blog

Apps

Platform