Нейронавт | Нейросети в творчестве
11.1K subscribers
4.74K photos
4.1K videos
41 files
5.12K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
Media is too big
VIEW IN TELEGRAM
MiniCPM-o 4.5

Потоковая дуплексная аудио-видео мультимодалка. Что ???
Видео и аудио понимает, ответы и речь генерирует, но только на английском и китайском

Собрано из SigLip2, Whisper-medium, CosyVoice2 и Qwen3-8B - всего 9B параметров

Заявлено:

— обрабатывает видео и аудио в реальном времени, одновременно генерируя текст и речь, "не блокируя потоки данных"

— понимает и генерирует речь на английском и китайском, может клонировать голос и имитировать разные роли по короткому аудиообразцу

— справляется с OCR-задачами, разбирает документы и таблицы, работает с текстами на более чем 30 языках;

— может вести диалоги, имитируя разных персонажей, подстраиваясь под заданный стиль общения

— поддерживает разные режимы работы: простой чат, стриминг, дуплексный режим для одновременной обработки нескольких потоков данных

Но судя по демо, далеко не все так радужно, попробуйте сами

Гитхаб
HF
Стриминговое демо с вебкой
Демо
Cookbook

#streaming #dialog #voicemode #voicecloning #vlm #realtime
👍10🔥2
ACE-Step UI

инструмент для локального запуска ACE-Step 1.5

Спасибо @m_franz


#music #text2music #musicediting
👍17🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Moya

Реалистичный человекоподобный женобот от китайской компании DroidUp

Робот умеет имитировать эмоции благодаря системе управления лицевыми мышцами. У Moya есть встроенная камера и алгоритмы искусственного интеллекта, которые помогают поддерживать зрительный контакт и генерировать микровыражения. Корпус робота имитирует структуру кожи, жировой ткани и мышц, а система терморегуляции поддерживает температуру поверхности на уровне 32–36 градусов Цельсия.

Короче самая продвинутая на сегодня имитация женщины

Продажи планируют начать в конце 2026 года, стоимость — около 173 тысяч долларов

А вы заметили что у чувака на видео у самого кожа нереалистичная силиконовая? Думайте

#robot
😁4😱3👍1🥴1
Claude Opus 4.6

особенно хорош в кодинге, анализе данных и работе с документами

#sota на агентом программировании, междисциплинарноме рассуждении, агентном поиске

Ну и главное - миллион токенов контекста

Claude.ai

#assistant #coding #agent
👍5👎31
GPT-5.3-Codex

Ну и конкуренты сразу тоже

Агентные задачи, код, взаимодействие с пользователем, анализ данных

#assistant #coding #agent
👍4👎2
g.ai

А что, так можно было?!

#assistant
🤯6👍3🔥2😐1
Kling 3.0 Prompting Guide

Kling 3.0 — модель, которая понимает кинематографический замысел, а не просто визуальные описания. Вот её ключевые фишки:

— думает кадрами, а не клипами: может генерировать до шести кадров в одном выводе, если описать каждый кадр как часть последовательности

— запоминает персонажей и объекты: если в начале описать основных персонажей и объекты, модель будет сохранять их консистентность на протяжении всех кадров

— хорошо реагирует на указания по движению: нужно чётко описывать, как двигается камера и персонажи, например, отслеживание, панорамирование, замирание

— работает с аудио: может генерировать диалоги, фоновые звуки и контролировать тон голоса, важно только чётко указывать, кто и когда говорит

— поддерживает длинные ролики до 15 секунд: можно описать развитие сцены во времени, как меняются действия и камера, и модель сделает непрерывное повествование

— умеет превращать статичные изображения в видео: берёт картинку за основу и добавляет движение и глубину, сохраняя детали вроде текста и вывесок

Вот вам пример шаблона промпта для Kling 3.0:

Сцена: [описание места, времени суток и атмосферы].

Персонажи:

— [имя или описание персонажа 1] — [действие или состояние];

— [имя или описание персонажа 2] — [действие или состояние].

Звуки и музыка:

— фоновые звуки: [например, шум дождя, гудение холодильника, музыка];

— диалоги:

[Персонаж 1, тон голоса]: «Текст реплики».

[Персонаж 2, тон голоса]: «Ответная реплика».
1

Движение камеры и персонажей:

— камера [например, панорамирует, отслеживает персонажа, делает крупный план];

— персонажи [например, подходят ближе, отходят, танцуют].

Кадры:

— кадр 1: [краткое описание кадра, композиция, что происходит];

— кадр 2: [описание следующего кадра, как он связан с предыдущим].

Длительность сцены: [указать, если важно, например, 5 секунд, 10 секунд].


#guide #prompting
👍7😁1👀1
Dummy Forcing: Efficient Autoregressive Video Diffusion with Dummy Head

Метод ускорения видеогенерации, быстрее чем Self-Forcing. Контекстное окно длиннее чем у LongLive. Да, меряемся

НА 720p и 1080p скорость генерации увеличивается вдвое. Получают рилтайм 24.3 fps на H100. Для этого нужно 40 ГБ VRAM

Определяет «пустые» (dummy) блоки в моделях, которые почти не используют предыдущий контекст, а смотрят только на текущий кадр

Увеличивает длину кэша без серьёзного роста нагрузки на вычислительные ресурсы

Гитхаб

#optimization #realtime #image2video #text2video
👍5🔥1🤔1
nanobot: Ultra-Lightweight Personal AI Assistant

ультралёгкий персональный ИИ-ассистент, вдохновлённый Clawdbot. Его главная фишка — компактность: всего около 3400 строк кода против более чем 430 тысяч у Clawdbot

Поддерживает несколько провайдеров ИИ-моделей

Умеет работать с локальными моделями через vLLM

Интегрируется с мессенджерами: Telegram, Discord, WhatsApp, Feishu

#assistant #agent
👍7😁21🔥1
Media is too big
VIEW IN TELEGRAM
Mureka V8

У Мурки уже 8 версия, в которой они заявляют что избавились от "иишности"

Имитирует человеческую логику в композиции, благодаря чему музыка получается связной и последовательной

Создаёт мелодии, которые развиваются, а не просто представляет набор экспериментальных отрывков

Под капотом своя разработка MusiCoT - там на сайте есть примеры работы генерилок с MusiCoT и без него

Визуал клипа от Skywork.ai

#musicediting #text2music
👍43👎2😐1
OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models

Плагин от NVIDIA к видеогенераторам для удаления объектов с видео вместе с их эффектами - тенями, отражениями и т д. Не требует дообучения

На A100 работает в рилтайме

Гитхаб - прикручено к LTX-video, рекомендовано 32 ГБ VRAM

#plugin #videoediting #objectremoval #cleanup #realtime
🔥15🤔1