Media is too big
VIEW IN TELEGRAM
MiniCPM-o 4.5
Потоковая дуплексная аудио-видео мультимодалка. Что ???
Видео и аудио понимает, ответы и речь генерирует, но только на английском и китайском
Собрано из SigLip2, Whisper-medium, CosyVoice2 и Qwen3-8B - всего 9B параметров
Заявлено:
— обрабатывает видео и аудио в реальном времени, одновременно генерируя текст и речь, "не блокируя потоки данных"
— понимает и генерирует речь на английском и китайском, может клонировать голос и имитировать разные роли по короткому аудиообразцу
— справляется с OCR-задачами, разбирает документы и таблицы, работает с текстами на более чем 30 языках;
— может вести диалоги, имитируя разных персонажей, подстраиваясь под заданный стиль общения
— поддерживает разные режимы работы: простой чат, стриминг, дуплексный режим для одновременной обработки нескольких потоков данных
Но судя по демо, далеко не все так радужно, попробуйте сами
Гитхаб
HF
Стриминговое демо с вебкой
Демо
Cookbook
#streaming #dialog #voicemode #voicecloning #vlm #realtime
Потоковая дуплексная аудио-видео мультимодалка. Что ???
Видео и аудио понимает, ответы и речь генерирует, но только на английском и китайском
Собрано из SigLip2, Whisper-medium, CosyVoice2 и Qwen3-8B - всего 9B параметров
Заявлено:
— обрабатывает видео и аудио в реальном времени, одновременно генерируя текст и речь, "не блокируя потоки данных"
— понимает и генерирует речь на английском и китайском, может клонировать голос и имитировать разные роли по короткому аудиообразцу
— справляется с OCR-задачами, разбирает документы и таблицы, работает с текстами на более чем 30 языках;
— может вести диалоги, имитируя разных персонажей, подстраиваясь под заданный стиль общения
— поддерживает разные режимы работы: простой чат, стриминг, дуплексный режим для одновременной обработки нескольких потоков данных
Но судя по демо, далеко не все так радужно, попробуйте сами
Гитхаб
HF
Стриминговое демо с вебкой
Демо
Cookbook
#streaming #dialog #voicemode #voicecloning #vlm #realtime
👍10🔥2
ACE-Step UI
инструмент для локального запуска ACE-Step 1.5
Спасибо @m_franz
#music #text2music #musicediting
инструмент для локального запуска ACE-Step 1.5
Спасибо @m_franz
#music #text2music #musicediting
👍17🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Moya
Реалистичный человекоподобный женобот от китайской компании DroidUp
Робот умеет имитировать эмоции благодаря системе управления лицевыми мышцами. У Moya есть встроенная камера и алгоритмы искусственного интеллекта, которые помогают поддерживать зрительный контакт и генерировать микровыражения. Корпус робота имитирует структуру кожи, жировой ткани и мышц, а система терморегуляции поддерживает температуру поверхности на уровне 32–36 градусов Цельсия.
Короче самая продвинутая на сегодня имитация женщины
Продажи планируют начать в конце 2026 года, стоимость — около 173 тысяч долларов
А вы заметили что у чувака на видео у самого кожа нереалистичная силиконовая? Думайте
#robot
Реалистичный человекоподобный женобот от китайской компании DroidUp
Робот умеет имитировать эмоции благодаря системе управления лицевыми мышцами. У Moya есть встроенная камера и алгоритмы искусственного интеллекта, которые помогают поддерживать зрительный контакт и генерировать микровыражения. Корпус робота имитирует структуру кожи, жировой ткани и мышц, а система терморегуляции поддерживает температуру поверхности на уровне 32–36 градусов Цельсия.
Короче самая продвинутая на сегодня имитация женщины
Продажи планируют начать в конце 2026 года, стоимость — около 173 тысяч долларов
А вы заметили что у чувака на видео у самого кожа нереалистичная силиконовая? Думайте
#robot
😁4😱3👍1🥴1
Claude Opus 4.6
особенно хорош в кодинге, анализе данных и работе с документами
#sota на агентом программировании, междисциплинарноме рассуждении, агентном поиске
Ну и главное - миллион токенов контекста
Claude.ai
#assistant #coding #agent
особенно хорош в кодинге, анализе данных и работе с документами
#sota на агентом программировании, междисциплинарноме рассуждении, агентном поиске
Ну и главное - миллион токенов контекста
Claude.ai
#assistant #coding #agent
👍5👎3❤1
GPT-5.3-Codex
Ну и конкуренты сразу тоже
Агентные задачи, код, взаимодействие с пользователем, анализ данных
#assistant #coding #agent
Ну и конкуренты сразу тоже
Агентные задачи, код, взаимодействие с пользователем, анализ данных
#assistant #coding #agent
👍4👎2
Kling 3.0 Prompting Guide
Kling 3.0 — модель, которая понимает кинематографический замысел, а не просто визуальные описания. Вот её ключевые фишки:
— думает кадрами, а не клипами: может генерировать до шести кадров в одном выводе, если описать каждый кадр как часть последовательности
— запоминает персонажей и объекты: если в начале описать основных персонажей и объекты, модель будет сохранять их консистентность на протяжении всех кадров
— хорошо реагирует на указания по движению: нужно чётко описывать, как двигается камера и персонажи, например, отслеживание, панорамирование, замирание
— работает с аудио: может генерировать диалоги, фоновые звуки и контролировать тон голоса, важно только чётко указывать, кто и когда говорит
— поддерживает длинные ролики до 15 секунд: можно описать развитие сцены во времени, как меняются действия и камера, и модель сделает непрерывное повествование
— умеет превращать статичные изображения в видео: берёт картинку за основу и добавляет движение и глубину, сохраняя детали вроде текста и вывесок
Вот вам пример шаблона промпта для Kling 3.0:
#guide #prompting
Kling 3.0 — модель, которая понимает кинематографический замысел, а не просто визуальные описания. Вот её ключевые фишки:
— думает кадрами, а не клипами: может генерировать до шести кадров в одном выводе, если описать каждый кадр как часть последовательности
— запоминает персонажей и объекты: если в начале описать основных персонажей и объекты, модель будет сохранять их консистентность на протяжении всех кадров
— хорошо реагирует на указания по движению: нужно чётко описывать, как двигается камера и персонажи, например, отслеживание, панорамирование, замирание
— работает с аудио: может генерировать диалоги, фоновые звуки и контролировать тон голоса, важно только чётко указывать, кто и когда говорит
— поддерживает длинные ролики до 15 секунд: можно описать развитие сцены во времени, как меняются действия и камера, и модель сделает непрерывное повествование
— умеет превращать статичные изображения в видео: берёт картинку за основу и добавляет движение и глубину, сохраняя детали вроде текста и вывесок
Вот вам пример шаблона промпта для Kling 3.0:
Сцена: [описание места, времени суток и атмосферы].
Персонажи:
— [имя или описание персонажа 1] — [действие или состояние];
— [имя или описание персонажа 2] — [действие или состояние].
Звуки и музыка:
— фоновые звуки: [например, шум дождя, гудение холодильника, музыка];
— диалоги:
[Персонаж 1, тон голоса]: «Текст реплики».
[Персонаж 2, тон голоса]: «Ответная реплика».
1
Движение камеры и персонажей:
— камера [например, панорамирует, отслеживает персонажа, делает крупный план];
— персонажи [например, подходят ближе, отходят, танцуют].
Кадры:
— кадр 1: [краткое описание кадра, композиция, что происходит];
— кадр 2: [описание следующего кадра, как он связан с предыдущим].
Длительность сцены: [указать, если важно, например, 5 секунд, 10 секунд].
#guide #prompting
👍7😁1👀1
Dummy Forcing: Efficient Autoregressive Video Diffusion with Dummy Head
Метод ускорения видеогенерации, быстрее чем Self-Forcing. Контекстное окно длиннее чем у LongLive. Да, меряемся
НА 720p и 1080p скорость генерации увеличивается вдвое. Получают рилтайм 24.3 fps на H100. Для этого нужно 40 ГБ VRAM
Определяет «пустые» (dummy) блоки в моделях, которые почти не используют предыдущий контекст, а смотрят только на текущий кадр
Увеличивает длину кэша без серьёзного роста нагрузки на вычислительные ресурсы
Гитхаб
#optimization #realtime #image2video #text2video
Метод ускорения видеогенерации, быстрее чем Self-Forcing. Контекстное окно длиннее чем у LongLive. Да, меряемся
НА 720p и 1080p скорость генерации увеличивается вдвое. Получают рилтайм 24.3 fps на H100. Для этого нужно 40 ГБ VRAM
Определяет «пустые» (dummy) блоки в моделях, которые почти не используют предыдущий контекст, а смотрят только на текущий кадр
Увеличивает длину кэша без серьёзного роста нагрузки на вычислительные ресурсы
Гитхаб
#optimization #realtime #image2video #text2video
👍5🔥1🤔1
nanobot: Ultra-Lightweight Personal AI Assistant
ультралёгкий персональный ИИ-ассистент, вдохновлённый Clawdbot. Его главная фишка — компактность: всего около 3400 строк кода против более чем 430 тысяч у Clawdbot
Поддерживает несколько провайдеров ИИ-моделей
Умеет работать с локальными моделями через vLLM
Интегрируется с мессенджерами: Telegram, Discord, WhatsApp, Feishu
#assistant #agent
ультралёгкий персональный ИИ-ассистент, вдохновлённый Clawdbot. Его главная фишка — компактность: всего около 3400 строк кода против более чем 430 тысяч у Clawdbot
Поддерживает несколько провайдеров ИИ-моделей
Умеет работать с локальными моделями через vLLM
Интегрируется с мессенджерами: Telegram, Discord, WhatsApp, Feishu
#assistant #agent
👍7😁2❤1🔥1
Media is too big
VIEW IN TELEGRAM
Mureka V8
У Мурки уже 8 версия, в которой они заявляют что избавились от "иишности"
Имитирует человеческую логику в композиции, благодаря чему музыка получается связной и последовательной
Создаёт мелодии, которые развиваются, а не просто представляет набор экспериментальных отрывков
Под капотом своя разработка MusiCoT - там на сайте есть примеры работы генерилок с MusiCoT и без него
Визуал клипа от Skywork.ai
#musicediting #text2music
У Мурки уже 8 версия, в которой они заявляют что избавились от "иишности"
Имитирует человеческую логику в композиции, благодаря чему музыка получается связной и последовательной
Создаёт мелодии, которые развиваются, а не просто представляет набор экспериментальных отрывков
Под капотом своя разработка MusiCoT - там на сайте есть примеры работы генерилок с MusiCoT и без него
Визуал клипа от Skywork.ai
#musicediting #text2music
👍4❤3👎2😐1
OmnimatteZero: Fast Training-free Omnimatte with Pre-trained Video Diffusion Models
Плагин от NVIDIA к видеогенераторам для удаления объектов с видео вместе с их эффектами - тенями, отражениями и т д. Не требует дообучения
На A100 работает в рилтайме
Гитхаб - прикручено к LTX-video, рекомендовано 32 ГБ VRAM
#plugin #videoediting #objectremoval #cleanup #realtime
Плагин от NVIDIA к видеогенераторам для удаления объектов с видео вместе с их эффектами - тенями, отражениями и т д. Не требует дообучения
На A100 работает в рилтайме
Гитхаб - прикручено к LTX-video, рекомендовано 32 ГБ VRAM
#plugin #videoediting #objectremoval #cleanup #realtime
🔥15🤔1