Molmo 2: State-of-the-art video understanding, pointing, and tracking
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
Семейство пониматоров видео и изображений от AI2 (Allen AI)
#SOTA среди открытых моделей
— обгоняет Gemini 3 Pro и другие открытые модели в отслеживании объектов в видео
— поддерживает работу с одиночными изображениями, несколькими изображениями и видеоклипами разной длины
— указывает конкретные события и объекты в видео, а не просто даёт описательные ответы
— выполняет подсчёт объектов с указанием их местоположения, отслеживание нескольких объектов, плотную разметку видео, обнаружение аномалий и артефактов, работает с субтитрами в видео
Molmo 2 (8B) — лучшая общая модель для работы с видео
Molmo 2 (4B) — оптимизирована для эффективности
Эти две модели на базе Qwen 3
Molmo 2-O (7B) — полностью открытая модель с контролем над всеми компонентами
Playground
HF
#vlm #multimodal
👍8🔥2❤1
Нейронавт | Нейросети в творчестве
ChatGPT Images Быстрый и точный редактор картинок от Open AI Новый король? посмотрим Пробуем в ChatGPT #imageediting #text2image
Openai
Gpt-image-1.5 Prompting Guide
gpt-image-1.5 is our latest image generation model, designed for production-quality visuals and highly controllable creative workflows. It d
👍5👎1
This media is not supported in your browser
VIEW IN TELEGRAM
Music Videos by Mozart AI
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
Короче вот в чем суть обновки у генератора музыки Mozart AI
Они теперь делают видеоклипы до минуты хронометража
Vibe Sessions — путь от идеи к готовой песне и музыкальному видео в формате чата
Studio Session — среда мультитрек, генерирует стемы и лупы, работает с MIDI-инструментами, эффектами, делает аутпейнтинг и расширения, использует микшер
Ну что ж, суно и удио ушли, на поляне стало просторнее
#music #vusicediting #music2video #musicvideo #midi
👍6🔥3👎1
Gemini 3 Flash: frontier intelligence built for speed
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
Еще версия иишки от гугла
Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле
Тоже понимает картинки и видео, и аудио. Умеет кодить
#news #assistant
❤10👍2
SAM Audio
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)
Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его
Умеет изолировать как повседневные шумы так и музыкальные инструменты
Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост
Спасибо @EvgenyiPerm
#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥10👍4🤯3👎1
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
Комплексный редактор видео от Adobe на базе WAN2.1
Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.
Можно отредактировать один кадр и применить эти изменения ко всему видео.
Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены
Код ждем
#videoediting #relighting #compositing #videoinpainting
🔥8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
Гитхаб
#coding #assistant
Обновлен инструмент для кодинга
— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость
— нативный TypeScript SDK для лёгкой интеграции с Node/TS
— автоматически сохраняет сессии и продолжает разговоры
— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2
— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK
— имеет поддержку русского языка благодаря добавлению интернационализации
— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии
— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.
установка в терминале
npm install -g @qwen-code/qwen-code
Гитхаб
#coding #assistant
👍10🔥3
TurboDiffusion
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
Ускорение диффузной видеогенерации в 100 раз
Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.
На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные
Теперь заживем
Гитхаб
HF
#text2video #image2video #optimization
🤯11👍4🔥4😱3🍾3
ComfyUI обновил менеджер и прикрутил упрощенный интерфейс для скрытия структуры, лапши и вот этого всего
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
ComfyUI-Manager:
— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете
— устанавливает все недостающие узлы сразу, без необходимости делать это по одному
— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов
— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах
— ищет пользовательские узлы по названию пакета или имени отдельного узла
— поддерживает полную локализацию интерфейса
#comfyUI #news
❤18🔥4😁1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space
Моделька превращает обычные изображения в стерео не используя явные данные о глубине
Гитхаб
Демо
#image2stereo #novelview #stereo
Моделька превращает обычные изображения в стерео не используя явные данные о глубине
Гитхаб
Демо
#image2stereo #novelview #stereo
👍8😱1
Media is too big
VIEW IN TELEGRAM
Steer3D: Feedforward 3D Editing via Text-Steerable Image-to-3D
3D контролнет, с которым 3d-генерилки становятся 3d-редакторами
Гитхаб
HF
#3dediting #controlnet
3D контролнет, с которым 3d-генерилки становятся 3d-редакторами
Гитхаб
HF
#3dediting #controlnet
🔥5👍2
Mistral OCR 3
Новая версия распознавалкитекcтов документов от Mistral
Русский поддерживает
С недавно вышедшей HunyuanOCR почему-то себя не сравнивают
Playground
AI studio
#ocr #image2text #image2doc
Новая версия распознавалки
Русский поддерживает
С недавно вышедшей HunyuanOCR почему-то себя не сравнивают
Playground
AI studio
#ocr #image2text #image2doc
👍8🤔1