Нейронавт | Нейросети в творчестве
11.1K subscribers
4.76K photos
4.11K videos
41 files
5.13K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6813108708
Download Telegram
Gemini 3 Flash: frontier intelligence built for speed

Еще версия иишки от гугла

Мультимодальная модель почти на уровне Gemini 3 Pro но быстрее и дешевле

Тоже понимает картинки и видео, и аудио. Умеет кодить

#news #assistant
10👍2
SAM Audio

Изолятор источников звука на аудио (или видео со звуком) в реальном времени от Meta (запрещено в РФ)

Принимает три типа подсказок: текстовые, визуальные и временные. Например кликаем на видео на источник звука чтобы выделить его

Умеет изолировать как повседневные шумы так и музыкальные инструменты

Гитхаб
HF - доступ к моделям по запросу, могут не дать
Playground
Блогпост

Спасибо @EvgenyiPerm

#audioseparation #music2stem #demix #unmix #segmentation #denoise #audio2audio #multimodal
🔥10👍4🤯3👎1
Media is too big
VIEW IN TELEGRAM
V-RGBX: Video Editing with Accurate Controls over Intrinsic Properties

Комплексный редактор видео от Adobe на базе WAN2.1

Раскладывает видео на базовые компоненты (альбедо, нормали, материалы и освещённость), затем вносит изменения и применяет компоненты обратно.

Можно отредактировать один кадр и применить эти изменения ко всему видео.

Работает с разными задачами: от изменения внешнего вида объектов до переосвещения всей сцены

Код ждем

#videoediting #relighting #compositing #videoinpainting
🔥8👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Qwen Code v0.5.0

Обновлен инструмент для кодинга

— интегрируется с VSCode, имеет улучшенную кросс-платформенную совместимость

— нативный TypeScript SDK для лёгкой интеграции с Node/TS

— автоматически сохраняет сессии и продолжает разговоры

— поддерживает модели рассуждений, совместимые с OpenAI, включая DeepSeek V3.2 и Kimi-K2

— позволяет управлять пользовательскими инструментами через серверы, размещённые на SDK

— имеет поддержку русского языка благодаря добавлению интернационализации

— улучшает пользовательский опыт: можно настроить звуковые уведомления и видеть команды для возобновления сессии

— обеспечивает лучшую поддержку оболочки Ubuntu, ускоряет тайм-ауты SDK и повышает стабильность тестирования.

установка в терминале
npm install -g @qwen-code/qwen-code


Гитхаб

#coding #assistant
👍10🔥3
TurboDiffusion

Ускорение диффузной видеогенерации в 100 раз

Заменили стандартный механизм внимания на микс из SageAttention2++ и Sparse-Linear Attention
Плюс, дистиллировали до 4 шагов.

На такой архитектуре сделали 3 модельки WAN 2.1 T2V и одну WAN 2.2 I2V
И пишут что это еще нефинальные

Теперь заживем

Гитхаб
HF

#text2video #image2video #optimization
🤯11👍4🔥4😱3🍾3
ComfyUI обновил менеджер и прикрутил упрощенный интерфейс для скрытия структуры, лапши и вот этого всего

ComfyUI-Manager:

— может показывать подробную информацию о нодах до их установки, включая предварительный просмотр каждого узла в пакете

— устанавливает все недостающие узлы сразу, без необходимости делать это по одному

— обнаруживает конфликты зависимостей между пользовательскими узлами и показывает их с помощью визуальных индикаторов

— сканирует узлы и блокирует вредоносные, предупреждает пользователей о возможных угрозах

— ищет пользовательские узлы по названию пакета или имени отдельного узла

— поддерживает полную локализацию интерфейса

#comfyUI #news
18🔥4😁1😈1
This media is not supported in your browser
VIEW IN TELEGRAM
На видео засняли как админ с утра поднимается к ии-богам за новостями

#humor
😁24👍7💯1
This media is not supported in your browser
VIEW IN TELEGRAM
StereoSpace: Depth-Free Synthesis of Stereo Geometry via End-to-End Diffusion in a Canonical Space

Моделька превращает обычные изображения в стерео не используя явные данные о глубине

Гитхаб
Демо

#image2stereo #novelview #stereo
👍8😱1
Media is too big
VIEW IN TELEGRAM
Steer3D: Feedforward 3D Editing via Text-Steerable Image-to-3D

3D контролнет, с которым 3d-генерилки становятся 3d-редакторами

Гитхаб
HF

#3dediting #controlnet
🔥5👍2
Mistral OCR 3

Новая версия распознавалки текcтов документов от Mistral

Русский поддерживает

С недавно вышедшей HunyuanOCR почему-то себя не сравнивают

Playground
AI studio

#ocr #image2text #image2doc
👍8🤔1
Depth Any Panoramas: A Foundation Model for Panoramic Depth Estimation (DAP)

Модель для оценки глубины панорамных изображений.

За извлечение признаков отвечает DINOv3-Large

Гитхаб
Демо

#panorama2depth #image2depth
🔥8