Нейронавт | Нейросети в творчестве
10.9K subscribers
4.6K photos
3.93K videos
41 files
4.94K links
Канал про нейросети в компьютерной графике, в кино и вообще

В папках не участвую

для связи @Neuronauticus

Заявка на регистрацию в РКН № 6309426111
Download Telegram
Нас набралось 15 человек, встрече быть

Всех кто собрался идти, приглашаю в отдельный чат
Остальных прошу не беспокоиться, там кроме обсуждения адреса и времени встречи ничего не будет

Всем ☮️

#оффтоп
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7
Media is too big
VIEW IN TELEGRAM
Продолжаем публиковать ваши #работыподписчиков за прошлый год

Автор @otyakovsky :
Театральный режИИссёр Дмитрий Отяковский, известный своими цифровыми спектаклями, снял уютный нейроклип, посвященный постоянным отключениям связи ☺️

а в своём втором канале он провел бесплатный мастеркласс по инструментам, которые использовал. посмотреть запись можно в закрепе здесь https://xn--r1a.website/+J6IMUKkFw80zMzYy
👍10👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Taming Hallucinations: Boosting MLLMs’ Video Understanding via Counterfactual Video Generation

Alibaba борется с галлюцинациями мультимодалок на понимании видео. Для этого генерируют для каждого видео пару с поломкой логики и пары вопросов-ответов

Код вероятно будет
Веса вероятно будут

#mllm #vlm #optimization
👍8🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
AdaGaR: Adaptive Gabor Representation for Dynamic Scene Reconstruction

Еще один реконструктор динамических 3D-сцен (4D сцен, получется) из монокулярных видео. Захватывает детали внешнего вида и одновременно обеспечивает плавное движение

Модель использует адаптивное представление Габора — это что-то среднее между гауссианами и габор-функциями, что позволяет балансировать между детализацией и стабильностью изображения

Код ждем

#rendering #video2scene #videoto4d #gaussian #novelview
9👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Talk2Move: Reinforcement Learning for Text-Instructed Object-Level Geometric Transformation in Scenes

Модель от Amazon по текстовой инструкции меняет расположение, поворот и размер объектов на картинке

Код ждем

#imageediting
👍12😱1
This media is not supported in your browser
VIEW IN TELEGRAM
VINO: A Unified Visual Generator with Interleaved OmniModal Context

Картинко- и видеогенератор / редактор от Kling Team

работает с несколькими источниками данных одновременно — текстом, изображениями, видеоконтекстом

Базовая модель для видеогенерации — HunyuanVideo. Для обработки текста и изображений используется Qwen3-VL

Код ждем. репозиторий называется SOTAMak1r 🤩

#imageediting #videoedititng #referencing
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍6😁2
Biniou

Веб-интерфейс-агрегатор для локальной работы с нейросетками.
Картинки, видео, аудио, LLM - все есть.

Впервые услышал о нем в апреле 2024, тогда на винде он самоуверенно все устанавливал на диск C:

Теперь если вас это не устраивает, можно выбрать другое место установки, для этого используйте способ установки через install_win.cmd

⚠️ Ну и вообще, автор рекомендует сделать перед установкой бэкап системы

Возможно подойдет на смену Pinokio который после переработки у меня не устанавливается, а автор игнорирует мой issue в гитхабе

Спасибо @EvgenyiPerm

#GUI #windows #macos #linux #tools
👍10🔥1🤔1
Нейронавт | Нейросети в творчестве
#humor
Алиса не отстает от нейронки гугла, но есть нюанс

#humor
😁44👍1
NextFlow: Unified Sequential Modeling Activates Multimodal Understanding and Generation

Пониматор-генератор-редактор картинок и видео от ByteDance

Работает с текстом и изображениями одновременно. Обрабатывает перемешанные текстовые и визуальные данные и генерирует контент

Быстрый, создает картинки размером 1024x1024 всего за 5 секунд

И вообще #sota на двух бенчах DPG (88.32) и ImgEdit (4.49). Это уровень специализированных диффузных генераторов + рассуждательные способности LLM

Под капотом притаилось что-то основанное на Qwen2.5-VL-7B

Код ждем наверно

#vlm #multimodal #mllm #imageediting #CoT
🔥5👍1