Метаверсище и ИИще
47K subscribers
5.97K photos
4.42K videos
45 files
6.87K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.

А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
👍215👎3😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Move AI представил Gen 2 spatial motion: 3D motion capture, full-body dynamics, joint torques, ground reaction forces, advanced motion retargeting, motion prediction.

Из интересного, там на видео, они нейромокапят нейроперсонажа на нейровидео. Ну то есть достают болвана из сгенерированного видео.

Тренд на трекинга камеры, персонажей, доставание глубины и альфы из генератива продолжает развиваться.

А как еще композить генератив? Нейрокомпозом?

Ну и для контролНетов такие болваны точно пригодятся.

Выглядит, конечно сладко.

move.ai

@cgevent
🔥50👍204
VACE: Нейрокомпоз\генерация от Алибабы\Wan.

Прямо очень амбициозный проект, призванный сделать генерацию видео и его редактирование (читай композ) в одном месте. Этакий Нейронюк.

Если вкратце: VACE предлагает решения для создания и редактирования видео в рамках единой модели, позволяя пользователям исследовать разнообразные возможности и эффективно оптимизировать рабочие процессы, предлагая такие возможности, как Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything and more

Если чуть более детально, но не факт что понятнее: вместо одного входа (текст или картинка) - множественные входы (картинки, видосы), а вместо одной задачи за раз (генерация, инпайнт, экстенд) - одновременно несколько задач композа. Также упор на работу с масками и извлечение информации из видео (depth, grayscale, pose, scribble, optical flow, layout).

Как раз вчера писал в посте про Move AI, что видеогенерация явно обозначила тот факт, что "голое видео" интересует только тиктокеров и рилсоведов и что оно редко попадает в замысел.
Если уж съемочное видео всегда идет в композ и пост, но генератив еще больше нуждается в исправлении косяков. И в отличие от картинок, "отфотошопить картинку" и "скомозить видео" - это задачи из разных весовых вселенных.

За сим, довольно отрадно, что вместе с наращиванием качества, приподнарастают проекты по редактированию\композу видео - из которого для начала надо вытащить глубину, камеру, оптический поток, фон, контуры, позу. В общем все, что нейросетки уже умеют, но в виде говна и палок и с таким же качеством. И то, что за это берутся китайцы с неограниченным бюджетом, радует.

Хотя зная алибабу, помолимся на код.
Но у них на Гитхабе уже есть сладкие планы:
Wan-VACE Model Inference
LTX-VACE Model Inference
Inference Gradio & Preprocessing Tools
ComfyUI Workflow

Немного смущает, что они обучались на LTX, но речь идет не о генерации, а о тренировке задач композа:
VACE is trained based on Diffusion Transformers for text-to-video generation at various scales. It utilizes LTX-Video-2B [22] for faster generation, while Wan-T2V-14B [64] is used specifically for higher-quality outputs, supporting resolutions of up to 720p.

В общем, ждем Нейронюк, а точнее НейроНатрон.

Подробности тут:
https://ali-vilab.github.io/VACE-Page/

@cgevent
25🔥14👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Вот тут смешной проект 3DEnhancer

Я уж думал, что это нейроретоп, ан нет.

Мы, говорят, знаем, что из картинок получается хреновое 3Д. И вот мы щас диффузией улучшим входные картинки и ...

получается снова хреновое 3Д.

Пропускаем...

https://yihangluo.com/projects/3DEnhancer/

@cgevent
😁196👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Eye-sync

Держите видео из Хедры.

Надо сказать, они все-таки хорошо продвинулись в липсинке и устранению мыльности.

И мне нравится neck-sync - движение головы в зависимости от гласных и выдохов.

Но похоже есть новая проблема - айсинк\eye-sync.

Девушка, конечно, хорошая, но глаза у нее сбиваются то в кучку слева, то в кучку справа и ведут себя как лосось на нересте. Да, прослеживается попытка синхронизировать их с движением головы, но выглядит кринжово.

Но надо сказать, что Хедра отважно берется за шоты вполоборота, в то время, как остальные стараются отсиживаться (на крупных планах) в ракурсах "на камеру".

@cgevent
🔥48👍146😁3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот что нужно для нормального френдли UI.

Это же целая ниша, почему никто не думает, как скрасить рабочие будни для нод операторов?
Ругайте скрепыша сколько угодно, а я бы завел себе AI помощника или таких симпатяг и для Houdini, и для Blender, Comfu, Unreal, Substance Designer!

Эту прелесть для Python Editor можно взять тут

@CGIT_Vines
95🔥35👍25😁21
Media is too big
VIEW IN TELEGRAM
Немного Самбы от Тихонов Рекордс и Суно.

Мне кажется, такое уже должны брать на радио. Готовый хит.

@cgevent
👍48🔥8👎21
Forwarded from Сиолошная
В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают, что скоро должны).

Модель И видит вашу картинку, И рисует сама новую, без вызова отдельной модели, занимающейся генерацией. Это позволяет ей делать попиксельную копию, внося нужные изменения — смотрите примеры. И да, можно загрузить СВОЮ картинку, и после этого просить её перерисовать — так я сделал с крестиками-ноликами.

Можно придумать много всякого крутого, жду ваших креативов в комментариях!

Попробовать тут: https://aistudio.google.com/prompts/new_chat
(справа нужно выбрать модель «Gemini 2.0 Flash Experimental»)
30👍22🔥3👎1
До AGI нам очень далеко, гугл.
😁50👍9
Итак, лайфхак для Семицветика в Гемини.

Pencil drawing of flower with exactly seven petals.

Получаем 8 штук. Если повезёт, тут ключевое - drawing, чтобы гемини не копировала ромашки.

Скачиваем, даём на вход эту картинку.
"Сколько лепестков видишь?"
Семь!

Закрываем чат, сжигаем и выбрасывем подальше

Открываем новый. Загружаем картинку.
Скоко?
Восемь!

Change number of petal to exactly seven.

Готово!

@cgevent
😁49👍13🔥7
Ну, теперь точно за трехмерщиков!

BlenderMCP connects Blender to Claude via the Model Context Protocol (MCP) , letting Claude take the wheel and control Blender directly.

Клод рулит Блендором.

А вы сидите и покрикиваете в монитор...

Ну или просто дергаете за рычажок "Сделай красиво!" до истощения нерной системы.

Подробные инструкции тут:
https://github.com/ahujasid/blender-mcp

@cgevent
4🔥105😁279😱6👍5
Wan Effects!

Коллекция Wan2.1 14B 480p I2V LoRAs от Remade AI (там один чувак - Рехан Шейх).

Вдумайтесь, пару месяцев назад Пика вирусилась первыми эффектами типа сдавливания или надувания, а теперь мы видим все это в опенсорсе, в гораздо большем количестве, вполне себе качестве, а самое главное с бесконечными возможностями кастомизации.

Так и хочется взорать голосом двухминутного доктора "В интересное время живем\Куда катится мир"

И тут именно image2Video, что круто.

Будьте внимательны, у вани для каждой модели свои Лоры.

Прокликайте все лоры, там примеры промптов.

https://huggingface.co/collections/Remade-AI/wan21-14b-480p-i2v-loras-67d0e26f08092436b585919b

И вот, нашел демо, пока работает:
https://huggingface.co/spaces/multimodalart/remade-effects

Го пробовать и хохотать.

@cgevent
1🔥28👍115👎1😱1