Метаверсище и ИИще
47K subscribers
5.97K photos
4.41K videos
45 files
6.87K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Ну за рото и кей.

В Комфи привезли MatAnything.

Нужна маска только для первого кадра, дальше автоматом.

https://github.com/KytraScript/ComfyUI_MatAnyone_Kytra

@cgevent
360🔥25👎9👍8😁3
Похоже Микрософт и OpenAI потихоньку ссорятся.

Поскольку деньги для OpenAI, похоже, не проблема, то они мало того, что начинают покупать железо на стороне (и не использовать Микрософт Клауд), так они еще и инвестируют в конкурентов.

OpenAI подписала пятилетнее соглашение на сумму 11,9 млрд долларов с поставщиком облачных услуг CoreWeave, у которой где-то 32 дата центра и четверть миллиона(!) GPU от Nvidia.
У самой Nvidia 6% в CoreWeave, а OpenAI получил акций CoreWave на 370M.
OpenAI не только получит доступ к этому облаку, но и станет владельцем доли в компании, которая им управляет.
Пикантность в том, до этой сделки крупнейшим клиентом CoreWeave была Microsoft - фактически, в 2024 году на долю Microsoft пришлось 62% выручки CoreWeave.
И теперь OpenAI меняется местами с Микрософт, они имеют влияние на CoreWave и могут решать кому выделять мощности.

Микрософт в долгу не остается. Она работает над собственными моделями «рассуждений» (cемейство MAI), сопоставимыми с моделями o1 и o3-mini от OpenAI. Которые будет внедрять в свой Копилот, чтобы уйти от зависимости от OpenAI.

В общем, Наделла такой: может зря я спасал Альтмана в ноябре 23 года?

Ну и кстати, CoreWave довольно мутная компания, это бывшие майнеры с огромными долгами, переобувшиеся в датацентры.

Но кого это трясет, когда речь идет про GPU?

https://techcrunch.com/2025/03/10/in-another-chess-move-with-microsoft-openai-is-pouring-12b-into-coreweave/

@cgevent
😁28🔥9👍83
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендер без костылей.

Мои любимые DeemosTech бахнули вот такую демку.
Это те, которые Rodin, image-to-3D и вот это вот все.

Обратите внимание, что это не просто генерация каждого кадра с помощью Stable Diffusion или Flux. Это консистентный нейрорендер, тут ничего не бурлит. По сути - video2video генератор.
В принципе сейчас можно собирать что-подобное в несколько шагов. Черновой рендер, стилизация первого кадра и пропускание этого через Runway Style Reference.
Вопрос в том, будет ли у Rodin\Deemos своя видеомодель или они будут перепродавать АПИ.

Пока есть только приглашение в бету и обещания сделать что-то в этом году.

@cgevent
🔥48👍169😁1
Хунь и Вань (Hunyuan и Wan 2.1) борются за Stable Diffusion Moment в области видеогенерации.

На https://civitai.com/models появилась категория WanVideo для фильтрации моделей по определенным признакам.

В общем, если вы выберете в фильтрах Lora и WanVideo, то увидите, для чего все эти видеогенераторы нужны человечеству (статистика упрямая штука). А если выберете Lora и HunyuanVideo, то гипотеза подтвердится.

Но сдается мне, что несмотря на то, что по количеству Лор Хунь сильно уделывает Вань, по качеству Вань, похоже, уделывает Хунь. Ну и начали они позже.

Конкуренция, это прекрасно, ящетаю.

@cgevent
🔥49👍14😁62
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.

А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
👍215👎3😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Move AI представил Gen 2 spatial motion: 3D motion capture, full-body dynamics, joint torques, ground reaction forces, advanced motion retargeting, motion prediction.

Из интересного, там на видео, они нейромокапят нейроперсонажа на нейровидео. Ну то есть достают болвана из сгенерированного видео.

Тренд на трекинга камеры, персонажей, доставание глубины и альфы из генератива продолжает развиваться.

А как еще композить генератив? Нейрокомпозом?

Ну и для контролНетов такие болваны точно пригодятся.

Выглядит, конечно сладко.

move.ai

@cgevent
🔥50👍204
VACE: Нейрокомпоз\генерация от Алибабы\Wan.

Прямо очень амбициозный проект, призванный сделать генерацию видео и его редактирование (читай композ) в одном месте. Этакий Нейронюк.

Если вкратце: VACE предлагает решения для создания и редактирования видео в рамках единой модели, позволяя пользователям исследовать разнообразные возможности и эффективно оптимизировать рабочие процессы, предлагая такие возможности, как Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything and more

Если чуть более детально, но не факт что понятнее: вместо одного входа (текст или картинка) - множественные входы (картинки, видосы), а вместо одной задачи за раз (генерация, инпайнт, экстенд) - одновременно несколько задач композа. Также упор на работу с масками и извлечение информации из видео (depth, grayscale, pose, scribble, optical flow, layout).

Как раз вчера писал в посте про Move AI, что видеогенерация явно обозначила тот факт, что "голое видео" интересует только тиктокеров и рилсоведов и что оно редко попадает в замысел.
Если уж съемочное видео всегда идет в композ и пост, но генератив еще больше нуждается в исправлении косяков. И в отличие от картинок, "отфотошопить картинку" и "скомозить видео" - это задачи из разных весовых вселенных.

За сим, довольно отрадно, что вместе с наращиванием качества, приподнарастают проекты по редактированию\композу видео - из которого для начала надо вытащить глубину, камеру, оптический поток, фон, контуры, позу. В общем все, что нейросетки уже умеют, но в виде говна и палок и с таким же качеством. И то, что за это берутся китайцы с неограниченным бюджетом, радует.

Хотя зная алибабу, помолимся на код.
Но у них на Гитхабе уже есть сладкие планы:
Wan-VACE Model Inference
LTX-VACE Model Inference
Inference Gradio & Preprocessing Tools
ComfyUI Workflow

Немного смущает, что они обучались на LTX, но речь идет не о генерации, а о тренировке задач композа:
VACE is trained based on Diffusion Transformers for text-to-video generation at various scales. It utilizes LTX-Video-2B [22] for faster generation, while Wan-T2V-14B [64] is used specifically for higher-quality outputs, supporting resolutions of up to 720p.

В общем, ждем Нейронюк, а точнее НейроНатрон.

Подробности тут:
https://ali-vilab.github.io/VACE-Page/

@cgevent
25🔥14👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Вот тут смешной проект 3DEnhancer

Я уж думал, что это нейроретоп, ан нет.

Мы, говорят, знаем, что из картинок получается хреновое 3Д. И вот мы щас диффузией улучшим входные картинки и ...

получается снова хреновое 3Д.

Пропускаем...

https://yihangluo.com/projects/3DEnhancer/

@cgevent
😁196👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Eye-sync

Держите видео из Хедры.

Надо сказать, они все-таки хорошо продвинулись в липсинке и устранению мыльности.

И мне нравится neck-sync - движение головы в зависимости от гласных и выдохов.

Но похоже есть новая проблема - айсинк\eye-sync.

Девушка, конечно, хорошая, но глаза у нее сбиваются то в кучку слева, то в кучку справа и ведут себя как лосось на нересте. Да, прослеживается попытка синхронизировать их с движением головы, но выглядит кринжово.

Но надо сказать, что Хедра отважно берется за шоты вполоборота, в то время, как остальные стараются отсиживаться (на крупных планах) в ракурсах "на камеру".

@cgevent
🔥48👍146😁3
Forwarded from CGIT_Vines (Marvin Heemeyer)
This media is not supported in your browser
VIEW IN TELEGRAM
Вот что нужно для нормального френдли UI.

Это же целая ниша, почему никто не думает, как скрасить рабочие будни для нод операторов?
Ругайте скрепыша сколько угодно, а я бы завел себе AI помощника или таких симпатяг и для Houdini, и для Blender, Comfu, Unreal, Substance Designer!

Эту прелесть для Python Editor можно взять тут

@CGIT_Vines
95🔥35👍25😁21
Media is too big
VIEW IN TELEGRAM
Немного Самбы от Тихонов Рекордс и Суно.

Мне кажется, такое уже должны брать на радио. Готовый хит.

@cgevent
👍48🔥8👎21
Forwarded from Сиолошная
В Google AI Studio можно БЕС ПЛАТ НО попробовать новую фичу: нативная генерация изображений той же моделью, что и обрабатывает ваш текст. То самое, что показали OpenAI ещё в мае '24-го (но так и не выпустили, хотя обновления приложений/сайта подсказывают, что скоро должны).

Модель И видит вашу картинку, И рисует сама новую, без вызова отдельной модели, занимающейся генерацией. Это позволяет ей делать попиксельную копию, внося нужные изменения — смотрите примеры. И да, можно загрузить СВОЮ картинку, и после этого просить её перерисовать — так я сделал с крестиками-ноликами.

Можно придумать много всякого крутого, жду ваших креативов в комментариях!

Попробовать тут: https://aistudio.google.com/prompts/new_chat
(справа нужно выбрать модель «Gemini 2.0 Flash Experimental»)
30👍22🔥3👎1
До AGI нам очень далеко, гугл.
😁50👍9
Итак, лайфхак для Семицветика в Гемини.

Pencil drawing of flower with exactly seven petals.

Получаем 8 штук. Если повезёт, тут ключевое - drawing, чтобы гемини не копировала ромашки.

Скачиваем, даём на вход эту картинку.
"Сколько лепестков видишь?"
Семь!

Закрываем чат, сжигаем и выбрасывем подальше

Открываем новый. Загружаем картинку.
Скоко?
Восемь!

Change number of petal to exactly seven.

Готово!

@cgevent
😁49👍13🔥7