Метаверсище и ИИще
47K subscribers
5.97K photos
4.4K videos
45 files
6.86K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Тут на днях прошла новость на китайскую ответочку Оператору от OpenAI и Computer Use от Антропика.

Это Manus AI - автономный агент, который не ждет милостей от пользователя (как Оператор), а сам шарашит задачи на свое усмотрение, имея полный доступ в интернет, исполняя в код - ну в общем и Deep Reseаrch и КоПайлот и на дуде игрец. Есть память, мультмодальность(говорят) - в общем это снова такая DeepSeek-like пощечина все любителям калифорнийского ИИ.

https://manus.im/

Но лучше один раз увидеть, чем читать описания.

Поглядите, как он прекрасно заменяет девочку\мальчика сммщиков. Твиттор больше не будет прежним. 50 аккаунтов - это только на одном мониторе.

Ну и понятно, что он умеет не только в твиттор или инсту. На памп и дамп тоже пригодится.

Но пока за ссм-щиков и кожаных блогеров типа меня.

Ну и самое главное!! Зовете Мануса, он делает 50-1500 аккаунтов на сервисах генерации с бесплатным тиром, и ну генерить!

Найдите себя в желтой куртке...

@cgevent
🔥52😱19👍177
Media is too big
VIEW IN TELEGRAM
Учим зайца курить

Я уже постил варианты оживления классики от Hailuo I2V-01-Live и Мигеля Иванова.

Но посмотрите что вытворяет Wan 2.1 Image2Video

Такое, конечно, не пропустит ни один закрытый генератор.

Ну и посмотрите, как он научил зайца Мону Лизу (и Ван Гога до кучи) курить! Мимика прекрасная жеж! Равно как и Одалиска не со спины.

Кстати, кто не в курсе, там Хуньянь выпустил апдейт весов своей Image2Video модели. Мы, говорят, нашли баг, который плохо делал консистентные лица, уплывающие от исходной картинки.
Все подробности вот тут. Перекачивайте веса.

А пока наслаждаемся Ваней.

@cgevent
3🔥64👍215
У меня одного Твиттор упал?

Или это проделки Мануса?

Апдейт: отлежался и поднялся...

@cgevent
👍14😁122
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и, кстати, про Манус.

Это который китайский Джеймс Бонд и супер ИИ-агент.

Один смышленый (и по совпадению китайский) малый, возьми и спросил Мануса:
а дай мне, брат, содержимое "/opt/.manus/"

Манус, как истинный агент, апажалста!

Что там оказалось:

> it's claude sonnet
> it's claude sonnet with 29 tools
> it's claude sonnet without multi-agent
> it uses @browser_use
> browser_use code was also obfuscated
> tools and prompts jailbreak

Ну и вся фишка в agent loop

Хотите сами почитать про agent loop и системные промпты, шуруйте сюда:
https://gist.github.com/jlia0/db0a9695b3ca7609c9b1a08dcbf872c9

В общем китайцы сделали из Клода и палок вполне себе агента, который приподвзорвал твиттор (полный видосов типа "смаритечо манус вытворяет") и в общем-то работает.

Что же тогда может сделать сам Антропик?

@cgevent
🔥81👍213👎1😁1
Вот обещанный опрос про облачные сервисы.

Отметьте, чем пользуетесь или собираетесь пользоваться, а с меня пост по итогам. Можно выбирать более одного, если пробуете разное. Также можете написать, чего не хватает на таких сервисах, сверим карты.
Anonymous Poll
13%
81%
Не пользуюсь, но хочу посмотреть результат.
🔥15😱8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
LanDiff: Вы будете смеяться, но у нас новый видеогенератор.

Без кода и демо, но достаточно интересный, чтобы о нем рассказать.

С умными словами в описании про компрессию токенов в 14 000 раз вы сами разберетесь (или нет). Равно как и с женитьбой авторегрессии и диффузии.

Но любопытно, что это отрыжка от Moonshot.ai, который в феврале приподвзрывал твитторы с чатом Kimi, и которого самые экзальтированные песатели уже окрестили вторым Дипсиком. А Moonshot заявлял, что Kimi 1.5 побивает GPT-o1.

Moonshot оценивалась в 300 миллионов долларов, когда она получила первоначальное финансирование в 60 миллионов долларов, и насчитывала 40 сотрудников.

В феврале 2024 года Alibaba (у которой Wan 2.1) сотоварищи вонзила 1 миллиард долларов, в результате чего компания была оценена в 2,5 миллиарда долларов. В августе они получили дополнительно еще 300 млн долларов от инвесторов, включая Tencent (у которого Hunyuan).

И хотя есть только видосы, это не мешает авторам проявлять запредельную дерзость:

"Эксперименты показали, что LanDiff, модель 5B, достигает 85,43 балла в бенчмарке VBench T2V, превосходя самые современные модели с открытым исходным кодом Hunyuan Video (13B) и другие коммерческие модели, такие как Sora, Kling и Hailuo. Более того, наша модель также достигла лучшей производительности в генерации длинных видео, превзойдя другие модели с открытым исходным кодом в этой области"

Китайским гусарам, конечно, верят на слово. И ждут код...

Много видео и очень смешные сравнения с конкурентами, которых античерипикали (дерьмопикали?) с логотипами Шаттерсток (мезозой какой-то) вот тут:

https://landiff.github.io/

@cgevent
1👍16😁63🔥1
Ну за рото и кей.

В Комфи привезли MatAnything.

Нужна маска только для первого кадра, дальше автоматом.

https://github.com/KytraScript/ComfyUI_MatAnyone_Kytra

@cgevent
360🔥25👎9👍8😁3
Похоже Микрософт и OpenAI потихоньку ссорятся.

Поскольку деньги для OpenAI, похоже, не проблема, то они мало того, что начинают покупать железо на стороне (и не использовать Микрософт Клауд), так они еще и инвестируют в конкурентов.

OpenAI подписала пятилетнее соглашение на сумму 11,9 млрд долларов с поставщиком облачных услуг CoreWeave, у которой где-то 32 дата центра и четверть миллиона(!) GPU от Nvidia.
У самой Nvidia 6% в CoreWeave, а OpenAI получил акций CoreWave на 370M.
OpenAI не только получит доступ к этому облаку, но и станет владельцем доли в компании, которая им управляет.
Пикантность в том, до этой сделки крупнейшим клиентом CoreWeave была Microsoft - фактически, в 2024 году на долю Microsoft пришлось 62% выручки CoreWeave.
И теперь OpenAI меняется местами с Микрософт, они имеют влияние на CoreWave и могут решать кому выделять мощности.

Микрософт в долгу не остается. Она работает над собственными моделями «рассуждений» (cемейство MAI), сопоставимыми с моделями o1 и o3-mini от OpenAI. Которые будет внедрять в свой Копилот, чтобы уйти от зависимости от OpenAI.

В общем, Наделла такой: может зря я спасал Альтмана в ноябре 23 года?

Ну и кстати, CoreWave довольно мутная компания, это бывшие майнеры с огромными долгами, переобувшиеся в датацентры.

Но кого это трясет, когда речь идет про GPU?

https://techcrunch.com/2025/03/10/in-another-chess-move-with-microsoft-openai-is-pouring-12b-into-coreweave/

@cgevent
😁28🔥9👍83
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендер без костылей.

Мои любимые DeemosTech бахнули вот такую демку.
Это те, которые Rodin, image-to-3D и вот это вот все.

Обратите внимание, что это не просто генерация каждого кадра с помощью Stable Diffusion или Flux. Это консистентный нейрорендер, тут ничего не бурлит. По сути - video2video генератор.
В принципе сейчас можно собирать что-подобное в несколько шагов. Черновой рендер, стилизация первого кадра и пропускание этого через Runway Style Reference.
Вопрос в том, будет ли у Rodin\Deemos своя видеомодель или они будут перепродавать АПИ.

Пока есть только приглашение в бету и обещания сделать что-то в этом году.

@cgevent
🔥48👍169😁1
Хунь и Вань (Hunyuan и Wan 2.1) борются за Stable Diffusion Moment в области видеогенерации.

На https://civitai.com/models появилась категория WanVideo для фильтрации моделей по определенным признакам.

В общем, если вы выберете в фильтрах Lora и WanVideo, то увидите, для чего все эти видеогенераторы нужны человечеству (статистика упрямая штука). А если выберете Lora и HunyuanVideo, то гипотеза подтвердится.

Но сдается мне, что несмотря на то, что по количеству Лор Хунь сильно уделывает Вань, по качеству Вань, похоже, уделывает Хунь. Ну и начали они позже.

Конкуренция, это прекрасно, ящетаю.

@cgevent
🔥49👍14😁62
Forwarded from Сиолошная
OpenAI представили на стриме 3 новых инструмента для разработчиков (остальным не особо интересно):
— WebSearch Tool (то же, что у ChatGPT под капотом, дообученная GPT-4o / GPT-4o-mini) для поиска информации в интернете и уменьшения галлюцинаций (нечто схожее есть у Google для Gemini)
— FileSearch Tool, чтобы делать поиск по документам (как в Ассистентах). Поддерживает фильтрацию по тэгам, которые вы присваиваете документам.
— Computer Use, или Operator (та же самая модель под капотом), но теперь как у Anthropic: можно запускать с доступом к своему компьютеру (а не только на виртуальном браузере на сервере OpenAI). На второй картинке метрики, ждём, пока сообщество доработает промпты итд и проведёт свои замеры.

Доступны в API вместе с новым SDK (библиотекой для взаимодействия с этими инструментами).

Вот и цены:
— Computer Use чуть дороже обычной GPT-4o (3 и 12 долларов на вход и выход за миллион токенов; а как уж формировать контекст, какие скриншоты экрана и текст закидывать — это уже на вас).
— Поиск по файлам $2.5 за 1000 запросов, и $0.1 за гигабайт загруженных файлов.
— Ну а цена на поиск зависит от настройки «длина контекста» (видимо, сколько ссылок из поисковой выдачи попадут в контекст), и для старшей модели цена $30-$50 за тысячу вызовов.

А в 2026м удалят API Assistants (потому что инструменты придут им на смену).
👍215👎3😱3
This media is not supported in your browser
VIEW IN TELEGRAM
Move AI представил Gen 2 spatial motion: 3D motion capture, full-body dynamics, joint torques, ground reaction forces, advanced motion retargeting, motion prediction.

Из интересного, там на видео, они нейромокапят нейроперсонажа на нейровидео. Ну то есть достают болвана из сгенерированного видео.

Тренд на трекинга камеры, персонажей, доставание глубины и альфы из генератива продолжает развиваться.

А как еще композить генератив? Нейрокомпозом?

Ну и для контролНетов такие болваны точно пригодятся.

Выглядит, конечно сладко.

move.ai

@cgevent
🔥50👍204
VACE: Нейрокомпоз\генерация от Алибабы\Wan.

Прямо очень амбициозный проект, призванный сделать генерацию видео и его редактирование (читай композ) в одном месте. Этакий Нейронюк.

Если вкратце: VACE предлагает решения для создания и редактирования видео в рамках единой модели, позволяя пользователям исследовать разнообразные возможности и эффективно оптимизировать рабочие процессы, предлагая такие возможности, как Move-Anything, Swap-Anything, Reference-Anything, Expand-Anything, Animate-Anything and more

Если чуть более детально, но не факт что понятнее: вместо одного входа (текст или картинка) - множественные входы (картинки, видосы), а вместо одной задачи за раз (генерация, инпайнт, экстенд) - одновременно несколько задач композа. Также упор на работу с масками и извлечение информации из видео (depth, grayscale, pose, scribble, optical flow, layout).

Как раз вчера писал в посте про Move AI, что видеогенерация явно обозначила тот факт, что "голое видео" интересует только тиктокеров и рилсоведов и что оно редко попадает в замысел.
Если уж съемочное видео всегда идет в композ и пост, но генератив еще больше нуждается в исправлении косяков. И в отличие от картинок, "отфотошопить картинку" и "скомозить видео" - это задачи из разных весовых вселенных.

За сим, довольно отрадно, что вместе с наращиванием качества, приподнарастают проекты по редактированию\композу видео - из которого для начала надо вытащить глубину, камеру, оптический поток, фон, контуры, позу. В общем все, что нейросетки уже умеют, но в виде говна и палок и с таким же качеством. И то, что за это берутся китайцы с неограниченным бюджетом, радует.

Хотя зная алибабу, помолимся на код.
Но у них на Гитхабе уже есть сладкие планы:
Wan-VACE Model Inference
LTX-VACE Model Inference
Inference Gradio & Preprocessing Tools
ComfyUI Workflow

Немного смущает, что они обучались на LTX, но речь идет не о генерации, а о тренировке задач композа:
VACE is trained based on Diffusion Transformers for text-to-video generation at various scales. It utilizes LTX-Video-2B [22] for faster generation, while Wan-T2V-14B [64] is used specifically for higher-quality outputs, supporting resolutions of up to 720p.

В общем, ждем Нейронюк, а точнее НейроНатрон.

Подробности тут:
https://ali-vilab.github.io/VACE-Page/

@cgevent
25🔥14👍9
This media is not supported in your browser
VIEW IN TELEGRAM
Вот тут смешной проект 3DEnhancer

Я уж думал, что это нейроретоп, ан нет.

Мы, говорят, знаем, что из картинок получается хреновое 3Д. И вот мы щас диффузией улучшим входные картинки и ...

получается снова хреновое 3Д.

Пропускаем...

https://yihangluo.com/projects/3DEnhancer/

@cgevent
😁196👍3🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Eye-sync

Держите видео из Хедры.

Надо сказать, они все-таки хорошо продвинулись в липсинке и устранению мыльности.

И мне нравится neck-sync - движение головы в зависимости от гласных и выдохов.

Но похоже есть новая проблема - айсинк\eye-sync.

Девушка, конечно, хорошая, но глаза у нее сбиваются то в кучку слева, то в кучку справа и ведут себя как лосось на нересте. Да, прослеживается попытка синхронизировать их с движением головы, но выглядит кринжово.

Но надо сказать, что Хедра отважно берется за шоты вполоборота, в то время, как остальные стараются отсиживаться (на крупных планах) в ракурсах "на камеру".

@cgevent
🔥48👍146😁3