Метаверсище и ИИще

Оказывается видеогенератор от нового Groka уже раскатывают по платным Х-аккаунтам.

Называется он Grok Imagine, доступен в иос приложении со следующими лимитами:
- 50 for Premium
- 100 for Premium+
- 500 for Heavy users

Умеет текст в картинки, текст в видео, картинки в видео.

Grok Imagine генерирует картинки очень быстро (Аврора). Созданную картинку можно сразу же превратить в видео (30 секунд где-то), есть четыре шаблона: normal, fun, spicy и custom (создание видео по промпту). В режиме spicy немного раскрывается тема сисек. Длительность роликов составляет 6 секунд, доступна аудиодорожка, но только фон без голоса.

Пишут, что обновляется постоянно.

На роадмапе полноценный видеогенератор для Грока запланирован на сентябрь. А пока идет разминка на вертикальном формате.

@cgevent

❤23👍17🔥4😁3

8.51K viewsSergey Tsyptsyn ️️, 07:01

Метаверсище и ИИще

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Официальный ответ от Гугла по поводу использования JSON в промптах для Veo3:

Мы видели удивительные видеоролики Flow, созданные с помощью подсказок JSON! Это не единственный и даже не "лучший" способ, просто один из способов помочь структурировать гиперспецифические визуальные указания. Нет JSON? Нет проблем! Независимо от того, каким образом вы даете подсказки, для достижения высоких результатов необходимо точно определить обстановку, объект, действие, освещение, тип съемки, угол камеры и звук.

TLDR: бесовщина этот ваш JSON, жрет токены в 4 раза больше, теряет предлоги и, как следствие, отношения между объектами.

Пишите нормальные промпты и будет вам по токенам вашим.

Static 35 mm full-frame 16:9 shot reveals a vast pale-grey warehouse: plain back wall, concrete floor, grey rafters above. A cardboard box sits center frame. In one seamless motion the box bursts open; furniture erupts upward, sweeping out on fast, elastic, physics-true arcs. Graphite sofas, patterned rugs, tall shelves, and bronze floor lamps land neatly behind and around it, while a solid table thumps at the exact center of the layout. A cushion rebounds onto the sofa, a framed picture snaps to the wall, and a bronze pendant fixture swings from the rafters as dust sparkles over the newfound living room.

@cgevent

1👍75❤17😁10🔥4

11.1K viewsSergey Tsyptsyn ️️, 09:01

Метаверсище и ИИще

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

BANG: Dividing 3D Assets via Generative Exploded Dynamics

Первые работы с Сигграфа от Deemos Tech и Rodin.

Методы сегментирования 3Д-моделей на части с помощью "взрывной динамики".

В качестве подсказок можно использовать bounding boxы, вертексы или даже текстовые промпты.

Выглядит очень нарядно.

https://sites.google.com/view/bang7355608

@cgevent

🔥15❤9👍6

8.29K viewsSergey Tsyptsyn ️️, 11:16

Метаверсище и ИИще

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Помните все эти сцены из фильмов с Томом Круизом, где герой бесконечно приближает видеозапись со спутника или камеры наблюдения, а потом читает номер машины и убегает мочить мерзавца?

Вот вам два примера из твиттора, где chatGPT Агента попросили найти голубую Хонду на гугл-картах и голубую лодку на камерах наблюдения.

Нашел, мерзавец! Том Круиз уже в пути!

@cgevent

😁42❤17🔥9👍7😱5

8.46K viewsSergey Tsyptsyn ️️, 13:19

Метаверсище и ИИще

На фестивале Edinburgh Fringe с 11 по 16 августа 2025 пройдёт иммерсивный мюзикл AI: Save Our Souls.

Шоу создано AI Researcher-ом и композитором Игорем Лабутиным.

Игоря знаю лично, он тут по соседству в Лимассоле пишет ноты и коды. И да, он одновременно и крутой ИИ-ресерчер и композитор.

Мюзикл объединяет музыку в самых разных жанрах (от рэпа и рока до оркестровой поп-музыки) и захватывающий эмоциональный сюжет о тот как ИИ меняет наш мир.

Вы можете уже сейчас зайти на aisaveoursouls.com, ответить на несколько вопросов и ваши ответы станут частью шоу.

Даты: 11–16 августа
Место: Lime Studio at Greenside @ George Street
Время: 19:45 (45 минут, без перерыва)
Билеты: £12 / £9

Подробнее в канале Игоря Лабутина, в Instagram и на indiegogo.

ИИ подкрался откуда не ждали!

@cgevent

👍21👎8🔥8❤5

8.3K viewsSergey Tsyptsyn ️️, 19:26

Метаверсище и ИИще

***AI o4 - вы что подумали?

А вот и нет! Чтобы вам жизнь медом не казалась, а нейминг от Альтмана тренировал вашу и без того короткую память, китайцы теперь тоже именуют модели как o4!!!!

В общем пост про XBAI o4 - еще одна LLM с открытым исходным кодом (Apache 2.0) от китайской лаборатории искусственного интеллекта. Китайцы клянуцца что:

XBai o4 ПОЛНОСТЬЮ превосходит в сложных рассуждениях (complex reasoning capabilities ) OpenAI-o3-mini в режиме Medium. См картинку.

Это модель на 32.8 миллиарда параметров, выпущенная китайцами из MetaStone AI, которые выпустили свою первую модель в марте - MetaStone-L1-7B, затем последовали MetaStone-S1 1.5B, 7B и 32B в июле, а теперь XBai o4 в августе.

В твитторах очень мало информации о MetaStone AI. В их документах указана связь с USTC, Университетом науки и техники Китая. Один из исследователей подтвердил, что их генеральный директор - выходец из KWAI. www.wenxiaobai.com указан как "официальный сайт", на который ведет ссылка из XBai-o4 README на GitHub.

Взрослые мальчики уже запустили модель на Маке и пишут, что впечатления чуть хуже, чем от Qwen3-Coder-30B-A3B-Instruct или GLM-4.5 Air.

Однако факт остается фактом, малоизвестные китайцы, просто, тихо и без понтов говяжих, выпускают модель за моделью, которые дышат в затылок приподразхайпленным монстрам с обеих сторон Тихого океана.

Фарш тут: https://huggingface.co/MetaStoneTec/XBai-o4
Код тут: https://github.com/MetaStone-AI/XBai-o4/

В LM Studio тоже заводится, требует 25 ГБ памяти для 6-бит версии.

@cgevent

🔥32❤7👍7😱3👎1😁1

9.58K viewsSergey Tsyptsyn ️️, 19:44

Метаверсище и ИИще

Qwen Image

Вы будете смеяться, но у нас новый генератор картинок.

Внутри:
Qwen2.5-VL, the multimodal language model, extracts contextual meaning and guides generation through system prompts.
VAE Encoder/Decoder, trained on high-resolution documents and real-world layouts, handles detailed visual representations, especially small or dense text.
MMDiT, the diffusion model backbone, coordinates joint learning across image and text modalities. A novel MSRoPE (Multimodal Scalable Rotary Positional Encoding) system improves spatial alignment between tokens.

Картинки из твиттора сладкие. Но я полез в https://chat.qwen.ai/ чтобы стряхнуть пыль со своего некогда знаменитого промпта про спикера, автодеск и вирей.
Вообще не впечатлился.

Тут вот пишут:
https://venturebeat.com/ai/qwen-image-is-a-powerful-open-source-new-ai-image-generator-with-support-for-embedded-text-in-english-chinese/

что тоже не впечатлены.

Ну и встает вопрос, а лоры, шморы, шмонтролнеты, - где брать для новой зверушки?

В общем я бы пропустил.

Кому любопытно, шуруйте сюда:
https://qwenlm.github.io/blog/qwen-image/

Промпт: A charismatic speaker is captured mid-speech. He has long, slightly wavy blonde hair tied back in a ponytail. His expressive face, adorned with a salt-and-pepper beard and mustache, is animated as he gestures with his left hand, displaying a large ring on his pinky finger. He is holding a black microphone in his right hand, speaking passionately. The man is wearing a dark, textured shirt with unique, slightly shimmering patterns, and a green lanyard with multiple badges and logos hanging around his neck. The lanyard features the "Autodesk" and "V-Ray" logos prominently. Behind him, there is a blurred background with a white banner containing logos and text, indicating a professional or conference setting. The overall scene is vibrant and dynamic, capturing the energy of a live presentation.

@cgevent

👍11❤7👎5

7.98K viewsSergey Tsyptsyn ️️, 20:30

About

Blog

Apps

Platform