Метаверсище и ИИще
48.1K subscribers
6.06K photos
4.53K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
На фестивале Edinburgh Fringe с 11 по 16 августа 2025 пройдёт иммерсивный мюзикл AI: Save Our Souls.

Шоу создано AI Researcher-ом и композитором Игорем Лабутиным.

Игоря знаю лично, он тут по соседству в Лимассоле пишет ноты и коды. И да, он одновременно и крутой ИИ-ресерчер и композитор.

Мюзикл объединяет музыку в самых разных жанрах (от рэпа и рока до оркестровой поп-музыки) и захватывающий эмоциональный сюжет о тот как ИИ меняет наш мир.

Вы можете уже сейчас зайти на aisaveoursouls.com, ответить на несколько вопросов и ваши ответы станут частью шоу.

Даты: 11–16 августа
Место: Lime Studio at Greenside @ George Street
Время: 19:45 (45 минут, без перерыва)
Билеты: £12 / £9

Подробнее в канале Игоря Лабутина, в Instagram и на indiegogo.

ИИ подкрался откуда не ждали!

@cgevent
👍21👎8🔥85
***AI o4 - вы что подумали?

А вот и нет! Чтобы вам жизнь медом не казалась, а нейминг от Альтмана тренировал вашу и без того короткую память, китайцы теперь тоже именуют модели как o4!!!!

В общем пост про XBAI o4 - еще одна LLM с открытым исходным кодом (Apache 2.0) от китайской лаборатории искусственного интеллекта. Китайцы клянуцца что:

XBai o4 ПОЛНОСТЬЮ превосходит в сложных рассуждениях (complex reasoning capabilities ) OpenAI-o3-mini в режиме Medium. См картинку.

Это модель на 32.8 миллиарда параметров, выпущенная китайцами из MetaStone AI, которые выпустили свою первую модель в марте - MetaStone-L1-7B, затем последовали MetaStone-S1 1.5B, 7B и 32B в июле, а теперь XBai o4 в августе.

В твитторах очень мало информации о MetaStone AI. В их документах указана связь с USTC, Университетом науки и техники Китая. Один из исследователей подтвердил, что их генеральный директор - выходец из KWAI. www.wenxiaobai.com указан как "официальный сайт", на который ведет ссылка из XBai-o4 README на GitHub.

Взрослые мальчики уже запустили модель на Маке и пишут, что впечатления чуть хуже, чем от Qwen3-Coder-30B-A3B-Instruct или GLM-4.5 Air.

Однако факт остается фактом, малоизвестные китайцы, просто, тихо и без понтов говяжих, выпускают модель за моделью, которые дышат в затылок приподразхайпленным монстрам с обеих сторон Тихого океана.

Фарш тут: https://huggingface.co/MetaStoneTec/XBai-o4
Код тут: https://github.com/MetaStone-AI/XBai-o4/

В LM Studio тоже заводится, требует 25 ГБ памяти для 6-бит версии.

@cgevent
🔥327👍7😱3👎1😁1
Qwen Image

Вы будете смеяться, но у нас новый генератор картинок.

Внутри:
Qwen2.5-VL, the multimodal language model, extracts contextual meaning and guides generation through system prompts.
VAE Encoder/Decoder, trained on high-resolution documents and real-world layouts, handles detailed visual representations, especially small or dense text.
MMDiT, the diffusion model backbone, coordinates joint learning across image and text modalities. A novel MSRoPE (Multimodal Scalable Rotary Positional Encoding) system improves spatial alignment between tokens.


Картинки из твиттора сладкие. Но я полез в https://chat.qwen.ai/ чтобы стряхнуть пыль со своего некогда знаменитого промпта про спикера, автодеск и вирей.
Вообще не впечатлился.

Тут вот пишут:
https://venturebeat.com/ai/qwen-image-is-a-powerful-open-source-new-ai-image-generator-with-support-for-embedded-text-in-english-chinese/

что тоже не впечатлены.

Ну и встает вопрос, а лоры, шморы, шмонтролнеты, - где брать для новой зверушки?

В общем я бы пропустил.

Кому любопытно, шуруйте сюда:
https://qwenlm.github.io/blog/qwen-image/

Промпт: A charismatic speaker is captured mid-speech. He has long, slightly wavy blonde hair tied back in a ponytail. His expressive face, adorned with a salt-and-pepper beard and mustache, is animated as he gestures with his left hand, displaying a large ring on his pinky finger. He is holding a black microphone in his right hand, speaking passionately. The man is wearing a dark, textured shirt with unique, slightly shimmering patterns, and a green lanyard with multiple badges and logos hanging around his neck. The lanyard features the "Autodesk" and "V-Ray" logos prominently. Behind him, there is a blurred background with a white banner containing logos and text, indicating a professional or conference setting. The overall scene is vibrant and dynamic, capturing the energy of a live presentation.

@cgevent
👍117👎5
Media is too big
VIEW IN TELEGRAM
Нейропрожарка

The bell. Трейлер к фильму ужасов от Ксении.

Изначально подбирала шоты для другого коммерческого проекта, но захотелось собрать из них что-то свое.
Получился трейлер к несуществующему хоррор-фильму от несуществующих киностудий.

Идея, картинки и видео - я,
@imitation_of
Монтаж и саунд дизайн – Юра
@ai_beeing


Картинки - Imagen,
Видео Veo2 и Veo3, несколько шотов minimax
Звук - база бесплатных звуков, udio
Монтаж - Capcut

Денег затрачено на видео - 0, сделано на триалке AI Studio
По времени на все про все дня 4 работы двух человек по очереди.
Видео на ютубе
https://youtu.be/NmjDyzR7krw

@cgevent
👎43👍36🔥107
Forwarded from эйай ньюз
Genie 3 — SOTA World Model от Google

World Model — это по сути нейронные игровые движки, позволяющие двигатся и взаимодействовать с миром.существующим исключительно в воображении нейросетки. Прошлое поколение — Genie 2, позволяло создать по текстовому промпту окружение, в котором можно было походить 10-20 секунд в 360p. В этом поколении разрешение уже 720p, а длится взаимодействие с ней может уже несколько минут.

Но делает особенной эту модель возможность хорошо помнить эти несколько минут симуляции, даже взаимодействия пользователя с миром. Одно из демонстрационных вдиео — как пользователь красит сцену, потом отходит и немного крутится по комнате, а краска на стене остаётся. А ведь меньше года назад в нейронном майнкрафте достаточно было просто отвернутся чтобы модель совсем забыла всё об окружающей среде.

Крайне сильно выросла и возможность симулировать живой мир — промпты позволяют сгенерировать не просто окружение, но и события в этом окружении. Такая эволюция позволяет уже запускать симуляцию для тренировки полноценных агентов для реального мира, которым можно тренировать выполнять разные задачи. Я, правда, очень смутно представляю как такое окружение сделать верифицируемым.

А вот игры на такой технологии представляются куда проще — ведь не просто так игровой гигант Tencent настолько сильно инвестирует в world models. Кстати, многие не знают что глава Google DeepMind, Демис Хассабис, начинал с игровой индустрии. До DeepMind он основал свою студию, которая выпустила несколько игр, например Evil Genius.

Блогпост

@ai_newz
😱4028🔥17👍3
Forwarded from Сиолошная
OpenAI разродились двумя опенсурсными моделями, на 120b и 20b параметров. Обе — микстуры экспертов, что означает, что несмотря на размер, если вам хватает памяти GPU, модели быстрые: 5.1b и 3.6b активных параметров.

Модели рассуждающие, поддерживают 3 типа длины рассуждений: low, medium, high.

Ссылки:
https://openai.com/open-models/
https://openai.com/index/gpt-oss-model-card/
https://cookbook.openai.com/articles/openai-harmony
https://gpt-oss.com/ - тут можно поиграть с моделью

Судя по лендингу, модели уже сегодня будут доступны на Groq и Cerebas, предлагая очень быструю генерацию. И почти все инференс-движки уже поддерживают модель.

И самое крутое — как и o3, модели поддерживают вызов инструментов (поиск, Python, etc) в цепочке рассуждений.

Самое некрутое: нет мультимодальности, картинки и тем более звук модели не воспринимают.
🔥15👍53😁2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
В Higgsfield завезли апскейлер видео.

На базе Topaz Lab.

Но я щас не об этом, а о том, как они подбирают первый кадр для демо-ролика.

В Твитторе, где авто проигрывание выключено по дефолту, народ глядит на ролик и такой: чо?!

@cgevent
1😁53🔥19👍84
Eleven Music
Что-то все как с цепи сорвались с релизами. Август на дворе, время отпусков, а все строчат релиз за релизом.
Слухи про музику от 11labs ходили уже давно. А сейчас они раскатали это на всех.
https://elevenlabs.io/app/music

Понятно, что там перечисленые все мыслимые языки и жанры. Но меня зацепило вот это:

"Редактируйте звук и текст отдельных фрагментов или всей песни."

Этакий интпайнтинг.

Господа Кондаков и SVT - ваш выход с приговорами.

А кому захочется опенсорса, гляньте сюда, забавная таблица сравнений генераторов.

@cgevent
🔥22👍112👎1