Метаверсище и ИИще
48.2K subscribers
6.06K photos
4.53K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Вы спрашивали про картинки из Нанабананы 2.

На этой неделе было много фейков, особенно под соусом "это последний чекпойнт бананы2 без цензузы".

Но вчера Wavespeed вкинул информацию, что разворачивает Нанабанану 2. Контора серьезная, можно верить.

Ждем даблбанану в ноябре!

Prompt: Cinematic behind-the-scenes photo of a luxury car commercial being filmed in the desert at sunset, featuring a black Mercedes-Benz G-Class SUV, a stylish woman in a leather jacket leaning on the car, surrounded by a professional film crew with camera crane and monitor setup, warm golden light, dusty atmosphere, realistic lighting, high detail, movie production set, cinematic composition, depth of field, professional look.

Prompt: A dynamic, low-angle action shot of Sung Jin-Woo leaping forward, dual-wielding his glowing blue daggers (like the 'Demon King's Daggers'). He is a blur of motion, with energy trails following his blades. The background is a dark, stylized dungeon interior. Focus on the intense, focused expression on his face. Style: high-contrast, anime, action.

Prompt: Translate the text in the image into Chinese.

@cgevent
👍168😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за разметчиков.

Вот мы читаем "модели распознавания видео". А как это?

А вот так. Довольно залипательный процесс просмотра того, как модель расшифровывает в своих нейромозгах видео в текст. Находка тут в том, что все это в виде чата.

Более того, можете сами попробовать на своих видео или на кожаном лице через веб-камеру.
https://moondream.ai/solutions/analyze-live-video

Я попробовал, он слишком часто определяет улыбку, хорошо детектит зтм, то есть переходы в черное, но когда на экране появляется UI софта, он такой ... эээ.
Ну то есть хорошо натренирован на стримах с кожаными.

P.S. Тут будет отсылка к моему посту про монтаж. Все эти ИИ-монтажеры и новомодные ИИ-фичи для видео действуют на основе текстовых тригеров из расшифровки: ну то есть ИИ-монтаж идет по тексту, а не по картинке. А это все равно, что слепого посадить за монтажку и рассказывать ему голосом, что там происходит. Что-то получится конечно, но до хорошего монтажа будет далеко.

@cgevent
👍151👎1
Полезное. Семичасовой курс от MIT по генеративному ИИ. От LLM до диффузионок.

https://www.youtube.com/playlist?list=PLXV9Vh2jYcjbnv67sXNDJiO8MWLA3ZJKR

@cgevent
34👍20🔥13
Просто новость:

Технический директор Intel и руководитель подразделения искусственного интеллекта уходит из компании, чтобы присоединиться к OpenAI, проработав всего шесть месяцев на этой должности.


Написал в твитторе: "Предвкушаю возможность поработать с Брокманом, генеральным директором OpenAI Сэмом Альтманом и другими сотрудниками компании над созданием вычислительной инфраструктуры для AGI!"

Рано или поздно OpenAI превратится в хардверную компанию...

https://www.theregister.com/2025/11/11/intel_ai_cto_quits_joins_openai/

@cgevent
😱10👍5😁51
Forwarded from AI Product | Igor Akimov
Ух ты, Meta (запрещённая в России) наконец подняла веки и разродилась супер распознавалкой речи на 1600 языках! Omnilingual ASR.

- Базовая модель: wav2vec 2.0 (на первой версии мы делали распознавание кипрского, на неделе выложим уже), масштабированная до 7B параметров
- Два варианта декодера: традиционный CTC и трансформер.
- LLM-подход даёт in-context learning – можешь дать несколько примеров аудио-текст пар и получить рабочее качество транскрипции без тренировки! Вау!

Результаты:
- Character Error Rate (CER) ниже 10% для 78% языков
- State-of-the-art качество на всех 1,600+ языках
- Можно добавить новый язык на лету без переобучения

Выложили:
- Весь набор моделей от лёгких 300M (для мобильных устройств) до мощных 7B
- wav2vec 2.0 foundation model для других задач со звуком, типа распознавания эмоций или разметки.
- Omnilingual ASR Corpus – крупнейший датасет спонтанной речи на 350 низкоресурсных языках
- Всё под Apache 2.0 и CC-BY лицензиями, можно применять для чего угодно.

Работали с локальными организациями по всему миру, нанимали носителей языков из удалённых регионов. Партнёрились с Mozilla Common Voice, Lanfrica/NaijaVoices и другими.

Очень интересно потестить на русском. Но в целом очень-очень масштабный и полезный проект для всех стран.

GitHub: https://github.com/facebookresearch/omnilingual-asr

Статья: https://ai.meta.com/blog/omnilingual-asr-advancing-automatic-speech-recognition/

Позалипать в демку, какие языки подключили: https://aidemos.atmeta.com/omnilingualasr/language-globe

Попробовать на своих коротких файлах: https://huggingface.co/spaces/facebook/omniasr-transcriptions
🔥4010👍9
Media is too big
VIEW IN TELEGRAM
Нейропрожарка (myFilm48)

Элизабет Генералова. Проект: «BALI-VERSE: 96 hours left»

🥈 Видео заняло 2-е место на конкурсе myfilms48 (Бали) среди профессионалов.
По условиям нужно было за 96 часов создать трейлер

Идея:
Герой приезжает на Бали за солнечными закатами и романтикой, но вместо отдыха оказывается в эпицентре мультивселенского кризиса.

У него есть 96 часов, 96 шансов и 96 вселенных, чтобы спасти свой мир.
В каждой вселенной его ждут разные испытания — от динозавров и зомби до природного апокалипсиса.

Я использовала тему мультивселенных, чтобы показать возможности ИИ в разных визуальных стилях — от реализма до аниме и даже пиксельной анимации.

🧠 Производство:
Весь ролик сделала я самостоятельно.
• Основные инструменты для видео: Runway, Seedream, Sora 2, Kling, Veo 3.1
• Доработка кадров: NanaBanana
• Монтаж: Adobe Premiere Pro
• Звук и музыка: Suno (саундтрек), ElevenLabs (озвучка) + аудиостоки
• Общий продакшн занял ~4 дня (в рамках правил конкурса).


@cgevent
1🔥53👎48👍11😁53
Как обеспечить пассивный доход, свободное передвижение по миру и защиту капитала?

Недвижимость – это беспроигрышный вариант.

Если вам интересны реальные инвестиции, а не сказки риэлторов и инфобизнесменов, подписывайтесь на канал Никиты Шеломенцева, основателя компании Breig Property. У его компании более 10 лет успешного управления недвижимостью

На канале можно найти: выгодные офферы, которых нет в открытом рынке, спецпредложения с ценой ниже рынка.

Никита
с 2016 года помогает клиентам выгодно вложиться. И для вас он тоже найдет идеальное предложение 🔥

Скачать каталог 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
👎52😁234😱3👍2🔥1
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Freepik: добавили ноду Camera Angle в свой бесконечный холст Spaces.

Загружаем картинку, подсоединяем к ней эту ноду, и изображение отображается на одной из сторон виртуального куба. Чтобы поменять позицию камеры, вращаем куб как нам надо. Можно вывод сделать сразу на несколько нод, чтобы каждая показывала свой угол обзора.

Под капотом Qwen Image Edit. Одна генерация 50 кредитов.

Сайт
Твит
1🔥5212👍8
FLUX 2

В твитторе разработчиков Flux появилась картинка, намекающая на выход Flux 2 (или 1.2?) и сообщение:

upgrade incoming.

А в апи-логах появились ссылки на flux-2.

Подождите, мы же ждем Банану 2, не все сразу!

@cgevent
1🔥4311👍3😁3👎1🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
А Grok Imagine хорош!

Композом и трехмером можно приподутомиться так сделать...

@cgevent
1🔥127👍1610👎7😱4
У нас еще одно обновление в семействе генераторов картинок.

Некоторое время назад на LMArena появилась модель Mandarin (странно, что не пикоМандарин).

Вчера выяснилось, что это новый Grok Imagine.

Картинки действительно хорошие.

Но с версиями пока непонятки: раньше Imagine имел версию 0.9, по идее новая версия это 1.0 (Mandarin).

Но кроме истерики в твитторе этому нет подтверждения.

Также непонятки с обновлениями.

У меня в приложении Grok на андроиде действительно появился банер на старте про Imagine Update. Но на десктопе все как обычно, и понять, где какая версия довольно сложно.

Но можно провести тестирование на картинках с текстами - новый Grok Imagine очень хорош в этом.

@cgevent
👍19🔥127😁4🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs бахнули риалтайм титровалку (Speech-to-Text) Scribe v2

Задержка 150мс, это исчезающе мало.
Распознает и помечает разных спикеров
Русский - да, 92 языка.
Можно использовать на мероприятиях, есть стриминг и АПИ.
Побивает Gemini 2.5 Flash, GPT 4o MiniTranscribe, Deepgram Nova 3 и кто там еще есть.

https://elevenlabs.io/docs/models#scribe-v2-realtime

@cgevent
44👍21🔥10
This media is not supported in your browser
VIEW IN TELEGRAM
GAMMA.APP

Это, пожалуй, самый успешный стартап по созданию презентаций, который может устоять перед Микрософтом и Гуглом которые встраивают ИИ в свои Паверпойнты и Гуглслайды.

У них новая версия 3.0 и они теперь генерят не только презентации, но и целые сайты и макеты для социальных сетей. Тут Канва явно нервничает.

Из интересного.

У них 100 миллионов ARR, 70 миллионов пользователей и оценка в 2.1 миллиарда(!). При этом 50 сотрудников.
Также пишут, что 1 миллион гамм создается каждый день. Даже если все это поделить на маркетинг, то все равно впечатляет.

Еще они открыли API и вот вам Промпт Гайд от них:

https://gamma.app/prompts

Из совсем любопытного - пять лет назад, когда не было никакого ИИ, они создавали Гамму как Anti-Power-Point, для создания презентаций из блоков. А по дороге переобулись в ИИ.

@cgevent
🔥338👍6👎5