Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
А теперь обратно, из текста в голос.

Я уже писал про Октаву от Hume.ai

А вчера они выкатили в народ "Понимающую озвучку".

В общем их LLM предварительно анализирует текст и вытаскивает оттуда всякие сентименты: эмоции, контекст, окрас беседы. И использует эту информацию при озвучке текста.
Также можно создавать свои голоса (промптами) и поддавать жару\эмоций тоже промптами.

В общем эмоциональный интеллект в озвучке.

Ну и конечно по неким метрикам они побивают Eleven Labs, а как иначе.

Вот это вот публичное побивание друг друга превращается уже в реп-баттлы.

Пора попросить Клода и Суно сделать пестню на эту тему.

Читаем, пробуем тут:
https://www.hume.ai/

Но вот тут они переборщили с маркетингом и цифрами имхо: Trained on 1000x more language than traditional TTS, Octave understands your script like a human actor, delivering realistic emotions, sarcasm, pace, word emphasis, and more.

@cgevent
👍199🔥3😁1
Forwarded from Data Secrets
This media is not supported in your browser
VIEW IN TELEGRAM
Помните, мы рассказывали про диффузионную языковую модель LLaDA?

Так вот подход, кажется, набирает популярность: стартап Inception Labs выпустил «первую большую диффузионную языковую модель коммерческого масштаба»: Mercury Coder.

Если кратко, идея состоит в том, чтобы вместо генерации токенов один за одним генерировать их в произвольном порядке, как бы постепенно расшумляя замаскированную последовательность (подробнее - в нашем разборе LLaDA).

Самое интересное в этом – скорость. Mercury Coder летает в 5-10 раз быстрее, чем LLM текущего поколения. Это примерно 1000 токенов в секунду на обычной H100.

И метрики при этом вполне конкурентноспособные. На Copilot арене Mercury сейчас на втором месте. Это лучше, чем GPT-4o и Gemini 1.5.

Попробовать сетку можно уже сейчас бесплатно: chat.inceptionlabs.ai/
👍40🔥102😱2👎1😁1
Так, похоже Алибаба со своим Wan разворошил гнездо опенсорсных генераторов видео.

На гитхабе Хуньяня за последние два дня тонна апдейтов в коде. И похоже вот-вот они бахнут Image2Video.

Поглядите на видосы, которыми они уже флексят в твитторе. Это все I2V! Пруфы-картинки на входе имеются. Ну и оцените анатомию у бегуна. Похоже deep research сисек будет сделан окончательно и тема будет закрыта.

Более того, смотрите, что они пишут! 10 секунд!

You can now generate videos that lasts up to 10s of 1280x720 and 16s of 848x480 with 24 GB of VRAM with Loras and no quantization !!!

Ну и мне нравится такой маркетинг: Законы VRAM были нарушены, так как потребление VRAM было уменьшено в три раза, а скорость на 20%-50% быстрее без потери качества!

Ерзаем, идем брать в аренду гпу-серваки.

https://github.com/deepbeepmeep/HunyuanVideoGP

@cgevent
128🔥19👍8😁2
Хуньянь, что ты делаешь, прекрати!

Либо выпускай I2V, либо хватит дразницца.

Для тех, кто в теме, держите Лору для Хуньяня, которая позволяет задавать первый и последний кадры. Но это высокоточный хакинг с моделью text2video:
https://huggingface.co/dashtoon/hunyuan-video-keyframe-control-lora - видосы внутри.

@cgevent
1🔥54😱9😁74👍4
Forwarded from Сиолошная
Пост с выжимкой трансляции:

— модель будет в API вместе с выпуском в Pro-подписку (сегодня)
— Модель будет доступна разработчикам в API ВСЕХ ТИРОВ (не только тем, кто потратил $100+ или $250+). У меня уже появился доступ. В теории завтра-послезавтра появятся независимые бенчмарки... если авторы наскребут денег на тесты ;) новая модель ОЧЕНЬ дорогая
— в остальные тиры (Plus за $20) попадёт уже на следующей неделе
— появился блог: https://openai.com/index/introducing-gpt-4-5/
— модель уже работает с Canvas и поиском (инструменты в ChatGPT), а самое главное поддерживает загрузку файлов
— «GPT-4.5 демонстрирует более сильную эстетическую интуицию и креативность» (прилагаются результаты слепого тестирования на пользователях, как часто они предпочитали ответ одной модели другой). Новая модель побеждает в 57%-63% чатов (более высокий процент достигается на «профессиональных» запросах, что бы это не значило).
— модель тренировалась на нескольких датацентрах одновременно (как Gemini 1.0 год назад)
— как я писал, сделали акцент на том, что новая модель будет очень крутой базой для обучения рассуждающих моделей. Второй акцент — на существенном уменьшении галлюцинаций и улучшении надёжности.

UPD: появились цены!
— $75 долларов за миллион токенов на входе, $150 за миллион на выходе — существенно дороже, чем на релизе была GPT-4. Сейчас GPT-4o стоит $2.5/$10 — в 30 и 15 раз дешевле соответственно (а ведь это ещё и не самая дешёвая модель на рынке DeepSeek стоит значимо дешевле). Страшно представить, сколько будут рассуждалки стоить..
— модель похоже реально ОГРОМНАЯ, скорость генерации ну очень маленькая. Даже простых ответов приходится ждать... как будто вернулся в март '23-го и свежую GPT-4.

Длина контекста остаётся 128k токенов, но почти для всех кейсов этого хватает. Всё равно длинный контекст не так надёжен сам по себе :)

UPD2: модель имеет знания до Октября 2023-го года, согласно документации, то есть как o1/o3/GPT-4o. Это очень не здорово( хотелось хотя бы плюс 8-10 месяцев данных получить...
👎30👍12😱4😁21
This media is not supported in your browser
VIEW IN TELEGRAM
Пика не унимается.

Пикадишенс, ингредиентс, и вот теперь пикафреймс.

Короче, новая версия Pika 2.2.

10 секунд

1080р

Frames - возможность морфиться между двумя любыми кадрами промптом.
Все как у людей, в общем.

@cgevent
1🔥8111👍8😁2😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Я уже писал про развеселых Братьях Дор.

Держите новый, но не сильно веселый клип от них.

Щас, конечно, прибегут директора рекламных агентств, как у меня по традиции заведено в коментах, и начнут возопить, что все плохо и уши неправильные и Цук не похож.

Я посмотрел раз, потом посмотрел два.

История рассказана идеально. Без всякого липсинка и даже нарратива (что круто). Просто рассказана и все. Понятно, жоско. Примерно о том, что мы тут уже 5 лет обсуждаем.

Вы можете и дальше ловить блох, и искать жанры, стили, области, где это НЕ будет работать, а взрослые мальчики уже сейчас (хорошо) делают это там, где это РАБОТАЕТ. Ибо блох искать - не пиксели ворочать.

И да, это все генератив.

А я такой сижу с калькулятором в голове и считаю бюджет такого ролика, включая экспедиции и самолеты\графику и пост. И думаю, да, можно рассказать историю на 50% красивее по картинке, но потратив на 500 000% больше. Но зачем, если история рассказана? Это ж не марвел, где нет истории, и надо мочить графикой по глазам зрителя.

https://www.instagram.com/thedorbrothers/

@cgevent
4🔥111👍368👎4
This media is not supported in your browser
VIEW IN TELEGRAM
Ну и раз уж я взялся сегодня не обсуждать 4.5, а постить GenAI ролики, то вот вам еще один.

Рекламный.

И да, в нем тоже рассказана история.

И да, вы тоже найдете там косяки и пересветы.

Но поглядите, как фантастически иронично там сделаны Behind The Scenes!!! И они - это тоже полностью генератив! Особенно великолепно обсуждение бюджетов.

Вот брейкдаун:

📸 Step 1: Capture the car

We shot stills and videos of a real MINI Cooper E and trained a LoRA via krea_ai to ensure the car looked identical in every shot.

🎨 Step 2: Generate the visuals

Using this LoRA, we created all car shots with Black Forest Labs flux dev. The rest of the images were made with Black Forest Labs Flux 1.1 Ultra and @magnific_ai AI Mystic allowing full creative control and Adobe Photoshop refinements.

🎞 Step 3: Bring it to life

Everything was animated with Luma AI Ray2 (99%) and Google Veo2

🗣 Step 4: Sync the lips

I used sync.so to generate realistic mouth movements, matching dialogue precisely. ElevenLabs for voice generation.

🎙 Step 5: The voices

For the final spot, we hired real voice actors from Fiverr(?!?!?!?!). But for the Behind The Scenes, ElevenLabs AI voices did the job, also synced via sync.so.

🎬 Final Touches

No upscaling(!!!!!)—everything went straight into DaVinci Resolve for editing and color correction.

https://www.instagram.com/p/DGgUTkdysWU/

@cgevent
1👍66🔥3710😱5👎1😁1