Метаверсище и ИИще
47.6K subscribers
6.03K photos
4.5K videos
46 files
6.94K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Для тех, кто следит за 3Д, поглядите сюда

Это Triplane Gaussian Transformers, поддерживаемые в ComfyUI через ComfyUI-3D-Pack
Облако точек 3DGS, полученное непосредственно из одной картинки, преобразованное в мешь с помощью ноды Deep Marching Tetrahedrons ( mtl+obj)
https://twitter.com/ZHOZHO672070/status/1753268252636000272
👍37🔥19👎3
Forwarded from Квест Теория Каст и Ролей (Alexey Krol)
Наконец руки дошли до elevenlabs.io - не зря они менее, чем за год стали единорогом и в месяц у них 15 млн. посещений. Что они делают:

1. На входе текст, на выходе озвучка.
2. Поддерживают 15 языков, включая русский.
3. Поддерживают более 50 встроенных голосов, но самое главное, вы можете загрузить туда свой голос, и они далее все говорят вашим голосом.
4. Есть тонкие настроки, что позволяет менять настроение.
5. Хорошо читают знает препинания, делают паузы, если ставить многоточие.
6. Преобразование фрагмента из 400 символов заняло примерно 15-сек.
7. На выходе получается образец, который можно прослушать и скачать в MP3.
8. Есть инструменты.

цена:

- тариф 1$/месяц - вы можете сконвертировать 30 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. Можно использовать до 10 кастомных голосов - по сути полностью озвучить аудио спектакль.

- тариф 11$/месяц - 100 тыс. знаков. Это примерно 6000 слов - примерно 4-5 больших статьи. До 30 кастомных голосов. К примеру, мои Записки Мясника - примерно 30 эпизодов в месяц. Средний эпизод 500 слов или 2500 знаков, это примерно 75 тыс. знаков в месяц. Квест будет примерно 130 тыс. знаков/ месяц.

Доп. 1000 знаков - 30 центов. Т.е. если я хочу дополнить свой текстовый проект аудио и видео версией и мне нужен аудиофайл с озвучкой, мне это будет стоить в месяц примерно 43$.

43$, Карл. Если бы я это сам озвучивал, это взяло бы нереально времени, а если бы нанимал, то думаю, что примерно в 50-100 раз дороже.

А если я захочу и на русском и на английском, то это мне будет стоит еще + 40$. Т.е. каждый новый язык всего + 40$.

Да, живой артист озвучивает пока лучше, но практика показывает, что объем, частота и регулярность дают больший и надежный эффект, чем очень-очень редкая качественная озвучка. Ну мой голос - ничего особенного.😂

У вас есть что сказать? Вы не знали, как построить эффективный процесс создания аудио-видео контента на любом языке? Не знаете английского? Теперь препятствий нет.

ОПРАВДАНИЙ НЕТ (кроме трусливой и ленивой жопы).

Как построен мой процесс?

1. На входе текст, разумеется, отредактированный, с знаками препинания и т.п.
2. Если на русском, то сразу вставляю в elevenlabs.io Если нужно английски, то сначала переводу с помощью chatGPT.
3. Делаю настройки, генерация.
4. Скачиваю трек.
5. Профит.
6. Если это аудио подкаст, то Adobe Audition, если видео CupCut. Кстати, в CupCut для английского языка он сразу генерит аудио трек, но, кажется, elevenlabs.io - дает лучшее качество. Для видео используем чуть Midjourney, или футажи из RenderForest.🤣 Раньше пользовались ДаВинчи, но CupCut как-то для таких задач прямо бодрей.

Но есть проблема. Какая? Нужны тексты. Если у вас текстов нет, то и толку нет. Вы же все умеете писать крутые тексты? Да? В следующем посте пример озвучки.
🔥48👍25
This media is not supported in your browser
VIEW IN TELEGRAM
Эппле: Apple Vision Pro should never be used on or near roads, streets, or any other area where moving objects present a collision risk.

Пользователи: чо?

Тесла: осторожно, на дороге эплбой.

Забрал в канале у Жени, бомба просто.
👍30🔥6👎3
This media is not supported in your browser
VIEW IN TELEGRAM
Киберпанк с метаверсом наперевес уже здесь.
Все равно за рулём делать нечего.
Не на дорогу же смотреть...

Ну и руки есть чем занять...
🔥41👎13👍5
7 февраля выйдет Gemini Ultra 1.0 от Гугла.
Та самая 'убийца' GPT-4.
В связи с этим у Гугла появится платный план для доступа именно к этой модели под названием Gemini Advanced (цена неизвестна).
Так что следующая неделя будет полна бенчмарков от Гугла.

А теперь внимание: Bard переименовывают в Gemini!
Так что (возможно) Gemini Advanced также будет названием 'продвинутого' Барда - по аналогии с chatGPT Plus.

А я вам принес картинок из Барда.
По запросу "мальчик на пляже пьет лимонад".

Не знаю как с текстами, а вот с картинками у Барда беда (см мои посты выше). Алайнмент играет с Imagen2 злые шутки - он вроде пытается генерить фото реалистичных людей, но захлёбывается в собственной цензуре.
👍33👎9🔥7
DreamGaussian: Generative Gaussian Splatting for Efficient 3D Content Creation

Для тех, кто следит за генерацией 3Д, отложите вот этот проект в закладки. Он недавно обновился.

Они используют Гауссианы, а из них генерят обычные меши с текстурами. Более того, у них на сайте есть даже анимация полученных (скажем так) персонажей (с помощью миксамо). Качество там, конечно, адъ, но сам замысел (гауссианы с уплотнением, полигоны, рефайнинг, попытки анимации) радует.
Кроме того, они декларируют десятикратный выигрыш по скорости, по сравнению с существующими методами.
https://dreamgaussian.github.io/

Также из это области:
HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting

Тут похожий, но более медленный подход на основе SDS.
НО! Они генерят конкретный класс объектов (о чем я завываю постоянно в постах про 3Д). И в помогаторы берут модель SMPL-X (это такая штука, которая используется для параметрического для описания формы и позы человеческого тела и включает в себя лицевые экспрешены и движение пальцев) и инициализируют началные позиции Гауссианов с сетки SMPL.
Обратно в полигоны они не возвращают, но демонстрируют анимацию прямо на отренедеренных Гауссианах.
https://alvinliu0.github.io/projects/HumanGaussian
👍23🔥4
Немного философии.

Хотя поток проклятий типа "да что он может, стохастический попугай, только повторяет то, что уже видел" немного приподыссяк, ортодоксальные кожаные до сих пор воспринимают ИИ, как программу, которая перемножает матрицы и подставляет цифры в клеточки для получения финального ответа. Немного рандомного ответа(там для этого есть параметр температура), но все равно это алгоритм.

Сейчас оставим за рамками дискуссии тот факт, что мы с вами действуем примерно также, если не тащить в рассуждения творчество, вдохновение, интуицию и другую метафизику за отсутствием определения для оных.

Просто подумаем, да, есть программа, которая выполняет код (инференс), есть веса модели. Но вот эти вот веса, были получены тренировкой (воспитанием, взрослением) модели на определенном датасете. Есть еще файнтюнинг, алайнмент, но в рассуждениях появляется датасет. Огромный корпус текстов. Вроде как огромный набор слов. Но их расположение, порядок следования, повторяемость ни разу не случайны, а следуют некоторым правилам. И это не правила конкретного языка, типа жи-ши, а запечатанные отношения между людьми. В диалогах - отношения, в монологах - рефлексия, в описаниях - отношения с миром, скажем так, ну и так далее. Ну и датасет немаленький - это не вирши одного человека, это как бы всё и про всех. Этакий метатекст, где автор - все кожаное писательство. Поколения и поколения.

Далее, коль скоро язык - инструмент мышления, данный, чтобы на нем мыслить мозгами в голове (ну ок, чем-то где-то, неважно), то вот в этот вот датасет запечатано кожаное мышление, со всеми его прибабахами. Голограмма кожанного интеллекта, если выражаться пОшло.

А дальше мы делимся на две категории. Одни будут говорить, что ничего там не запечатано, нет у него свободы воли, собственных желаний и тд. И вообще он к биологии не подключен, поэтому чего ему желать, стохастическому попугаю.
Другие задумаются о том, что это вообще-то недоказуемо. Доказать отсутствие сознания у ИИ, не имея на руках определения сознания или интеллекта, вообще-то говоря, нельзя. Говорить можно, доказать - нет.
Как ни странно, что во второй группе могут оказаться математики, которые любят четкие доказательства и не любят терминов без определения, которыми так щедро осыпают нас философы.

Ну и как это уже заведено в истории - поделимся на две группы. Первая будет отрицать наличие (тут я замялся с прилагательным.. человеческого... божественного.. недоказуемого..) у ИИ, а вторая будет ощупывать слона в темноте, не делая бездоказательных выводов в отсутствии, пардон, доказательств.
Вопрос веры.
🔥45👍21👎9
Хотите поглядеть как выглядел бы масс-адопшен эппловской масочки?
Спросите мидджорни.
Мне как то не заходит такой мир.
https://www.reddit.com/r/midjourney/s/54MElpLiV9

Кстати, интересный факт.

Дэвид Хольц имеет большой опыт работы с железом и VR/AR, являясь бывшим соучредителем и техническим директором Leap Motion.

А в декабре Мидджорни схантили инжиниринг менеджера из команды Apple Vision Pro на позицию, внимание!, Head of Hardware at Midjourney.

Чуете к чему идёт?
Генеративный ИИ_Метаверс в очках от Миджорни?

https://x.com/zackhargett/status/1753470164379865278
🔥21👎5👍3