Метаверсище и ИИще
47.1K subscribers
5.98K photos
4.44K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Если кому интересно, то chatGPT c моделью 4.5 стал принимать на вход картинки. Более того, если ему дать на вход видео, как файл, он может его описать.

Но генерит по прежнему в дряхлом dalle-3.

@cgevent
👍48🔥133
Forwarded from Psy Eyes
This media is not supported in your browser
VIEW IN TELEGRAM
Гоняем Wan на динамику.

Хотел сделать так, чтобы мех колыхался с указанием в промте 10 м/с и его последовательным увеличением до 15 м/с —> 20 м/с —> 25 м/с итд.

Но пока вижу, что от этого камеру больше штормит, чем мех. Котэ непоколебим!

Надо попробовать mph (мили/час), или просто добавить к wind слова strong, very strong, very very strong, wtf U R doing outside?, итд
😁2810👍7
Apple добавит функцию синхронного перевода в AirPods

Так, по крайней мере, я перевожу Live Translation.

Подробностей минимум.
В конце года.
Только IOS 19.

Если приподнакинуть с дивана, то синхрон в каком-то виде есть уже у Метачки в умных очках, у Самсунга прямо в телефонах (on device, без доступа в облако) и даже в ушах Pixel Buds от Гугла.
Но где Пиксел Бадс и где Айр Подс. Про первые мало кто слышал, вторые уже как ксерокс.

Тут интересны вопрос в реальной востребованности такой фичи на b2c рынке. В путешествиях, на конференциях - да. Но сколько времени вы путешествуете и ходите на международные конференции.
В принципе можно ютюб смотреть в таких наушниках через колонку и микрофон.

Интересно, во что превратится синхронный перевод через полгода. В принципе задача уже решенная, и тут интересно как и кем он будет продуктово упакован. Весь онлайн-конференсинг просмотр, думаю, будет оснащен встроенным переводом на лету (уже). Стриминги тоже.

Остаются живые мультиязычные взаимодействия.

P/S/ Памятуя, как Эппле облажалась с Apple Intelligence, через полгода нам могут опять показать демо и отложить на след год.

И как, интересно, там с цензурой? Жопа есть, а слова "жопа" нет?

https://www.theverge.com/news/629506/apple-airpods-live-translation-ios-19
1👍305🔥5🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
Вы будете смеяцца, но у нас новый видеогенератор.

Причем амбициозный до жути.

Мы, говорят, натренировали свою модель, Marey 1.0, специально для тех, кто делает, наминутчку, КИНО!

Дальше идет традиционный корпоративный бушит в духе адобченко:
The first clean AI model for videography built off fully owned/licensed content

Или вот так:
Marey proves that AI can be ethical, legal, and designed specifically for creatives.

Для меня звучит как, меньше данных, хуже качество. Что в общем и демонстрирует нам видеогенератор Firefly от Адобченко. Где Firefly и где Kling?

Модель закрытая, цена непонятная, а подробности не являют миру революцию:

Marey обучалась на «собственных или полностью лицензированных» исходных данных и предлагает возможности настройки, включая детальное управление камерой и движением.

1080P

30 секунд

Есть только вейтлист:
https://www.moonvalley.com/

Мне кажется, это инвестиционные игрища.

@cgevent
👍21👎116🔥6
This media is not supported in your browser
VIEW IN TELEGRAM
Нейрорендеринг - это следующая фишка в 3Д.

DeemosTech продолжают хвастаться своим нейрорендером.

Выглядит так, что теперь из превиза - сразу в рендер. Без вот этого вот всего: текстуринг, uv, шейдинг, лайтинг. Вместо рендер артистов - стайл скауты.

И опять ничего не кипит. Я заинтригован. Предсказывал нейрорендер примерно 2 года назад, началось?

@cgevent
52👍80🔥1910👎5
Forwarded from Psy Eyes
Красные есть в здании?

Stability: тихо выпустили версии Stable Diffusion, начиная с SDXL до SD 3.5-Large, адаптированные под видюхи AMD.

Гонять надо через предоставляемый ими интерфейс Amuse.

Хаггинг
1👍29😁76🔥2😱1
Китайская солидарность.

В Клинг привезли Дипсик в качестве писателя и улучшателя промтов.

Пока неясно, это файнтюненная версия Дипсика именно для клингонских промптов или нет.

А ещё по интернетику ходит новость, что у разрабов Дипсика отобрали в Китае загран паспорта.
Чтобы не было утечки мозгов вместe с содержимым мозгов.
Надо фактчекать, но мир, похоже поляризуется на линии штаты-китай, если смотреть на алармистские заявления Амодея из Антропика ну и самого Альтмана. Последние топят против утечки видеокарт.

Куда катится мир?

@cgevent
😱18👍125😁4👎2🔥1
Вайб Моделинг с Клодом в Блендере.

Тут я вспоминаю, как с первыми версиями Майя поставлялось 16 кг бумажной документации.
И там была отдельная книжка в туторами.

В ней был моделинг тюленя по имени Салти и какой-то типа торпеды-ракеты.

2025: Клод, открой Блендор и замодель самолёт.

2027: Клод, просто добавь вайба в мою жизнь, вот доступы.

@cgevent
👍46🔥21😁9🙏1
Продуктовая упаковка.

Тут нет вообще никакой новой технологии или ресерча.

Просто взяли компьюта, Flux 1.1 и апи OpenAI и сделали генератор сотни картинок за 15 секунд.

Все.

Жмёте кнопку, получает 100 картинок. Вариация на тему даже не промпта (промпт пишут за вас), а вашей идеи.

Там прицепом ещё пакетная обработка картинок - удаление фона, замена лица и пр.

Пример чистого продукта без примеси R&D.

Интересно, найдет своего платящего пользователя?

https://bulkimagegeneration.com/

Боюсь, что нет, ибо 1000 картинок В МЕСЯЦ за 82 доллара (десять генераций?) - это как бы шутка...

Ну и мне кажется что в glif.app это же можно собрать сильно дешевле

@cgevent
👍145
This media is not supported in your browser
VIEW IN TELEGRAM
Голосовой ввод, говорите? Синхронный перевод в Айрподсах? Войс ассистент?

Принес вам нетленку десятилетней давности.

Помнится много лет назад я приехал на тренинг по Maya 0 beta 6 в Лондон и сел в такси. Кокни-драйвер попытался прокоммуницировать со мной, а я с ним. Примерно как на видео. Через 10 минут я достал ручку и бумажку и просто написал адрес. И всю дорогу слушал инопланетную речь, полную неведомых гласных.

Оригинал тут:
https://youtu.be/HbDnxzrbxn4?si=1XTSC6t6gwNZowlT

@cgevent
14😁119👍14
Forwarded from Data Secrets
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены

На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:

НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.

Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56😱16🔥10👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Я не успел написать про Сезам, может и к лучшему, ибо сейчас новостей поднакопилось не просто на "вот смотрит что еще", а возможность пощупать самим.

Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.

За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).

Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.

Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".

https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b

Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes

Пробуем.

@cgevent
🔥64👍226
Минимах разродился генератором картинок.

Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.

Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.

На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.

Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging

За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.

Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.

@cgevent
👍1611🔥1