Метаверсище и ИИще
47.1K subscribers
5.98K photos
4.44K videos
45 files
6.89K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
Forwarded from Data Secrets
Китайский поисковик Baidu релизнул модель уровня GPT-4.5 за 1% от цены

На самом деле релизнули даже две модели, и обе уже успели навести очень много шума:

НЕ-ризонер Ernie 4.5. Мультимодальная модель, превосходящая GPT-4.5 по нескольким показателям (метрики выше). Может анализировать картинки, диаграммы, документы и даже аудио. При этом стоит в 100 раз меньше GPT-4.5.

Цены OpenAI: Input $75 / 1M, Output $150 / 1M
Цены Baidu: Input $0.55 / 1M, Output $2.20 / 1M

Ризонер Ernie X1. Уровень DeepSeek R1 за полцены. Input $0.28 / 1M, output $1.1 / 1M.

Ну и самое приятное: Ernie 4.5 в чате работает бесплатно. И X1 скоро тоже обещают докатить. Пробуйте здесь: yiyan.baidu.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56😱16🔥10👎2
This media is not supported in your browser
VIEW IN TELEGRAM
Я не успел написать про Сезам, может и к лучшему, ибо сейчас новостей поднакопилось не просто на "вот смотрит что еще", а возможность пощупать самим.

Sesame AI - это Conversational Speech Model, предназначенная для генерации речи. У них на сайте есть демо, где вы можете поговорить с Майя (правильное имя), которую еще называют голосовым ассистентом. Ее фишка в реалистичности не только голоса, но и передаваемых эмоций, нюансов и чувствования контекста, так сказать.

За Майей стоит Brendan Iribe, который создал Oculus VR и продал его Facebook. И да, у компании планы на создание своих(!?) ИИ-очков с этой самой Сезам на борту (на переносице?).

Попробуйте сами, впечатляет. Их рекламный слоган - "мы прошли зловещую долину", возможно имеет право на жизнь.

Но крутизна в том, что они взяли и опенсорснули свою модель, разница в между кодом на Гитхабе и моделью с сайта в том, что на сайте файнтюн под конкретные два голоса, а модель на гитхабе "способна воспроизводить различные голоса, но не была обучена для какого-либо конкретного голоса Модель имеет некоторые возможности для не-английских языков благодаря data contamination(!) в обучающих данных, но, скорее всего, она не будет работать хорошо".

https://github.com/SesameAILabs/csm
Есть демо:
https://huggingface.co/spaces/sesame/csm-1b

Но и это еще не все, гениальный подписчик Вячеслав сделал ноды для Комфи, чтобы это дело можно было погонять
локально:
https://github.com/thezveroboy/ComfyUI-CSM-Nodes

Пробуем.

@cgevent
🔥64👍226
Минимах разродился генератором картинок.

Это стало уже трендом, когда видеогенераторы порождают субпродукт - генерация изображений.

Обсуждать особо нечего, надо тестировать. Есть только минимум настроек - улучшайзер промпта и аспект.

На первый взгляд, как у всех, шарахание от анатомии, очень хорошее понимание промпта, кожа - не айс.

Я погенерил бутылочек и X-Ray - на стилях и абстракциях ведет себя хорошо.
visualized as an X-Ray Crystalline Structure, revealing internal geometries and hidden patterns. Employ stark white lines and shapes on a deep black background to mimic the look of scientific imaging

За 10 баксов - 1000 картинок в месяц (малавата).
За 0 баксов - есть бесплатные ежедневные кредиты (пока)
Есть апи под запрос.

Кстати, на сайте есть навернутый, но странно оформленный в ноушене юзер гайд.

@cgevent
👍1611🔥1
Я как-то пропустил, но в Gemini добавили Deep Research.
У Гугла в принципе поиск в интернете были так не плохой (в отличие от chatGPT). Но как будет ресерчить, надо проверять.

Вроде как 5 запросов на ресерч в месяц на бесплатном тарифе. И какой-то конский контекст чуть ли не в миллион токенов.

@cgevent
👍368😱5🔥1
Адобченко сделал удалятор фона отдельной веб-фишкой. Проблема в том, что у меня не работает. Проверьте у себя:
https://www.adobe.com/express/feature/ai/image/remove-background
👍17👎1
Минимах разродился генератором картинок - дифчонки

Он не ругается на промпты, он просто прячет картинки. Слегка одетая анатомия - норм.

@cgevent
🔥41😁16👍8👎32😱1
Языковая 3Д-генерация.

У нас есть некоторое количество сервисов для 3Д-генерации, о которых я неоднократно писал.
Проблема там в основном в топологии (каша) и в качестве текстур. Плюс в ограниченности сцены - как правило это один объект.

Уже неделю как интернет бомбит от связки Блендора и Клода 3.7 через MCP, о которой я тоже писал.
Ну и действительно, поглядите на пример.

Все, что потребовалось здесь, это сгенерировать картинку, а потом сказать Клюду:
"Recognize any elements of this scene individually. Describe them precisely, then build them in a scene."

"Распознай все элементы этой сцены по отдельности. Опишите их точно, а затем сделай из них сцену".

"Традиционные" 3Д-генераторы тоже пытаются распознать картинку, потом сгенерить ее с разных ракурсов, а потом восстановить 3Д из нескольких картинок. А Клод пытается "собрать\отрендерить сцену" с помощью, грубо говоря, скриптов для Блендора - запуская разные команды, о которых он в курсе. Процедурное моделирование на стрероидах LLM.

Понятно, что пока довольно примитивные сцены, понятно, что замоделить голову неведомого ему персонажа будет сложновато, но дайте время.

Интересно подумать, над специальным файнтюном как для распознавания картинок, так и для (и особенно) для Блендора. Файнтьюн, который обучен на последовательностях действий и сценах.

Просто сцены, которые генерит Клод, отлично редактируются, анимируются - это нормальная геометрия, а не обмылки из 3Д-генераторов.

Интересно, посмотреть, что будет дальше.

@cgevent
4👍41🔥83😁1