Метаверсище и ИИще
48K subscribers
6.05K photos
4.52K videos
47 files
6.96K links
Это не новости, это персональный экспертный взгляд на то, как развивается индустрия ИИ, графики, метаверса, крипты, нейротехнологий и в каком направлении катится все это безобразие.
Для связи: @SergeyTsyptsyn
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Немного про робатов.

Пока все показанные робаты, что у Маска, что у других, двигаются как полные инвалиды с мороза. Медленно, странно, угловато.

Интересная работа от Nvidia:
Aligning Simulation and Real-World Physics for Learning Agile Humanoid Whole-Body Skills

Двухступенчатый фреймворк для улучшения "маневренности" гуманоидного робота.

Он предварительно обучает динамику движений на человеческих данных, а затем уточняет ее с помощью реальных поправок, используя дельта-невязки, корректирующие несоответствия моделирования и данных. И код есть, апдейты 7 часов назад.

А я, кстати, завтра делаю Хаб на тему робатов. Гуманоиды, ИИ и даже web3 - все как мы любим. Будете в Пафосе, залетайте.

P.S. Одного не понял, зачем им странную маску-шапочку прикрутили? Эстетика? Странно, кожаная башка тяжелая и точно влияет на динамику движений, а эта масочка явно легкая и на движения явно не влияет.

@cgevent
👍26🔥109😁1
У VideoSmile появился новый бесплатный мини-курс по нейросетям для видео и изображений!

Мне нравится Videosmile, что они во-первых старые и давно на рынке в отличие от неонейрокурсов, а во-вторых, что они идут от графики, а не от вакуума. У них по графике тонна курсов, поэтому опыт преломляется именно в графические скилы.

На курсе 5 уроков, разные сетки, генерация роботов..

Судя по отзывам, есть живая поддержка от кураторов, лайвчат и всякие ништяки типа сертификатов.

Курс тут - https://cloudlessons.ru/c/26469

@cgevent
👎46👍34😁64🔥2
Forwarded from AI Product | Igor Akimov
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI тут на конфе в Японии показали, как они сделали AI сейлза по входящим лидам.

Вот как работает:

- Клиент заполняет форму Contact Sales.
- Контактные данные попадают в панель задач OpenAI в качестве лида
- Агент по продажам анализирует заявку и вызывает несколько функций
- Инструмент enrich_lead выполняет глубокое исследование лида, чтобы заполнить его информацией, например данными о роли, секторе, размере компании и т. д.
- Вызывает get_calendar_availability, чтобы проверить свободное время для назначения встречи.
- Вызывает send_email, чтобы составить проект электронного письма для планирования встречи.
- завершает задачу.

Так что сапожник - с сапогами (хотя честно говоря сколько не заполнял форму на общение с сейлзами OpenAI, ни разу не отвечали...)
😁37👍157👎1😱1
This media is not supported in your browser
VIEW IN TELEGRAM
Ну, за разметчиков!

Только мы нашли, чем будут заниматься кожаные (разметкой данных для ИИ), так ИИ уже подсуетился и все сделал сам.

Точнее сделал Andrew Ng, выкатив Agentic Object Detection

Обнаружение объектов на основе рассуждений: человекоподобная точность с помощью текстовых подсказок без лишних затрат на обучение - агенты используют\обдумывают\разглядывают? design patterns для обнаружения уникальных атрибутов, таких как цвет, форма и текстура, для более интеллектуального и точного распознавания нужных аттрибутов в любом сценарии. А не только на личиках и котиках.

Если не читать только заготовки, а пойти на сайт(что я, как дебил, постоянно делаю), то можно увидеть отличные примеры и вот такую сентенцию:

"В будущем планируется добавить трекинг объектов, обнаружение нескольких типов объектов и поддержку видео".

Вот это нам надо! Пора уже выпить за композ!

https://landing.ai/agentic-object-detection

Ну и поглядите видео, он там на пальцах объясняет, что LLM для разметки - как придорожный акын: что вижу, о том и пою. А агенты разглядывают, рассуждают, сравнивают паттерны и ну выдавать результат, но медленно.

@cgevent
👍5012😱11🔥9😁5
DeepSeek VL2 Small

DeepSeek представил версию своей новой модели DeepSeek VL2 Small - грубо говоря для разговора с картинками и видосами.

Средняя: 16 миллиардов параметров и Mixture of Experts (MoE)

Очень круто, что уже доступна на Hugging Face Space.
Пишут что нереально хороша в OCR - распознавании даже кривых текстов.
Я немного потыкал - действительно круто описывает картинки, но что более важно, имеет спец теги-токены, которые можно использовать в запросах, типа найди жирафа именно на заднем плане. Обязательно гляньте примеры внизу - из них понятно, что она умеет.

@cgevent
31👍15
This media is not supported in your browser
VIEW IN TELEGRAM
Оппа, у Грока новый апдейт в генерации картинок.

Теперь их можно редактировать. Промптами.
Не уверен, что кто-то тут юзает грок именно для картинок (Аврора - авторегрессионная модель и качеством не блещет), но юзеры твиттора, генерящие мемы про Маска и Трампа оценят.

@cgevent
👍182
Пикадишенс!

Pika не сдается
...

Заход на мемную территорию с эффектами типа сжатия или раскалывания объектов был вирусным, но краткосрочным.

Сейчас они довольно сильно продвинулись - я бы выпил за композеров, если бы не приподшакальное качество.

Но как мемогенератор - это уже шаг вперед. Это не фиксированные эффекты с предопределенной динамикой, это вставка своего объекта в существующее видео. На входе видос и картинка, объект с которой надо вонзить\наложить на видео.

Если игнорировать качество и освещение, то поглядите, как модель (пусть не полностью) понимает физику мира и отношения между объектами.

Просто представьте, сколько времени решать такие задачи в композе... А качество и управляемость будут только расти.

А смешивание картуна и съемки выглядит вполне себе. Ноги елозят, но это же не мокап, это одна кнопка!

И Нюк такой - отвалите нам 10К фунтов за лицензию в год.
Pika - пятнадцать бесплатных Пикадишенов для каждого нового подписавшегося пользователя.

Куда катится мир...

@cgevent
👍32😁167🔥3👎1