Media is too big
VIEW IN TELEGRAM
Представьте: вы приходите домой, а робот уже накрыл ужин при свечах и убрал беспорядок после вчерашней вечеринки. И вы не можете отличить, человек это сделал или машина. Это «физический тест Тьюринга» — новая веха в робототехнике, о которой в своем выступлении рассказал Джим Фан, директор по робототехнике в NVIDIA.
Но почему до сих пор ни один робот не справляется с банановой кожурой на полу, а завтрак с хлопьями получается лишь на твердую тройку?
Проблема - в данных. Если ИИ для языка «питается» текстами из интернета, то роботам нужны данные из реального мира: сигналы управления, физические параметры, обратная связь от движений. Собрать их сложно и дорого. В NVIDIA используют телеметрию: операторы в VR-шлемах управляют роботами, записывая каждое действие. Но это медленно, а масштабировать такой сбор данных почти невозможно.
«Это как ископаемое топливо, только хуже — вы сжигаете человеко-часы», — говорит Фан.
Очевидное решение — использовать симуляции. NVIDIA запустила проект Dr. Eureka, где роботов учат в виртуальных мирах. Например, робособака учится балансировать на мяче, а гуманоид осваивает ходьбу за два часа симуляции вместо десяти лет проб и ошибок. Для этого запускают 10 000 параллельных сред с разной гравитацией, трением и весом (это называют «рандомизацией домена»). Если нейросеть справляется в миллионе вариаций, она справится и в реальности.
Но симуляции, к сожалению, не панацея. Традиционные методы требуют ручной настройки каждого объекта. Тут на помощь приходят генеративные модели: Stable Diffusion создает текстуры, ИИ генерирует 3D-сцены, а язык XML пишется через запросы к нейросети. Так появился фреймворк Robocasa — «цифровой двойник» реального мира, где всё, кроме робота, создано алгоритмами. Даже видео с роботом, играющим на укулеле, — фейк, сгенерированный видео-диффузионной моделью.
Ключевой прорыв - модель GROOT, которую NVIDIA открыла для сообщества. Она преобразует изображения и команды в движения, управляя роботом «из коробки». GROOT N1 ловко наливает шампанское или сортирует детали на конвейере. А все благодаря компактной архитектуре, всего 1.5 млн параметров, что меньше, чем у многих мобильных приложений.
Что дальше? Фан говорит о «физическом API» — слое, который превратит роботов в универсальных исполнителей. Представьте: вы запрашиваете навык «приготовить ужин от Мишлен» через облако, и робот делает это без программирования. Или роботы-курьеры сами перестраивают логистику, общаясь через язык действий.
«Все, что движется, станет автономным», — цитирует Фан CEO NVIDIA Дженсена Хуанга.
Главное препятствие кроется в этапе перехода от «цифровых близнецов» к нейросетевым симуляциям («цифровым кочевникам»), которые смогут предсказывать миллионы сценариев. Тут уже не хватит классических методов - нужны гибридные системы, где физика сочетается с генеративными моделями. И судя по темпам (за год нейросети научились реалистично имитировать жидкости и деформации), будущее ближе, чем кажется.
Так когда же мы пройдем физический тест Тьюринга? Возможно, это случится в один из обычных вторников — без анонсов и громких презентаций, как это произошло с языковыми моделями. И тогда роботы станут невидимым фоном жизни, как электричество или Wi-Fi. А мы очень быстро забудем, как жили без них.
@ai_machinelearning_big_data
#AI #ML #Robotics #AIAscent2025 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍78❤33🔥20🍓3
Media is too big
VIEW IN TELEGRAM
🤖 Boston Dynamics показали, как их гуманоидный робот Atlas «видит» мир и взаимодействует с ним
В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста.
🧠 Что умеет Atlas:
🔹 Понимает форму и назначение объектов в реальной среде
🔹 Объединяет 2D и 3D восприятие
🔹 Использует ключевые точки для ориентации в пространстве
🔹 Отслеживает позы объектов с учётом их движения и перекрытия
🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему
🔹 Имеет сверхточную калибровку для координации «глаз–рука»
Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто.
Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту.
Их робот выглядит на данный момент самым передовым, как вы считаете?
@ai_machinelearning_big_data
#Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект
В новом видео команда ИИ-инженеров показала, как устроена система восприятия Atlas — и это уже не просто «робот с камерами», а почти полноценный агент с чувством пространства и контекста.
🧠 Что умеет Atlas:
🔹 Понимает форму и назначение объектов в реальной среде
🔹 Объединяет 2D и 3D восприятие
🔹 Использует ключевые точки для ориентации в пространстве
🔹 Отслеживает позы объектов с учётом их движения и перекрытия
🔹 Сливает визуальные данные, кинематику и знания об объектах в одну систему
🔹 Имеет сверхточную калибровку для координации «глаз–рука»
Atlas может не просто находить предмет, но понимать, *что это*, *зачем оно нужно* и *как его лучше схватить*, даже если оно наполовину скрыто.
Команда инженеров работает над единой моделью, которая объединяет восприятие и управление. Это шаг от просто «пространственного ИИ» к настоящему физическому интеллекту.
Их робот выглядит на данный момент самым передовым, как вы считаете?
@ai_machinelearning_big_data
#Atlas #BostonDynamics #AI #Robotics #Перцепция #ИскусственныйИнтеллект
🔥89👍37❤18🤔9🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Илон Маск: с Neuralink можно будет “переселиться” в тело робота Tesla Optimus
Маск заявил, что люди с нейроимплантами Neuralink смогут полностью управлять роботом Tesla Optimus, ощущая его тело как своё собственное:
Не только рукой двигать — вы буквально сможете ‘ментально переселиться’ в робота.”*
По сути, речь идёт о телеприсутствии от первого лица — с полным контролем движений и тактильной обратной связью от всего тела робота.
Илон, как всегда, ставит цели на грани фантастики. Но Neuralink + Optimus действительно выглядит как первый шаг к кибер реальности такого робота.
Звучит как сюжет из «Аватара», но это уже обсуждается как реальная технология.
@ai_machinelearning_big_data
#neuralink #optimus #elonmusk #tesla #bci #robotics #futuretech #cyborg
Маск заявил, что люди с нейроимплантами Neuralink смогут полностью управлять роботом Tesla Optimus, ощущая его тело как своё собственное:
> *“Вы сможете иметь полный контроль и сенсоры всего тела Optimus.
Не только рукой двигать — вы буквально сможете ‘ментально переселиться’ в робота.”*
По сути, речь идёт о телеприсутствии от первого лица — с полным контролем движений и тактильной обратной связью от всего тела робота.
Илон, как всегда, ставит цели на грани фантастики. Но Neuralink + Optimus действительно выглядит как первый шаг к кибер реальности такого робота.
Звучит как сюжет из «Аватара», но это уже обсуждается как реальная технология.
@ai_machinelearning_big_data
#neuralink #optimus #elonmusk #tesla #bci #robotics #futuretech #cyborg
❤101👍41🔥22🗿8🤔5🍓5🥰3🤨3👀3😁2🌭1
Научить робота уверенно брать предметы - это, кажется, вечная тема в робототехнике. Несмотря на десятилетия исследований, надежные и универсальные системы захвата до сих пор остаются скорее теорией, чем реальностью.
Стоит копнуть глубже стандартных демо, и выясняется, что на сложных бенчмарках, FetchBench например, точность лучших систем едва дотягивает до 20%. Это фундаментальный барьер, мешающий внедрять роботов в реальные, неструктурированные среды.
GraspGen - фреймворк для генерации 6-DOF захватов, который не только показывает SOTA результаты, но и вводит новый, крайне интересный подход к обучению.
В его основе лежит связка из генератора на базе Diffusion Transformer и дискриминатора, знакомая всем по GAN-ам архитектура, но с важным отличием.
Генератор, получив на вход облако точек объекта, предлагает множество вариантов захвата, а дискриминатор оценивает их качество и отсеивает неудачные.
И вот тут-то и кроется основная идея, которую в NVIDIA назвали «On-Generator Training». Вместо того чтобы обучать дискриминатор на заранее собранном офлайн-датасете из "хороших" и "плохих" захватов, его учат непосредственно на тех ошибках, которые генерирует его подопечный - диффузионная модель.
Иными словами, дискриминатор становится экспертом не в захватах вообще, а в типичных промахах конкретного генератора. Он учится распознавать и отбраковывать именно те ложноположительные варианты, которые сам генератор считает удачными, но которые на самом деле приведут к провалу. Такой подход создает мощную и целенаправленную обратную связь.
Разработчики выпустили симулированный датасет, содержащий более 53 млн. примеров захватов для 3 разных типов манипуляторов, включая параллельные захваты и вакуумные присоски.
В симуляции на сете ACRONYM GraspGen показывает AUC (площадь под кривой точность-покрытие) 0.94, это больше ближайших конкурентов на 48%.
На комплексном бенче FetchBench он обошел предыдущих лидеров M2T2 и Contact-GraspNet на 7.8% и 16.9% соответственно.
Но самое главное - это тесты на реальном железе. В экспериментах с роботом UR10 в зашумленной среде GraspGen достиг общей успешности в 81.3%, в то время как M2T2 и AnyGrasp показали лишь 52.6% и 63.7%.
Код, веса моделей и датасет уже доступны на GitHub и Hugging Face.
Авторы позаботились об энтузиастах: есть подробные инструкции по установке через Docker или pip, готовые демо-скрипты, позволяющие визуализировать захваты для своих облаков точек или 3D-моделей буквально в несколько команд.
Более того, GraspGen изначально спроектирован как модульная и расширяемая система. Разработчики предоставляют подробный туториал, который объясняет, как генерировать данные и обучать модели для совершенно новых объектов и, что важнее, новых типов манипуляторов, реализуя принцип BYOD.
Интеграция с симулятором Isaac Lab для еще более продвинутой генерации данных и возможность дообучения на реальных данных.
@ai_machinelearning_big_data
#AI #ML #Robotics #GraspGen #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63❤35👍24😁4🎉3👨💻1
Genie Envisioner (GE) — унифицированная платформа от AgiBot Genie Team, где обучение, симуляция и оценка объединены в рамках одной видеогенеративной модели.
В основе всей системы лежит GE-Base, диффузионная видеомодель, натренированная на огромном датасете из миллиона эпизодов реальных манипуляций, записанных с нескольких камер, общей продолжительностью почти 3000 часов.
Модель училась предсказывать следующие кадры видео на основе текстовой инструкции и предыдущих наблюдений, таким образом формируя внутреннее представление о физике мира и динамике объектов.
Но предсказывать видео - это одно, а выполнять действия - совсем другое. За это отвечает второй компонент, GE-Act. Это легковесный модуль на 160 млн. параметров, который подключается к GE-Base и преобразует ее внутренние представления в конкретные команды для моторов робота.
Проще говоря, он переводит предсказания в исполняемые траектории. Причем делает это быстро: на генерацию последовательности из 54 шагов уходит всего 200 миллисекунд на NVIDIA RTX 4090, что позволяет использовать систему в реальном времени.
Замыкает троицу компонент GE-Sim - нейронный симулятор, построенный на той же GE-Base. Он позволяет прогонять тысячи симуляций в час для оценки политик без использования реального железа.
Чтобы объективно измерять качество таких видео-симуляторов, авторы разработали собственный бенчмарк EWMBench. Он оценивает не только визуальную правдоподобность, но и физическую консистентность и соответствие действий инструкциям.
На этом бенчмарке GE-Base
@ai_machinelearning_big_data
#AI #ML #Robotics #GenieEnvisioner #AgiBot
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤35👍21🔥13🥰5🥱2🤩1💘1
Media is too big
VIEW IN TELEGRAM
XLeRobot — это открытый проект, который позволяет собрать настоящего двухрукого мобильного робота своими руками.
Автор — студент Rice University Gaotian Wang, в проектеон сделал упор на доступность и практичность.
- Цена сборки ≈ $660 — полноценный робот с двумя руками и колесной базой.
- Можно собрать упрощённую версия за $250 на базе LeKiwi + SO-100, которая собирается быстрее.
- В комплекте: URDF-модели, симуляция, управление через VR, Joy-Con или Xbox-геймпад.
- Подходит для экспериментов в симуляции и переноса в реальный мир (**Sim2Real**).
взаимодействия с окружающей средой.
XLeRobot — это недорогая и открытая платформа для тех, кто хочет попробовать себя в робототехнике, исследовать управление, симуляцию и AI-алгоритмы на реальном роботе.
@ai_machinelearning_big_data
#robotics #opensource #AI
Please open Telegram to view this post
VIEW IN TELEGRAM
❤110👍37🔥21😁4🤣4🌭2🍓2❤🔥1💘1
Media is too big
VIEW IN TELEGRAM
- Tesla завершает разработку Optimus Gen 3. Маск называет его «выдающимся роботом» (кто бы сомневался).
- Робот получит человеческую ловкость рук и ИИ-разум, способный ориентироваться в реальности.
- Цепочек поставок нет - всё создаётся с нуля: от электродвигателей до электроники. На одну руку приходится 26 актуаторов (исполнительных механизмов, которые преобразуют энергию в движение).
- При выпуске 1 млн штук в год цена может снизиться до $20,000, хотя один AI-чип стоит $5–6K и выше.
- Маск: *«Если Optimus будет успешен - это станет крупнейшим продуктом в истории»* (и снова маркетинг).
- Встроенный LLM без подписки.
- AI5 - собственный суперчип Tesla для ИИ. Он обещает огромный скачок вперёд:
- до 40× быстрее AI4 по отдельным метрикам,
- 8× больше вычислений,
- 10× больше памяти,
- 5× выше пропускная способность памяти.
- Команды «железа» и софта впервые разрабатывают чип совместно.
- Даже AI4 позволит достичь серьёзной автономности.
- Маск утверждает: к концу года продукты на новых чипах будут казаться «почти разумными».
📡 Starlink
- Новый диапазон частот позволит передавать интернет напрямую со спутника в смартфон.
- Понадобятся новые чипсеты - такие телефоны появятся через ~2 года.
- Интернет будет работать везде, включая здания и даже подземные пространства.
- Можно будет оформить аккаунт Starlink вместо Verizon/AT&T, хотя операторы полностью с рынка не уйдут.
- Маск не исключает, что SpaceX может купить телеком-компании ради доступа к спектру.
- С 2026 года SpaceX планирует демонстрировать полную многоразовость — с возвратом корабля и бустера.
- Starship V3 — радикально переработанный, способен выводить более 100 тонн на орбиту.
- Маск считает, что самодостаточная жизнь на Марсе возможна примерно через 25 лет.
- Уже в следующем году ИИ станет умнее любого человека.
- К 2030 году он превзойдёт интеллект всего человечества вместе взятого.
- Человеческий интеллект, по мнению Маска, будет снижаться.
💬 Самая яркая цитата прозвучала в адрес правительства США:
*«Если ИИ и роботы не решат проблему госдолга — нам крышка».*
В итоге Маск делает ставку на Optimus как на будущий «самый крупный продукт», улучшает AI-чипы, выводит Starlink в новый формат глобальной связи и готовит Starship к Марсу.
@ai_machinelearning_big_data
#ElonMusk #Interview #AI #Robotics #Optimus #Tesla #FSD #Starlink #Starship #SpaceX
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤43🔥26😁14🌭5👏2👀1
Media is too big
VIEW IN TELEGRAM
⦿ Гуманойдные формы могут оказаться ключевыми для повседневного и персонального использования — там, где среда создана под людей.
А вот специализированные роботы будут незаменимы на производстве и в лабораториях.
⦿ В ближайшие пару лет нас ждёт «вау-момент» в робототехнике.
Но фундаментальные модели пока требуют доработки: надёжности и более глубокого понимания реального мира.
⦿ DeepMind работает сразу в двух направлениях:
- как с Android для роботов — универсальный слой ОС, совместимый с любым роботом;
- и с вертикальной интеграцией - разработка конкретных роботов «под ключ».
Идея проста: скоро роботы будут не только на заводах, но и рядом с нами — а управлять ими станет так же привычно, как смартфоном.
@ai_machinelearning_big_data
#DeepMind #Google #DemisHassabis #Robotics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤔90👍34❤19👀9🎉8🤬3🔥2👏2
🦾 Google представил Gemini Robotics-ER 1.5 - новую модель для роботов, которая умеет видеть, рассуждать, планировать и действовать в реальном мире.
Что она может:
- Понимать пространство и объекты вокруг.
- Разбивать задачу на шаги (например: «убери стол» → план действий).
- Подключать внешние инструменты - поиск, модели для анализа изображений и др.
- Балансировать скорость и точность: быстро реагировать или глубже анализировать.
- Работать безопаснее: учитывать вес предметов и физические ограничения.
Мир слишком сложен для роботов: окружение, сцены, объекты постоянно меняются.
Gemini Robotics-ER помогает роботам соединять понимание и действие.
📌 Пример: робот сортирует мусор.
Он узнаёт местные правила, распознаёт предметы, планирует действия и выполняет всё безопасно.
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
@ai_machinelearning_big_data
#Google #Gemini #Robotics #AI #PhysicalAgents
Что она может:
- Понимать пространство и объекты вокруг.
- Разбивать задачу на шаги (например: «убери стол» → план действий).
- Подключать внешние инструменты - поиск, модели для анализа изображений и др.
- Балансировать скорость и точность: быстро реагировать или глубже анализировать.
- Работать безопаснее: учитывать вес предметов и физические ограничения.
Мир слишком сложен для роботов: окружение, сцены, объекты постоянно меняются.
Gemini Robotics-ER помогает роботам соединять понимание и действие.
📌 Пример: робот сортирует мусор.
Он узнаёт местные правила, распознаёт предметы, планирует действия и выполняет всё безопасно.
https://developers.googleblog.com/en/building-the-next-generation-of-physical-agents-with-gemini-robotics-er-15/
@ai_machinelearning_big_data
#Google #Gemini #Robotics #AI #PhysicalAgents
🔥67❤23👍23🤔5💘2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 Unitree G1 Kungfu Kid V6.0 — это уже не просто робот, а настоящий кунг-фу мастер.
Полтора года тренировок сделали своё дело: он стал быстрее, сильнее и умнее.
У робота 43 степени свободы, куча сенсоров и гибридная система управления, которая позволяет ему постоянно учиться и оттачивать движения.
Кажется, мы реально приближаемся к моменту, когда роботы начнут тренироваться, как люди.
Интересно, чему G1 научится следующим - паркуру или еще чему покруче?
@ai_machinelearning_big_data
#AI #Robotics #Humanoid #Unitree #FutureTech
Полтора года тренировок сделали своё дело: он стал быстрее, сильнее и умнее.
У робота 43 степени свободы, куча сенсоров и гибридная система управления, которая позволяет ему постоянно учиться и оттачивать движения.
Кажется, мы реально приближаемся к моменту, когда роботы начнут тренироваться, как люди.
Интересно, чему G1 научится следующим - паркуру или еще чему покруче?
@ai_machinelearning_big_data
#AI #Robotics #Humanoid #Unitree #FutureTech
👀75👍25🔥16❤9😁7🥰3🥱3💘3