308K subscribers
4.88K photos
1.08K videos
17 files
5.28K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 Theory of Space: умеют ли ИИ-агенты строить карты пространства?

Команда из Stanford, University of Washington и Cornell опубликовала для ICLR 2026 бенчмарк Theory of Space. В исследовании принимали участие звезды индустрии: Ли Фэй-Фэй, Едзин Чой и Ранджей Кришна.

Работа проверяет, способны ли языковые модели самостоятельно исследовать незнакомое пространство и строить его связную карту так же, как это делают люди.

Концепция выстроена по аналогии с Theory of Mind из когнитивной науки.

Если Theory of Mind измеряет, насколько наблюдаемый понимает скрытые психические состояния других, то Theory of Space проверяет способность ИИ-агента моделировать скрытую физическую структуру среды.

Определению подлежали 3 навыка:

🟠построить карту из частичных наблюдений;
🟠обновить ее при изменении обстановки;
🟠использовать для решения пространственных задач определения направлений, локализации объектов и смены перспективы.

Принципиальное требование: все это должно происходить в активном режиме.

Агент стартует в незнакомом пространстве с несколькими комнатами, сам решает, куда двигаться и куда смотреть, и на каждом шаге выгружает JSON с координатами объектов. Оценивается не только финальный ответ, но и качество построенной пространственной модели.

Всего было сгенерировано 2700 вопросов на каждую конфигурацию среды (по 9 задач в 100 сценах) для 6 топовых моделей: GPT-5.2, Gemini 3 Pro, Claude Sonnet 4.5, GLM-4.6V, Qwen3-VL-235B и InternVL 3.5-241B.

Для ориентира: люди набрали 96,4% в визуальной среде и добрались до нужного охвата примерно за 10 шагов.


Результаты

🟡 Активное исследование стало слабым звеном.

Когда модель должна сама решать, что исследовать, точность резко падает. Например, GPT-5.2 в визуальной среде теряет 11% (с 57 до 46).

Для сравнения авторы написали скрипт-агентов - детерминированные программы с жестко заданной стратегией обхода: зайти в комнату, сделать полный оборот на 360°, зафиксировать все объекты, перейти в следующую комнату. Никакого интеллекта, только алгоритм.

Такой агент достигает нужного покрытия за 9 шагов; модели тратят 14 и больше и при этом строят менее точную карту.


Авторы зафиксировали показательный факт: когда языковым моделям давали готовую правильную карту, точность на задачах вырастала почти до 95% , то есть с форматом представления все в порядке, проблема именно в процессе построения.

🟡 Модели ведут себя по-разному.

GPT-5.2 бросается к каждой новой двери, не дообследовав текущую комнату. Gemini 3 Pro придерживается методичной стратегии "повернуться и осмотреться", напоминающей поведение скрипт-агента. У Claude Sonnet 4.5 четкого паттерна исследования не прослеживается вовсе.

🟡Ревизия убеждений - отдельная проблема.

В эксперименте объекты тайно перемещали после первичного исследования. GPT-5.2 правильно определял новую ориентацию объекта в визуальной среде лишь в 14,3% случаев против 97,9% в текстовой.

Более тревожный показатель - "инерция убеждений": модель видит объект на новом месте, но продолжает держаться за старые координаты из первичного исследования, как будто новая информация не пробивается сквозь уже сформированную картину мира. У GPT-5.2 это происходило в 68,9% случаев.

🟡Разрыв между текстом и картинкой огромен.

Ориентация объектов в визуальной среде определяется правильно в 20-32% случаев против 91-92% в текстовой. Значительная часть провалов - не провал пространственного мышления как такового, а проблема восприятия изображений на входе.

Вывод исследования

Модели умеют рассуждать о пространстве, когда им дают готовую картину. Но самостоятельно добывать нужную информацию, эффективно перемещаться и при этом удерживать целостную карту в памяти - пока нет. Это разные задачи, и тут ИИ проигрывает даже примитивному алгоритму.



🟡Страница проекта
🟡Статья
🟡Датасет
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #TheoryOfSpace #ICML2026
Please open Telegram to view this post
VIEW IN TELEGRAM
53🔥24👍16🤩8😐2🤔1