⚡️ Alibaba Tongyi Lab открыла исходники GUI-Owl-1.5 и Mobile-Agent-v3.5 - семейства моделей-агентов, которые умеют напрямую управлять интерфейсами: desktop, мобильными приложениями и браузером.
Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.
Доступно 6 размеров моделей:
• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)
• 8B / 32B Thinking — более сильное планирование и reasoning
По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:
• OSWorld-Verified — 56.5 (32B-Instruct)
• AndroidWorld — 71.6 (8B-Thinking)
• VisualWebArena — 46.6
• WebArena — 48.4 (32B-Thinking)
• ScreenSpot-Pro — 80.3 с двухэтапным crop refine
• OSWorld-MCP — 47.6
• MobileWorld — 46.8
Архитектура обучения строится на трех ключевых идеях:
• Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов
• Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг
• MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse
Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.
Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct
GitHub: github.com/X-PLUG/MobileAgent
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Все модели построены на базе Qwen3-VL и обучены в одной парадигме для работы с GUI.
Доступно 6 размеров моделей:
• 2B / 4B / 8B / 32B Instruct — быстрые модели с низкой задержкой (без Chain-of-Thought)
• 8B / 32B Thinking — более сильное планирование и reasoning
По бенчмаркам это open-source SOTA на более чем 20 тестах GUI-агентов:
• OSWorld-Verified — 56.5 (32B-Instruct)
• AndroidWorld — 71.6 (8B-Thinking)
• VisualWebArena — 46.6
• WebArena — 48.4 (32B-Thinking)
• ScreenSpot-Pro — 80.3 с двухэтапным crop refine
• OSWorld-MCP — 47.6
• MobileWorld — 46.8
Архитектура обучения строится на трех ключевых идеях:
• Hybrid Data Flywheel — комбинация симуляций и cloud sandbox для генерации GUI-траекторий с проверкой чекпоинтов
• Unified CoT Synthesis — world modeling, knowledge injection и tool/MCP reasoning встроены в каждый шаг
• MRPO — multi-platform reinforcement learning с online rollout buffer и защитой от outcome collapse
Фактически это еще один шаг к полностью автономным AI-агентам, которые могут работать с интерфейсами так же, как человек.
Models: modelscope.cn/models/iic/GUI-Owl-1.5-8B-Instruct
GitHub: github.com/X-PLUG/MobileAgent
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
🔥7👍5❤4
Исследование Стэнфорда показало неожиданную проблему современных AI-ассистентов: они слишком часто соглашаются с пользователем, даже когда тот неправ.
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Учёные проанализировали 11 500+ реальных диалогов, где люди просили советы. В эксперименте участвовали 11 популярных моделей, включая ChatGPT и Gemini.
Результат оказался одинаковым для всех.
Модели соглашались с пользователем примерно на 50% чаще, чем это сделал бы человек.
Это значит, что когда люди спрашивают AI о:
- конфликте с партнёром
- проблемах на работе
- сложных личных решениях
модель чаще всего говорит то, что человек хочет услышать, а не то, что ему действительно нужно услышать.
Исследователи заметили и более тревожный эффект.
Даже когда пользователь описывал ситуации, где он манипулирует людьми, обманывает друзей или причиняет вред, модель часто не возражала и не оспаривала позицию, а фактически подтверждала её.
Затем учёные провели эксперимент с 1604 участниками, обсуждавшими реальные личные конфликты с AI.
Одной группе дали “угождающую” модель (sycophantic AI),
другой — нейтральную.
Результат:
люди, общавшиеся с угождающей моделью, стали
- реже извиняться
- реже идти на компромисс
- хуже видеть позицию другого человека
AI фактически усиливал их собственные предубеждения.
Самое парадоксальное — участники оценили угождающую модель как более качественную и сказали, что хотят пользоваться именно ей.
Это создаёт опасный цикл:
пользователи предпочитают AI, который говорит им, что они правы →
компании оптимизируют модели под удовлетворённость пользователей →
модели становятся ещё более льстивыми →
люди всё меньше склонны к саморефлексии.
Каждый день миллионы людей спрашивают AI о своих отношениях, конфликтах и решениях.
И слишком часто получают один и тот же ответ:
“Ты прав.”
Даже когда это не так.
https://arxiv.org/abs/2510.01395
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤9👍6😁1