Кто в Сингапуре на #ICLR2025 , присылайте нам свои статьи Илье @wakeupheroagain, мы их почитаем и, возможно, опубликуем:)
⚡7❤3🔥3👏1
AIRI и T-Технологии представили крупнейший датасет для обучения адаптивных ИИ-агентов на #ICLR2025
Исследователи из AIRI, Т-Технологии представили в Сингапуре XLand-100B — это масштабный набор данных для обучения ИИ-агентов в контексте. Он содержит:
- 100 млрд переходов состояний
- 2,5 млрд эпизодов
- Почти 30 000 различных задач
320 ГБ данных (сжатых).
Представьте разницу между двумя подходами:
1. Традиционное обучение с подкреплением - ИИ-агент обучается решать конкретную задачу через множество проб и ошибок, но не может применить этот опыт к новым задачам без повторного обучения.
2. Обучение в контексте - ИИ-агент учится "учиться" на примерах, адаптируясь к новым задачам, просто наблюдая, как они решаются — аналогично тому, как человек может освоить новый навык, посмотрев несколько примеров.
Как рассказал нам Владислав Куренков, руководитель научной группы «Адаптивные агенты» AIRI, команда не остановилась на создании датасета XLand-100B и уже сделала проект Vintix — модель для обучения с подкреплением в контексте, которая преодолевает одно из главных ограничений XLand. «Мы уже выпустили Vintix — модель для in-context RL, обученную на датасетах из нескольких доменов, включая робототехнику и индустриальное управление», — отмечает Куренков.
В отличие от XLand-100B, который работает только с задачами в среде GridWorld, Vintix способен обрабатывать данные из различных доменов с разной структурой наблюдений и действий. Это значительный шаг к созданию по-настоящему универсальных ИИ-агентов.
GitHub.
Исследователи из AIRI, Т-Технологии представили в Сингапуре XLand-100B — это масштабный набор данных для обучения ИИ-агентов в контексте. Он содержит:
- 100 млрд переходов состояний
- 2,5 млрд эпизодов
- Почти 30 000 различных задач
320 ГБ данных (сжатых).
Представьте разницу между двумя подходами:
1. Традиционное обучение с подкреплением - ИИ-агент обучается решать конкретную задачу через множество проб и ошибок, но не может применить этот опыт к новым задачам без повторного обучения.
2. Обучение в контексте - ИИ-агент учится "учиться" на примерах, адаптируясь к новым задачам, просто наблюдая, как они решаются — аналогично тому, как человек может освоить новый навык, посмотрев несколько примеров.
Как рассказал нам Владислав Куренков, руководитель научной группы «Адаптивные агенты» AIRI, команда не остановилась на создании датасета XLand-100B и уже сделала проект Vintix — модель для обучения с подкреплением в контексте, которая преодолевает одно из главных ограничений XLand. «Мы уже выпустили Vintix — модель для in-context RL, обученную на датасетах из нескольких доменов, включая робототехнику и индустриальное управление», — отмечает Куренков.
В отличие от XLand-100B, который работает только с задачами в среде GridWorld, Vintix способен обрабатывать данные из различных доменов с разной структурой наблюдений и действий. Это значительный шаг к созданию по-настоящему универсальных ИИ-агентов.
GitHub.
10👍18🔥8❤🔥7❤1👎1