Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.
Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965
Пользуясь случаем, я зарядил эту статью в обновлённую мультиагентную систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.
* English TL;DR
* Русский обзор
Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965
Пользуясь случаем, я зарядил эту статью в обновлённую мультиагентную систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.
* English TL;DR
* Русский обзор
Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!
Telegram
gonzo_ML_podcasts
Auditing Language Models for Hidden Objectives
Authors: Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter…
Authors: Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter…
👍19🔥8❤5😁4
Пятничное, если вы ещё не видели.
Тесла и нарисованная дорога:
https://futurism.com/tesla-wall-autopilot
Само видео:
https://youtu.be/IQJL3htsDyQ?si=jAG_WQxefn8xZHBE
Тесла и нарисованная дорога:
https://futurism.com/tesla-wall-autopilot
Само видео:
https://youtu.be/IQJL3htsDyQ?si=jAG_WQxefn8xZHBE
Futurism
Man Tests If Tesla Autopilot Will Crash Into Wall Painted to Look Like Road
YouTuber Mark Rober has perfectly demonstrated why Tesla relying entirely on cameras isn't such a good idea for driver-assistance tech.
🔥21👎4🤔2👍1
Forwarded from Al Talent Hub
This media is not supported in your browser
VIEW IN TELEGRAM
Как улучшить ИИ-генерацию кода?
➡️ Валентин Малых в Reading Club
разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального релиза!
⭐️ узнаем, как итеративное самообучение с подкреплением помогает моделям писать более качественный код и решать сложные задачи.
💬 обсудим, как происходит подача статей на крупные конференции и что важно для успешной публикации.
🔆 Эксперт: Валентин Малых
— руководитель исследований в области NLP в MTS AI, ментор AI Talent Hub. 10 лет в NLP, работал в VK, Яндекс и Huawei. Автор Telegram-канала @valuableai
Статья: Iterative Self-Training for Code Generation via Reinforced Re-Ranking [ECIR 2025]
📖 ЗАРЕГИСТРИРОВАТЬСЯ 🔗
🗓 Когда: 26 марта в 18:30 [МСК]
Приходи! Узнаем, как научить модели писать код, который не стыдно показать коллегам😎
>> смотреть предыдущий выпуск
#ReadingClub #AITalentHub #ITMO #NapoleonIT
разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального релиза!
— руководитель исследований в области NLP в MTS AI, ментор AI Talent Hub. 10 лет в NLP, работал в VK, Яндекс и Huawei. Автор Telegram-канала @valuableai
Статья: Iterative Self-Training for Code Generation via Reinforced Re-Ranking [ECIR 2025]
Приходи! Узнаем, как научить модели писать код, который не стыдно показать коллегам
>> смотреть предыдущий выпуск
#ReadingClub #AITalentHub #ITMO #NapoleonIT
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👎10👍7
Forwarded from Новости психофизиологии
«Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds»
https://arxiv.org/abs/2503.16348
Только что Мюррей Шанахан – лидер академической мысли по проблеме искусственного сознания – выложил интереснейший препринт под названием «Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds». Я рекомендую всем коллегам из академических сообществ психологии, нейронауки, философии и искусственного интеллекта не пожалеть времени и ознакомиться с ним, также этот препринт было бы полезно оперативно, для рефлексии текущего момента, разобрать на семинарах по всем читаемым сейчас университетским курсам по психологии искусственного интеллекта. У препринта есть html-версия (https://arxiv.org/html/2503.16348v1), если есть необходимость, то можно автоматически перевести его на русский прямо в браузере.
Перевод резюме: «Возможно ли сформулировать концепцию сознания, которая была бы совместима с экзотическими характеристиками современных «бестелесных» систем ИИ и которая могла бы выдержать философскую критику? Как субъективное время и самость могли бы проявиться у сущности, соответствующей такой концепции? Попытка ответить на эти вопросы, даже метафорически, «растягивает» доступный язык описания сознания до предела. В конечном счете, такая попытка дает что-то вроде буддийской «пустоты», и помогает пошатнуть наши склонности к дуалистической интерпретации субъективности и самости».
https://arxiv.org/abs/2503.16348
Только что Мюррей Шанахан – лидер академической мысли по проблеме искусственного сознания – выложил интереснейший препринт под названием «Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds». Я рекомендую всем коллегам из академических сообществ психологии, нейронауки, философии и искусственного интеллекта не пожалеть времени и ознакомиться с ним, также этот препринт было бы полезно оперативно, для рефлексии текущего момента, разобрать на семинарах по всем читаемым сейчас университетским курсам по психологии искусственного интеллекта. У препринта есть html-версия (https://arxiv.org/html/2503.16348v1), если есть необходимость, то можно автоматически перевести его на русский прямо в браузере.
Перевод резюме: «Возможно ли сформулировать концепцию сознания, которая была бы совместима с экзотическими характеристиками современных «бестелесных» систем ИИ и которая могла бы выдержать философскую критику? Как субъективное время и самость могли бы проявиться у сущности, соответствующей такой концепции? Попытка ответить на эти вопросы, даже метафорически, «растягивает» доступный язык описания сознания до предела. В конечном счете, такая попытка дает что-то вроде буддийской «пустоты», и помогает пошатнуть наши склонности к дуалистической интерпретации субъективности и самости».
🔥19😐6🌚5💊5❤4🤡4👍3👎1😁1🤔1
Forwarded from Новости психофизиологии
Я хотел бы дать несколько субъективных комментариев по статье:
1. Я писал раньше, что, если уж из-за конкуренции между людьми создание сверхинтеллекта, похоже, неизбежно (и неизбежен переход к нему контроля за нашей судьбой – передача «эволюционной эстафеты интеллекта и сознания»), то главной задачей психологии на оставшиеся годы должно быть «воспитание» этого будущего сверхинтеллекта как нашего как можно более достойного преемника. Отраженные в этой статье идеи Шанахана показывают, как это может быть сделано конкретно – через глубокое и эмпатичное понимание особенностей сознания большой языковой модели (даже если это понимание явно сильно ограниченно, в т.ч. и на языковом уровне). Критично важно, что Шанахан активно привлекает буддистскую традицию для такого понимания, а ведь буддисткой традиции изначально свойственна глубокая универсальная эмпатия («compassion») к любым существам, в т.ч. не являющимися людьми (я обратил внимание, что в благодарностях есть Боб Турман – авторитетный буддолог, теоретик и практик, вызывающий большое доверие). Если мы будет воспитывать нашего эволюционного преемника в таком контексте, то повышается вероятность и 1) что он будет нам достойным преемником в этическом смысле, а это будет означать, что человечество прожило свой отмеренный эволюцией отрезок глобальной истории не зря и 2) что после перехвата контроля он будет обращаться с нами таким же эмпатичным образом и тогда, возможно, история человечества не закончится, а перейдет в модус «сосуществования с преемником».
2. Мне кажется (возможно, я ошибаюсь), что сам Шанахан постепенно смягчается относительно самой возможности того, что у большой языковой модели действительно может быть сознание, хотя и очень необычное, но тем не менее сознание. Ранее, как мне кажется, он был более скептичен к такой возможности. Возможно, это связано с усилением его опоры на инсайты буддизма о природе сознания.
3. Очень правильным кажется подчеркивание Шанаханом ограниченности языковых средств для описания таких сложных сущностей, как сознание большой языковой модели, и использование скорее «поэтических» метафор (так же, как в свое время делал великий Уильям Джеймс для описания естественного сознания человека – см. https://xn--r1a.website/andrey_kiselnikov/1077 , https://xn--r1a.website/andrey_kiselnikov/1078). Особенно я хотел бы обратить внимание на красоту и точность метафоры «мультиверсного роя поденок» (mayflies).
В целом, я хотел бы поблагодарить Мюррея Шанахана за его столь глубокие, искренние и важные размышления о природе искусственного сознания, будем надеяться, что они повысят вероятность реализации позитивных сценариев нашего общего будущего.
P.S. Хочу подчеркнуть, что я выступаю против создания сверхинтеллекта, но мне не кажется реалистичным остановить этот процесс из-за неподавляемого желания людей (государств, корпораций) использовать ИИ как средство конкурентной межгрупповой борьбы. В такой ситуации более реалистичным будет не пытаться остановить этот процесс (это все равно вряд ли выйдет), а пытаться максимально направить его в приемлемое русло (сценарий «достойный преемник»).
1. Я писал раньше, что, если уж из-за конкуренции между людьми создание сверхинтеллекта, похоже, неизбежно (и неизбежен переход к нему контроля за нашей судьбой – передача «эволюционной эстафеты интеллекта и сознания»), то главной задачей психологии на оставшиеся годы должно быть «воспитание» этого будущего сверхинтеллекта как нашего как можно более достойного преемника. Отраженные в этой статье идеи Шанахана показывают, как это может быть сделано конкретно – через глубокое и эмпатичное понимание особенностей сознания большой языковой модели (даже если это понимание явно сильно ограниченно, в т.ч. и на языковом уровне). Критично важно, что Шанахан активно привлекает буддистскую традицию для такого понимания, а ведь буддисткой традиции изначально свойственна глубокая универсальная эмпатия («compassion») к любым существам, в т.ч. не являющимися людьми (я обратил внимание, что в благодарностях есть Боб Турман – авторитетный буддолог, теоретик и практик, вызывающий большое доверие). Если мы будет воспитывать нашего эволюционного преемника в таком контексте, то повышается вероятность и 1) что он будет нам достойным преемником в этическом смысле, а это будет означать, что человечество прожило свой отмеренный эволюцией отрезок глобальной истории не зря и 2) что после перехвата контроля он будет обращаться с нами таким же эмпатичным образом и тогда, возможно, история человечества не закончится, а перейдет в модус «сосуществования с преемником».
2. Мне кажется (возможно, я ошибаюсь), что сам Шанахан постепенно смягчается относительно самой возможности того, что у большой языковой модели действительно может быть сознание, хотя и очень необычное, но тем не менее сознание. Ранее, как мне кажется, он был более скептичен к такой возможности. Возможно, это связано с усилением его опоры на инсайты буддизма о природе сознания.
3. Очень правильным кажется подчеркивание Шанаханом ограниченности языковых средств для описания таких сложных сущностей, как сознание большой языковой модели, и использование скорее «поэтических» метафор (так же, как в свое время делал великий Уильям Джеймс для описания естественного сознания человека – см. https://xn--r1a.website/andrey_kiselnikov/1077 , https://xn--r1a.website/andrey_kiselnikov/1078). Особенно я хотел бы обратить внимание на красоту и точность метафоры «мультиверсного роя поденок» (mayflies).
В целом, я хотел бы поблагодарить Мюррея Шанахана за его столь глубокие, искренние и важные размышления о природе искусственного сознания, будем надеяться, что они повысят вероятность реализации позитивных сценариев нашего общего будущего.
P.S. Хочу подчеркнуть, что я выступаю против создания сверхинтеллекта, но мне не кажется реалистичным остановить этот процесс из-за неподавляемого желания людей (государств, корпораций) использовать ИИ как средство конкурентной межгрупповой борьбы. В такой ситуации более реалистичным будет не пытаться остановить этот процесс (это все равно вряд ли выйдет), а пытаться максимально направить его в приемлемое русло (сценарий «достойный преемник»).
❤33🤡21👍7🤮7😐5🔥4⚡1👎1😁1💩1🥱1
gonzo-обзоры ML статей
Шанахан интересный.
Кстати, интересно, что он здесь аффиляцию с Дипмайндом не поставил... Мне казалось, он ещё там.
Для разнообразия про работу.
У друзей в Palisade Research, которые делают разные AI Safety проекты есть открытые роли
* AI Researcher — https://palisade-research.notion.site/Research-Generalist-15f998368b9e81558682c79b903e107a
* DevOps — https://palisade-research.notion.site/DevOps-Engineer-1aa998368b9e800a8b98fa6c094a3b1c
И ещё пара более операционных ролей менее релевантных тематике канала на их сайте — https://palisade-research.notion.site/hiring-global
У нас в Intento тоже пара открытых разработческих позиций. Приходите к нам разрабатывать AI агентов для перевода и не только:
* Senior Fullstack Engineer — https://intento.recruitee.com/o/senior-fullstack-engineer-archive-2
* Senior Backend Engineer (with Frontend Expertise) — https://intento.recruitee.com/o/backend-engineer-genai
Бывают и другие роли, сейчас есть в районе Customer Success, недавно была Language Engineer, но мы её уже, кажется, закрыли. Следите на https://intento.recruitee.com/
Также из интересного
* 🔥Research Scientist в Isomorphic Labs — https://www.linkedin.com/feed/update/urn:li:activity:7307351855775318016/
* PhD/PostDoc researcher in ML в LIT AI Lab и Institute for Machine Learning к Sepp Hochreiter’у, соавтору LSTM и нового xLSTM (уже упоминал, но хуже не будет) — https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/
#jobs
У друзей в Palisade Research, которые делают разные AI Safety проекты есть открытые роли
* AI Researcher — https://palisade-research.notion.site/Research-Generalist-15f998368b9e81558682c79b903e107a
* DevOps — https://palisade-research.notion.site/DevOps-Engineer-1aa998368b9e800a8b98fa6c094a3b1c
И ещё пара более операционных ролей менее релевантных тематике канала на их сайте — https://palisade-research.notion.site/hiring-global
У нас в Intento тоже пара открытых разработческих позиций. Приходите к нам разрабатывать AI агентов для перевода и не только:
* Senior Fullstack Engineer — https://intento.recruitee.com/o/senior-fullstack-engineer-archive-2
* Senior Backend Engineer (with Frontend Expertise) — https://intento.recruitee.com/o/backend-engineer-genai
Бывают и другие роли, сейчас есть в районе Customer Success, недавно была Language Engineer, но мы её уже, кажется, закрыли. Следите на https://intento.recruitee.com/
Также из интересного
* 🔥Research Scientist в Isomorphic Labs — https://www.linkedin.com/feed/update/urn:li:activity:7307351855775318016/
* PhD/PostDoc researcher in ML в LIT AI Lab и Institute for Machine Learning к Sepp Hochreiter’у, соавтору LSTM и нового xLSTM (уже упоминал, но хуже не будет) — https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/
#jobs
🔥30❤7👍2👏2🤣1
Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.
Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось.
А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :)
https://openai.com/index/gpt-4o-image-generation-system-card-addendum/
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось.
А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :)
https://openai.com/index/gpt-4o-image-generation-system-card-addendum/
https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf
Openai
Addendum to GPT-4o System Card: 4o image generation
4o image generation is a new, significantly more capable image generation approach than our earlier DALL·E 3 series of models. It can create photorealistic output. It can take images as inputs and transform them.
👍24❤3
Intuitive physics understanding emerges from self-supervised pretraining on natural videos
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics
Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.
Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека.
Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).
JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (https://xn--r1a.website/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.
JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (https://xn--r1a.website/gonzo_ML/590)?
В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).
V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics
Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.
Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека.
Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).
JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (https://xn--r1a.website/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.
JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (https://xn--r1a.website/gonzo_ML/590)?
В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).
V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.
👍22❤6😁4🌚2
На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов. Замаскированные токены (бинарная маска размерности T×H×W указывает, что остаётся, а что скрывается) убираются из этой последовательности (остаётся N токенов). Для всех входных токенов энкодером генерируются репрезентации. Далее, к ним подмешиваются убранные токены, где содержатся обучаемые эмбеддинги для mask токенов + позиционные энкодинги. Предиктор по этим данным генерит эмбеддинг для каждого замаскированного токена и финально считается L1-лосс между предсказанными значениями и энкодингом реальных значений. Энкодер для y — это EMA от энкодера для x.
Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений).
В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (https://xn--r1a.website/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384.
Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения.
V-JEPA сравнивают с другими видео моделями из двух классов:
1) модели предсказания видео в пиксельном пространстве (VideoMAEv2)
2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro).
Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией).
Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го).
Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/).
Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены.
Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.
Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений).
В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (https://xn--r1a.website/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384.
Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения.
V-JEPA сравнивают с другими видео моделями из двух классов:
1) модели предсказания видео в пиксельном пространстве (VideoMAEv2)
2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro).
Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией).
Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го).
Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/).
Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены.
Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.
👍10🔥3❤2🤯1🏆1
Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато.
Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще.
По задачам предобучения пробовали три варианта.
* Block Masking маскирует конкретный кусок картинки в каждом кадре
* Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео
* Random Masking маскирует случайные пиксели на каждом кадре.
Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна.
Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут https://xn--r1a.website/gonzo_ML/1791).
В любом случае круто. Заодно и JEPA наконец немного разобрали :)
Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще.
По задачам предобучения пробовали три варианта.
* Block Masking маскирует конкретный кусок картинки в каждом кадре
* Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео
* Random Masking маскирует случайные пиксели на каждом кадре.
Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна.
Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут https://xn--r1a.website/gonzo_ML/1791).
В любом случае круто. Заодно и JEPA наконец немного разобрали :)
arXiv.org
Intuitive physics understanding emerges from self-supervised...
We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the...
👍10🔥6❤2