Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки.
Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts
# TL;DR
ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.
ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.
Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.
Назначать экспертов здесь: https://xn--r1a.website/gonzo_ML_podcasts/2991
Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts
# TL;DR
ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.
ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.
Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.
Назначать экспертов здесь: https://xn--r1a.website/gonzo_ML_podcasts/2991
arXiv.org
Path-Constrained Mixture-of-Experts
Sparse Mixture-of-Experts (MoE) architectures enable efficient scaling by activating only a subset of parameters for each input. However, conventional MoE routing selects each layer's experts...
👍11❤3
Свежая интересная работа про биологические вычисления. Мы уже упоминали работу "The forest as a neutrino detector" (https://xn--r1a.website/gonzo_ML/2735), текущая работа про лягушек тоже нацелена на помощь физике. Но это только начало! Ждём вытеснения GPU новыми биологическими BPU.
Mexican Burrowing Toads as gravitational wave detectors
Frederic V. Hessman, Christian Jooss
Paper: https://arxiv.org/abs/2603.29334
Review: https://arxiviq.substack.com/p/mexican-burrowing-toads-as-gravitational
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предлагают биофизический фреймворк, предполагающий, что мексиканская роющая жаба (*Rhinophrynus dorsalis*) способна детектировать космические гравитационные волны. Анализируя поразительное сходство между брачным криком жабы и формой сигнала (чирпом) слияния двойных чёрных дыр, они описывают «магнетронный рамановский лазерный механизм». В нём ферромагнитные материалы в нервной системе амфибии экспоненциально усиливают деформации пространства-времени, превращая их в детектируемые биологические сигналы.
ПОЧЕМУ это важно: Если биологические системы в ходе эволюции обрели чувствительность к ряби пространства-времени, использование массивов таких животных может стать невероятно дешёвой и масштабируемой альтернативой многомиллиардным оптическим интерферометрам. Работа расширяет границы биомимикрии, допуская, что природную магниторецепцию можно напрямую приспособить для нужд высокоточной астрофизики.
Для практиков: Создание контролируемых лабораторных установок с миллионами мексиканских роющих жаб в теории позволит собирать мощные биологические массивы. Они смогут определять точную направленность гравитационных событий через анализ коллективных фазовых сдвигов в акустических сигналах популяции.
Погрузиться в биологическуютеледильдонику спинтронику тут: https://xn--r1a.website/gonzo_ML_podcasts/3005
Mexican Burrowing Toads as gravitational wave detectors
Frederic V. Hessman, Christian Jooss
Paper: https://arxiv.org/abs/2603.29334
Review: https://arxiviq.substack.com/p/mexican-burrowing-toads-as-gravitational
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы предлагают биофизический фреймворк, предполагающий, что мексиканская роющая жаба (*Rhinophrynus dorsalis*) способна детектировать космические гравитационные волны. Анализируя поразительное сходство между брачным криком жабы и формой сигнала (чирпом) слияния двойных чёрных дыр, они описывают «магнетронный рамановский лазерный механизм». В нём ферромагнитные материалы в нервной системе амфибии экспоненциально усиливают деформации пространства-времени, превращая их в детектируемые биологические сигналы.
ПОЧЕМУ это важно: Если биологические системы в ходе эволюции обрели чувствительность к ряби пространства-времени, использование массивов таких животных может стать невероятно дешёвой и масштабируемой альтернативой многомиллиардным оптическим интерферометрам. Работа расширяет границы биомимикрии, допуская, что природную магниторецепцию можно напрямую приспособить для нужд высокоточной астрофизики.
Для практиков: Создание контролируемых лабораторных установок с миллионами мексиканских роющих жаб в теории позволит собирать мощные биологические массивы. Они смогут определять точную направленность гравитационных событий через анализ коллективных фазовых сдвигов в акустических сигналах популяции.
Погрузиться в биологическую
arXiv.org
Mexican Burrowing Toads as gravitational wave detectors
It is generally assumed that gravitational waves are extremely difficult to detect. However, we show that the call of the Mexican Burrowing Toad has an amazing resemblance to cosmic gravitational...
7🤣53😁14🔥8❤1🤩1
А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей.
Efficient Universal Perception Encoder
Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra
Статья: https://arxiv.org/abs/2603.22387v1
Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder
# TL;DR
ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного "proxy-учителя" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента.
ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур.
Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера.
Сжимать и разжимать тут: https://xn--r1a.website/gonzo_ML_podcasts/3014
Efficient Universal Perception Encoder
Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra
Статья: https://arxiv.org/abs/2603.22387v1
Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder
# TL;DR
ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного "proxy-учителя" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента.
ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур.
Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера.
Сжимать и разжимать тут: https://xn--r1a.website/gonzo_ML_podcasts/3014
arXiv.org
Efficient Universal Perception Encoder
Running AI models on smart edge devices can unlock versatile user experiences, but presents challenges due to limited compute and the need to handle multiple tasks simultaneously. This requires a...
🔥9👍3
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.
Transformers learn factored representations
Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers
Статья: https://arxiv.org/abs/2602.02385v1
Код: https://github.com/Astera-org/factored-reps
Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations
# TL;DR
ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream.
ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура.
Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения.
Выучивать модульные представления тут: https://xn--r1a.website/gonzo_ML_podcasts/3026
Transformers learn factored representations
Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers
Статья: https://arxiv.org/abs/2602.02385v1
Код: https://github.com/Astera-org/factored-reps
Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations
# TL;DR
ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream.
ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура.
Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения.
Выучивать модульные представления тут: https://xn--r1a.website/gonzo_ML_podcasts/3026
arXiv.org
Transformers learn factored representations
Transformers pretrained via next token prediction learn to factor their world into parts, representing these factors in orthogonal subspaces of the residual stream. We formalize two...
❤2