gonzo-обзоры ML статей
24.3K subscribers
3.23K photos
3 videos
3 files
1.55K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Интересное обновление MoE от Apple. Обновляем параметры роутера не на каждом слое, а только на каждом блоке из B слоёв. Неожиданно результат лучше и не нужен отдельный лосс балансировки.

Path-Constrained Mixture-of-Experts
Zijin Gu, Tatiana Likhomanenko, Vimal Thilak, Jason Ramapuram, Navdeep Jaitly
Статья: https://arxiv.org/abs/2603.18297
Ревью: https://arxiviq.substack.com/p/path-constrained-mixture-of-experts

# TL;DR

ЧТО сделали: Авторы представляют PathMoE — архитектуру Mixture-of-Experts (MoE), которая ограничивает комбинаторное пространство роутинга. Вместо независимого выбора эксперта на каждом слое, параметры роутера шарятся между блоками последовательных слоёв.

ПОЧЕМУ это важно: Явное ограничение последовательности экспертов, через которую проходит токен, радикально улучшает статистическую эффективность выборки и стабильно повышает качество на масштабе 16B параметров. Кроме того, это избавляет от необходимости использовать вспомогательный лосс для балансировки нагрузки при обучении и формирует очень надёжную, интерпретируемую специализацию экспертов на основе естественных лингвистических структур.

Для практиков: Для исследовательских групп, масштабирующих разреженные архитектуры, независимый роутинг на каждом слое создаёт серьёзное статистическое бутылочное горлышко из-за экспоненциально большого числа перестановок путей. Связывая веса роутеров в локализованных блоках сети, PathMoE направляет токены по согласованным вычислительным путям. Это небольшое архитектурное ограничение даёт измеримый прирост качества на широком спектре бенчмарков. Оно убирает операционные издержки на подбор гиперпараметров балансировки нагрузки и показывает, что модели естественным образом маршрутизируют данные по синтаксической функции, если задать им правильный spatial inductive bias.

Назначать экспертов здесь: https://xn--r1a.website/gonzo_ML_podcasts/2991
👍113
Свежая интересная работа про биологические вычисления. Мы уже упоминали работу "The forest as a neutrino detector" (https://xn--r1a.website/gonzo_ML/2735), текущая работа про лягушек тоже нацелена на помощь физике. Но это только начало! Ждём вытеснения GPU новыми биологическими BPU.

Mexican Burrowing Toads as gravitational wave detectors
Frederic V. Hessman, Christian Jooss
Paper: https://arxiv.org/abs/2603.29334
Review: https://arxiviq.substack.com/p/mexican-burrowing-toads-as-gravitational
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Авторы предлагают биофизический фреймворк, предполагающий, что мексиканская роющая жаба (*Rhinophrynus dorsalis*) способна детектировать космические гравитационные волны. Анализируя поразительное сходство между брачным криком жабы и формой сигнала (чирпом) слияния двойных чёрных дыр, они описывают «магнетронный рамановский лазерный механизм». В нём ферромагнитные материалы в нервной системе амфибии экспоненциально усиливают деформации пространства-времени, превращая их в детектируемые биологические сигналы.

ПОЧЕМУ это важно: Если биологические системы в ходе эволюции обрели чувствительность к ряби пространства-времени, использование массивов таких животных может стать невероятно дешёвой и масштабируемой альтернативой многомиллиардным оптическим интерферометрам. Работа расширяет границы биомимикрии, допуская, что природную магниторецепцию можно напрямую приспособить для нужд высокоточной астрофизики.

Для практиков: Создание контролируемых лабораторных установок с миллионами мексиканских роющих жаб в теории позволит собирать мощные биологические массивы. Они смогут определять точную направленность гравитационных событий через анализ коллективных фазовых сдвигов в акустических сигналах популяции.

Погрузиться в биологическую теледильдонику спинтронику тут: https://xn--r1a.website/gonzo_ML_podcasts/3005
7🤣53😁14🔥81🤩1
Forwarded from gonzo_ML_podcasts
🔥11🤯5😁3
А вот красивая работа. Иногда чтобы хорошо сжать, надо сначала хорошо разжать! Сначала дистиллируем всех специализированных учителей в одного БОЛЬШОГО прокси-учителя, он выравнивает все репрезентации и потом наконец можно это нормально дистиллировать в маленького студента. Сразу в маленького студента нельзя, он не справится. К вопросу о важности хороших учителей.

Efficient Universal Perception Encoder
Chenchen Zhu, Saksham Suri, Cijo Jose, Maxime Oquab, Marc Szafraniec, Wei Wen, Yunyang Xiong, Patrick Labatut, Piotr Bojanowski, Raghuraman Krishnamoorthi, Vikas Chandra
Статья: https://arxiv.org/abs/2603.22387v1
Ревью: https://arxiviq.substack.com/p/efficient-universal-perception-encoder

# TL;DR

ЧТО сделали: Авторы представили Efficient Universal Perception Encoder (EUPE) — трёхэтапный пайплайн дистилляции. Он создаёт компактный визуальный энкодер с сильным zero-shot качеством в задачах понимания изображений, dense prediction и vision-language. Вместо прямой дистилляции нескольких узкоспециализированных моделей в маленького студента, исследователи сначала дистиллируют экспертов в огромного "proxy-учителя" на 1.9 млрд параметров, а уже он обучает эффективную модель-студента.

ПОЧЕМУ это важно: Развёртывание мультимодальных foundation models на edge-устройствах обычно требует горячей замены специализированных энкодеров (например, один для глубины, другой для OCR). Это обходится неприемлемо дорого по памяти и вычислениям. Авторы доказали, что эффективным бэкбоунам фундаментально не хватает ёмкости параметров для самостоятельного объединения разнородных репрезентаций от разных экспертов. Работа показывает, что промежуточный шаг агрегации — это обязательный структурный мост для создания мощных многозадачных мобильных архитектур.

Для практиков: Полагаться на разрозненные foundation models в edge AI вычислительно нецелесообразно. Существующие методы прямой агрегации нескольких учителей в маленького студента проваливаются: крошечные модели не могут разрешить конфликтующие латентные геометрии. Если переложить сложную задачу объединения знаний на тяжёлую промежуточную proxy-модель, а уже затем сжать эту единую репрезентацию в лёгкий бэкбоун, итоговая модель на всех ключевых визуальных бенчмарках не уступает узкоспециализированным экспертам аналогичного размера.

Сжимать и разжимать тут: https://xn--r1a.website/gonzo_ML_podcasts/3014
🔥9👍3
Интересная работа про природу вещей — трансформеры имеют встроенный байес к выучиванию факторизованных представлений.

Transformers learn factored representations

Adam Shai, Loren Amdahl-Culleton, Casper L. Christensen, Henry R. Bigelow, Fernando E. Rosas, Alexander B. Boyd, Eric A. Alt, Kyle J. Ray, Paul M. Riechers
Статья: https://arxiv.org/abs/2602.02385v1
Код: https://github.com/Astera-org/factored-reps
Ревью: https://arxiviq.substack.com/p/transformers-learn-factored-representations

# TL;DR

ЧТО сделали: Авторы формализуют и эмпирически подтверждают гипотезу факторизованного мира (Factored World Hypothesis). Они показывают, что трансформеры естественным образом раскладывают сложные потоки данных на независимые дискретные факторы. Вместо того чтобы представлять эти факторы в огромном совместном математическом пространстве, которое экспоненциально растёт, архитектура нативно изолирует их в низкоразмерных, взаимно ортогональных подпространствах внутри residual stream.

ПОЧЕМУ это важно: Исследование даёт строгий математический фундамент для механистической интерпретируемости. Оно доказывает, что модульность и распутанные репрезентации — это не просто удачная случайность обучения, а аттракторы представлений, обусловленные сильным inductive bias. Трансформеры предпочитают размерную эффективность брутфорсному запоминанию, даже когда факторизованный подход технически работает с потерями информации. Это означает, что поиск интерпретируемых подсетей и хирургические вмешательства в подпространства фундаментально согласуются с тем, как работает сама архитектура.

Для практиков: Для ML-инженеров и исследователей интерпретируемости эта статья доказывает, что модульные представления в трансформерах математически обусловлены их архитектурой. Сеть естественным образом разбивает сложные данные на изолированные низкоразмерные пространства. Это валидирует подходы к точечному редактированию моделей и подтверждает, что мы можем изолировать и корректировать конкретные представления (beliefs) модели без катастрофического забывания или масштабного переобучения.

Выучивать модульные представления тут: https://xn--r1a.website/gonzo_ML_podcasts/3026
2