Concise Research

Aligning Model and Macaque Inferior Temporal Cortex Representations Improves Model-to-Human Behavioral Alignment and Adversarial Robustness
ICLR 2023 Oral

Разговоры о том что необходимо как-то заставить нейросетевые алгоритмы пародировать зрительную систему человека идут давно. Выше мы уже разбирали free-energy подход и работы, косвенно основывающиеся на нём. Сегодня перед нами удивительная статья об улучшении качества нейросетей путём использования прямых сигналов из мозга макак. Выглядит как новый шаг в (almost-)human-in-the-loop подходах.

Авторы взяли трёх приматов и вживили им в мозг несколько электродов. После этого им показали изображения из датасетов HVM и COCO, зафиксировали результаты мозговой активности. Далее, взяли предобученную на ImageNet CORNet-S модель и дообучили на с использованием данных об активности мозга как добавки к основной цели: кросс-энтропия для классификации изображений из HVM.

В качестве результатов, авторы показывают, что предложенный метод обучения:
1. Позволяет нейросети вести себя более похоже на человека. Это показывают с помощью метрики i2n, суть которой заключается в сопоставлении случаев когда модель и человек делают ошибки. Полностью одинаковый шаблон ошибок на специально подобранных задачах - максимальное значение метрики;
2. Увеличивает устойчивость к adversarial attacks. Для примера используют классическую white-box атаку projected gradient descent (PGD);

Также интересным выводом является то, что чем выше “похожесть” поведения сети на человека, тем выше устойчивость к adversarial attacks. Однако обратное не верно - бОльшая устойчивость к атакам не обязательно помогает мимикрировать под человека.

Неотвеченными остаются вопросы о том когда происходит насыщеные (scaling laws), можно ли добиться еще большей устойчивости (текущие результаты не очень большие) и как в целом строить процесс для выведения результатов на принципиально новый уровень.

🔥2👍1

242 viewsSergey Kastryulin, 14:58