Aparin
362 subscribers
200 photos
8 videos
36 links
Меня зовут Георгий (Егор) Апарин
Пишу про жизнь, иногда про ML

контакт: @Egorgij21
Download Telegram
местные жители
16👍74
а ещё там живут вот такие одетые козочки
245💅33
Выложили с коллегами статью по Audio SAE на arxiv. Это одна из первых работ, посвященная применению разряженных автоэнкодеров в аудио домене

Sparse Autoencoder (SAE) - это инструмент механистической интерпретации, который "распутывает" активации модели, переводя их в пространство большей размерности. SAE учится таким образом, что вектор его латентных активаций становится разреженным, в результате активации модели на каждом токене описываются небольшим множеством фичей (компонент латентного вектора SAE). Эти фичи в идеале должны быть моносемантичны и интерпретируемы, но этими свойствами зачастую обладает лишь небольшая их часть. Моносемантичность значит что фича кодирует один доминирующий концепт, а свойство интерпретируемости позволяет человеку описать этот концепт через анализ последовательностей токенов, на которых фича имеет наибольшую активацию. Таким образом можно понять на что именно обращает внимание модель

Аудио модели заметно хуже интерпретируются по сравнению с моделями в NLP и CV доменах. Одной из причин этого является то, что перед подачей в энкодер аудио разбивается на фреймы, каждый их которых кодирует маленький временной промежуток, порядка нескольких десятков миллисекунд. Из за этого акустические события, претендующие на название индивидуальных и интерпретируемых концептов, например произношение конкретной фонемы, размазываются по активациям на несколько фреймов, из чего следует низкая семантическая плотность представлений

Интерпретация сложна также тем, что она может проводиться на нескольких уровнях: акустическом (прослушивание сегментов активности), спектральном (просмотр сегментов на спектрограмме), семантическом (анализ корреляции фичи с метками классификации аудио-эвентов) и текстовом (анализ описаний, полученных из LLM)

При попытке поиска простых акустических концептов (например высоты тона, тембра, громкости) возникает проблема того что в речи они постоянно меняются и сложно найти и проанализировать сегменты, где в теории должна активироваться характерная фича

Сложные же речевые концепты (например акцент, возраст, настроение говорящего) искать легче, но они не локализованы в рамках одной SAE фичи. В наших экспериментах по их классификации было достаточно небольшого набора признаков (5-100), но для достижения unlearning'а (наблюдения ухудшения классификации после зануления ключевых компонент) нужно значительно больше фичей, что указывает на многокомпонентную структуру сложных аудиоконцепций

В наших экспериментах мы проанализировали фичи, относящиеся как к локальным, так и к глобальным концептам. Первые активируются на конкретных звуковых событиях, например смехе, кашле, произношении фонем. Вторые соответствуют более общим концептам, начиная с доменной области аудио (речь, звуки, музыка), заканчивая атрибутами речи говорящего, такими как пол, язык, эмоциональная окраска

Был поставлен эксперимент, показывающий связь некоторых фичей SAE с ЭЭГ сигналом человека, слушающего аудио. В результате было найдено некоторое количество фичей с высокой корреляцией, что подтверждает гипотезу о том что аудио модели и человеческий мозг активируются на схожих аудио атрибутах

Также нам удалось значительно снизить количество галлюцинаций модели Whisper, которая склонна распознавать речь там где её нет. Для этого мы применили метод "стиринга" активаций, который меняет скрытые представления, изменяя тем самым генерацию модели. Стиринг с помощью SAE оказался более эффективным по сравнению с стирингом на исходных активациях и снизил количество галлюцинаций в 3 раза, при незначительном увеличении метрики распознавания WER

Исходный код и чекпоинты будут выложены в открытый доступ в скором времени. Сейчас же мы выложили статью на huggingface, так что вы можете поставить ей свои классы, чтобы больше людей её увидело
26🎉96🤯42👍1
https://xn--r1a.website/olimpiad_CU/210

Завершился зимний ИИ межнар IAIO, от летнего IOAI он отличается тем что в нём есть теоретическая часть с математическими задачками (в летнем только практическая). Последние три недели мы готовили ребят, в частности я готовил к теор части. Ребята вообще большие молодцы, до подготовки я не думал что школьники могут так хорошо шарить за теорию ML. То есть аргумент о том что они оверфитнуты только под хакатоны и соревы, где надо настакать побольше бертов или катбустов не совсем правдивый, по крайней мере для тех четырёх ребят, которых мы готовили. (в посте их трое, потому что один из них к сожалению заболел прямо накануне вылета, так бы было на одну медаль больше). Впрочем, всё равно есть куда расти, золота мы к сожалению не взяли

Сам я конкретно устал за время подготовки, в очередной раз оказалось что готовить и читать лекции вообще очень сложно. Но отдохнуть у меня пока что не получится, на следующей неделе начнутся сборы с подготовкой к заклу ВсОШа по ИИ, на них я тоже поеду читать ML CV и NLP (жаль аудио там нет)
2273
Всем привет

На этой неделе были выложены две статьи с моим первым авторством:

1) стиринг ASR модели Whisper против галлюцинаций, принята на Interspeech

2) геометрический анализ стиринга с точки зрения angular и norm компонент, препринт, засабмичен на EMNLP

Вторая статья в особенности важна для меня, потому что открывает череду исследований теории стиринга, которую я хотел бы развить

Подробнее про каждую из них расскажу в постах ниже
196👍5🕊1