🎧 Рок-н-ролл прямо из мозга!
Ученые из Франции восстановили мелодию песни Another Brick In The Wall группы Pink Floyd из активности слуховой коры мозга 29 добровольцев!
Исследователи записали электрическую активность мозга при прослушивании музыки с помощью имплантированных электродов. Затем они использовали нейросети, чтобы восстановить спектрограмму песни из полученных нейроданных.
Результат был удивительным - узнаваемая мелодия и даже некоторые слова! ✨ Это открывает путь к новым нейроинтерфейсам, которые смогут восстанавливать речь и музыку.
В исследовании также pассмотрели факторы, влияющие на точность восстановления:
🔹 Количество электродов (чем больше, тем лучше)
🔹 Длительность записи (достаточно 30-60 секунд)
🔹 Тип модели (нелинейные модели работают лучше)
Восстановление звуков напрямую из мозга - захватывающее направление в нейротехнологиях, которое открывает удивительные возможности для творчества!
Теперь любые музыкальные идеи, которые возникают в голове, можно будет записать - достаточно подключить электроды и "вытащить" мелодию.
Представьте, сколько новых шедевров появится, если каждый сможет легко записывать свои музыкальные фантазии! 💡🎵
🎵 Послушать
🤓 Источник
Подпишись на @nn_for_science
Ученые из Франции восстановили мелодию песни Another Brick In The Wall группы Pink Floyd из активности слуховой коры мозга 29 добровольцев!
Исследователи записали электрическую активность мозга при прослушивании музыки с помощью имплантированных электродов. Затем они использовали нейросети, чтобы восстановить спектрограмму песни из полученных нейроданных.
Результат был удивительным - узнаваемая мелодия и даже некоторые слова! ✨ Это открывает путь к новым нейроинтерфейсам, которые смогут восстанавливать речь и музыку.
В исследовании также pассмотрели факторы, влияющие на точность восстановления:
🔹 Количество электродов (чем больше, тем лучше)
🔹 Длительность записи (достаточно 30-60 секунд)
🔹 Тип модели (нелинейные модели работают лучше)
Восстановление звуков напрямую из мозга - захватывающее направление в нейротехнологиях, которое открывает удивительные возможности для творчества!
Теперь любые музыкальные идеи, которые возникают в голове, можно будет записать - достаточно подключить электроды и "вытащить" мелодию.
Представьте, сколько новых шедевров появится, если каждый сможет легко записывать свои музыкальные фантазии! 💡🎵
Подпишись на @nn_for_science
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Neuroscientists recreate Pink Floyd song from recorded brain waves
Neuroscientists were able to recreate 'Another Brick in the Wall, Part 1' using AI to decipher the brain’s electrical activity. The reconstructed Pink Floyd song represents a breakthrough that could restore the musicality of natural speech to patients with…
🔥7🤩2❤1😢1
This media is not supported in your browser
VIEW IN TELEGRAM
SeamlessM4T: первая универсальная мультимодальная языковая модель
Существующие системы машинного перевода имеют два недостатка: ограниченный языковой охват, а также зависимость от нескольких моделей, что часто приводит к ошибкам перевода, задержкам и сложностям в практическом применении.
SeamlessM4T от Meta это первая универсальная мультимодальная языковая модель. Что это значит:
- Это супер полиглот в одной коробке, поддерживающий около 100 языков ввода (речь + текст), 100 языков вывода текста и 36 языков вывода речи.
- SeamlessM4T может сама распознавать исходный язык(и)
- Поскольку модель одна, увеличивается скорость работы (нет каскадных взаимодействий с другими моделями)
- Metaхвастается сообщает, что SeamlessM4T опережает существующие решения по точности и аккуратности перевода
И как вишенка на торте: модель выпущена публично под лицензией CC BY-NC 4.0.
💻 Демо
📚 Статья
🐙 GitHub
💭 Блог-пост
@innovationitsme
Подпишись на @nn_for_science
Существующие системы машинного перевода имеют два недостатка: ограниченный языковой охват, а также зависимость от нескольких моделей, что часто приводит к ошибкам перевода, задержкам и сложностям в практическом применении.
SeamlessM4T от Meta это первая универсальная мультимодальная языковая модель. Что это значит:
- Это супер полиглот в одной коробке, поддерживающий около 100 языков ввода (речь + текст), 100 языков вывода текста и 36 языков вывода речи.
- SeamlessM4T может сама распознавать исходный язык(и)
- Поскольку модель одна, увеличивается скорость работы (нет каскадных взаимодействий с другими моделями)
- Meta
И как вишенка на торте: модель выпущена публично под лицензией CC BY-NC 4.0.
💻 Демо
📚 Статья
💭 Блог-пост
@innovationitsme
Подпишись на @nn_for_science
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥24👍8❤4😢1
🔧 Как файнтюнить (образно) языковые модели на что угодно?
Сегодня у нас интересная статья о том, как сделать из большой языковой модели - модель специализирующуюся на конкретной предметной области.
Автор, Иван Ямщиков, использует в качестве примера создание модели, разбирающейся в стратегии Civilization 6.
В статье дается пошаговая инструкция:
1. Найти подходящие тексты и документы по теме.
2. Разбить их на небольшие части.
3. Закодировать тексты в векторные представления.
4. Сохранить векторы и тексты в базу данных.
5. При составлении запроса к ИИ искать в базе данных релевантные тексты и включать их в запрос.
6. Выбрать подходящую модель ИИ.
7. Протестировать модель на заранее подготовленных вопросах.
8. Оценить качество ответов модели, сравнив их с ответами людей или более сильной модели ИИ.
9. Проанализировать результаты тестирования.
10. Выбрать лучшую модель.
Такая методика позволяет создать ИИ, хорошо разбирающийся в какой-то конкретной предметной области. Полезная информация для тех, кто хочет обучить ИИ работе с конкретными данными!
🗒️ Заметка
Подпишись на @nn_for_science
Сегодня у нас интересная статья о том, как сделать из большой языковой модели - модель специализирующуюся на конкретной предметной области.
Автор, Иван Ямщиков, использует в качестве примера создание модели, разбирающейся в стратегии Civilization 6.
В статье дается пошаговая инструкция:
1. Найти подходящие тексты и документы по теме.
2. Разбить их на небольшие части.
3. Закодировать тексты в векторные представления.
4. Сохранить векторы и тексты в базу данных.
5. При составлении запроса к ИИ искать в базе данных релевантные тексты и включать их в запрос.
6. Выбрать подходящую модель ИИ.
7. Протестировать модель на заранее подготовленных вопросах.
8. Оценить качество ответов модели, сравнив их с ответами людей или более сильной модели ИИ.
9. Проанализировать результаты тестирования.
10. Выбрать лучшую модель.
Такая методика позволяет создать ИИ, хорошо разбирающийся в какой-то конкретной предметной области. Полезная информация для тех, кто хочет обучить ИИ работе с конкретными данными!
🗒️ Заметка
Подпишись на @nn_for_science
👍38🔥22❤2
Tesla готовится к первому суду по ДТП с применением автопилота и летальным исходом
🚔Запланированное на середину сентября заседание в суде штата Калифорния включает в себя исковое заявление, в котором утверждается, что система автопилота заставила автомобиль Model 3 владельца Мики Ли внезапно съехать с шоссе со скоростью 65 миль в час и столкнуться с пальмой.
🚓Второе судебное разбирательство, назначенное на начало октября в суде штата Флорида, будет об аварии, произошедшей в 2019 году, когда автомобиль Model 3 владельца Стивена Баннера столкнулся с прицепом 18-колесного грузовика.
🙅♂️Tesla отрицает свою ответственность за оба происшествия, возлагая вину на ошибку водителей, и подчеркивает, что автопилот это вспомогательная система, и водители должны контролировать автомобиль.
👀 Учитывая прецедентное право в США результаты данных процессов могут иметь далеко идущие последствия
🚘 Статья
Подпишись на @nn_for_science
🚔Запланированное на середину сентября заседание в суде штата Калифорния включает в себя исковое заявление, в котором утверждается, что система автопилота заставила автомобиль Model 3 владельца Мики Ли внезапно съехать с шоссе со скоростью 65 миль в час и столкнуться с пальмой.
🚓Второе судебное разбирательство, назначенное на начало октября в суде штата Флорида, будет об аварии, произошедшей в 2019 году, когда автомобиль Model 3 владельца Стивена Баннера столкнулся с прицепом 18-колесного грузовика.
🙅♂️Tesla отрицает свою ответственность за оба происшествия, возлагая вину на ошибку водителей, и подчеркивает, что автопилот это вспомогательная система, и водители должны контролировать автомобиль.
👀 Учитывая прецедентное право в США результаты данных процессов могут иметь далеко идущие последствия
🚘 Статья
Подпишись на @nn_for_science
👍30🔥8😱3😢3❤1
Explainable AI для self-supervised learning
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
👍50🔥8❤2
RELAX: Representation Learning Explainability
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
🔥11👍7❤5🤩1
Forwarded from DLStories
Мы открываем набор на осенний семестр школы глубокого обучения Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
👍18❤5😢5🔥4
Burning Man 2023
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust
🔥54❤10👍8😁3😢1🎉1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
☁️Погода наконец-то перестанет нас дурить!
Компания Google анонсировала обновлённую версию открытого бенчмарка WeatherBench для тестирования и сравнения разных моделей прогноза погоды.
WeatherBench 2 позволит ученым объективно оценивать точность прогнозов, созданных с помощью машинного обучения. Это важно, чтобы понимать насколько новые нейросетевые модели превосходят традиционные физические модели погоды.
В бенчмарке уже есть результаты нескольких передовых ML-моделей, например, MetNet от Google и GraphCast от DeepMind. По многим показателям они сопоставимы с лучшими физическими моделями.
Главное преимущество ML-моделей - скорость. Они генерируют прогноз за минуты, а не часы. Это важно для своевременного предупреждения об опасных явлениях (вот на берне бы нам такая штука не помешала на прошлой неделе).
В будущем WeatherBench 2 будет расширен для тестирования вероятностных ML-моделей погоды. Цель - ускорить создание точных и надёжных прогнозов с помощью ИИ.
👌 Блог-пост
Компания Google анонсировала обновлённую версию открытого бенчмарка WeatherBench для тестирования и сравнения разных моделей прогноза погоды.
WeatherBench 2 позволит ученым объективно оценивать точность прогнозов, созданных с помощью машинного обучения. Это важно, чтобы понимать насколько новые нейросетевые модели превосходят традиционные физические модели погоды.
В бенчмарке уже есть результаты нескольких передовых ML-моделей, например, MetNet от Google и GraphCast от DeepMind. По многим показателям они сопоставимы с лучшими физическими моделями.
Главное преимущество ML-моделей - скорость. Они генерируют прогноз за минуты, а не часы. Это важно для своевременного предупреждения об опасных явлениях (вот на берне бы нам такая штука не помешала на прошлой неделе).
В будущем WeatherBench 2 будет расширен для тестирования вероятностных ML-моделей погоды. Цель - ускорить создание точных и надёжных прогнозов с помощью ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥11❤6😢3
Forwarded from Агенты ИИ | AGI_and_RL
Довольно интересная обзорная статья по RL основанному на физике:
A Survey on Physics Informed Reinforcement Learning: Review and Open Problems
https://arxiv.org/abs/2309.01909
A Survey on Physics Informed Reinforcement Learning: Review and Open Problems
https://arxiv.org/abs/2309.01909
❤6🤩3👍2🔥2
Как найти аномалии в данных используя автокодировщики?
Коротко:
1. Обучаем автокодировщик на нормальных данных
2. Задаем порог
3. Добавляем новые изображения
4. Подсчитываем ошибку
5. Помечаем изображения с ошибкой выше порога
Кодировщик (Encoder input на картинке) сжимает входные данные в некое внутреннее представление (code).
Это внутреннее представление (code) содержит выходные данные от кодировщика и служит входом для декодировщика (decoder). По сути, это хранилище данных.
Декодировщик отображает закодированные данные обратно в исходное пространство данных (decoder output). Цель декодировщика - максимально точно восстановить исходные данные.
Теперь представим ситуацию:
У нас есть набор изображений с котиками, и мы хотим использовать эти данные, чтобы обнаруживать любые "аномальные" изображения, которые могут содержать не котиков.
Мы обучаем автокодировщик на этих изображениях. Кодировщик сожмет изображение в представление меньшей размерности, а декодировщик восстановит исходное изображение.
Цель - минимизировать разницу между входным и выходным изображением.
Пора протестировать:
Наш тестовый набор содержит в основном котиков, но также есть собачки.
Когда мы подаем на вход изображение с котиком, модель успешно восстанавливает его с небольшой ошибкой. Это ожидаемо, ведь котик - не аномалия.
Но когда на вход подается картинка с собачкой, ошибка получается высокой, так как автокодировщик обучался только на изображениях котиков и не умеет точно восстанавливать собак.
Мы можем задать порог того, насколько высокой может быть ошибка. Если она превышает лимит - помечаем входные данные как аномалию.
🖥 Ссылка
Коротко:
1. Обучаем автокодировщик на нормальных данных
2. Задаем порог
3. Добавляем новые изображения
4. Подсчитываем ошибку
5. Помечаем изображения с ошибкой выше порога
Кодировщик (Encoder input на картинке) сжимает входные данные в некое внутреннее представление (code).
Это внутреннее представление (code) содержит выходные данные от кодировщика и служит входом для декодировщика (decoder). По сути, это хранилище данных.
Декодировщик отображает закодированные данные обратно в исходное пространство данных (decoder output). Цель декодировщика - максимально точно восстановить исходные данные.
Теперь представим ситуацию:
У нас есть набор изображений с котиками, и мы хотим использовать эти данные, чтобы обнаруживать любые "аномальные" изображения, которые могут содержать не котиков.
Мы обучаем автокодировщик на этих изображениях. Кодировщик сожмет изображение в представление меньшей размерности, а декодировщик восстановит исходное изображение.
Цель - минимизировать разницу между входным и выходным изображением.
Пора протестировать:
Наш тестовый набор содержит в основном котиков, но также есть собачки.
Когда мы подаем на вход изображение с котиком, модель успешно восстанавливает его с небольшой ошибкой. Это ожидаемо, ведь котик - не аномалия.
Но когда на вход подается картинка с собачкой, ошибка получается высокой, так как автокодировщик обучался только на изображениях котиков и не умеет точно восстанавливать собак.
Мы можем задать порог того, насколько высокой может быть ошибка. Если она превышает лимит - помечаем входные данные как аномалию.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍11❤2