Explainable AI для self-supervised learning
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
Self-supervised learning (#SSL) - подход в машинном обучении, в котором модель учит представление данных (скрытую структуру, лежащую в основе данных), не требуя для этого никакой ручной разметки. Такие модели ещё называют энкодерами, потому что на выходе у них эмбеддинги.
В последнее время SSL демонстрирует впечатляющие результаты и поэтому важно понимать, что модель выучила на сама деле, перед тем как использовать её в таких критических сферах, как, например, здравоохранение.
Explainable AI (#XAI) помогает понять, как модель пришла к определенному решению. В компьютерном зрении это могут быть тепловые карты регионов изображения, которые были решающими для классификации.
Проблема в том, что классические подходы XAI из supervised learning тут не работают, так как для вычисления метрики “соответствия истине” (score function) требуются лейблы.
Например, в Grad-CAM мы можем вычислить отклонение предсказания от целевого лейбла и обратным распространением ошибки получить тепловую карту важных областей для этого класса. Подробнее об этом методе мы писали тут.
К сожалению, для SSL моделей такой подход работать не будет, так как нам не с чем сравнивать их вывод. На данный момент для SSL очень мало XAI методов и в следующих постах я бы хотел поделиться наиболее перспективными из них.
Подпишись на @nn_for_science
👍50🔥8❤2
RELAX: Representation Learning Explainability
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
Aдаптация #XAI метода RISE для #SSL моделей, в котором случайным образом маскируются части изображения.
Если в RISE в качестве score function сравнивается отклонение предсказания от целевого класса замаскированных изображений, RELAX в качестве score function использует меру сходства (cosine similarity или L2 норму) между эмбеддингом, полученный из исходного изображения с эмбеддингами маскированных изображений.
Другими словами, эмбеддинг исходного изображения используется как лейбл, что позволяет определить, какие области изображения больше всего «отдаляют» эмбеддинги маскированных изображений от исходного. Суммируя все маскировочные карты, умноженные на этот коэффициент, получаем тепловую карту.
Минусы такого подхода - низкое разрешение тепловых карт, так как для маскировки всех комбинаций пикселей не хватит никаких ресурсов (для изображения 32х32 понадобится 2^1024 карт маскировки).
Кроме того, мы не можем быть уверены, что модель выучила реальное представление данных. Поэтому исходный эмбеддинг не обязательно является истинным.
📄 Статья
Подпишись на @nn_for_science
🔥11👍7❤5🤩1
Forwarded from DLStories
Мы открываем набор на осенний семестр школы глубокого обучения Deep Learning School!
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
DLschool — это школа при ФПМИ МФТИ, где мы учим нейронным сетям с самых азов до продвинутого уровня. Полный курс состоит из двух частей, каждая из которых длится полгода.
- Первая часть посвящена введению в нейросети и компьютерному зрению. Начинаем с основ машинного обучения и нейросетей, переходим к CNN для обработки картинок, заканчиваем переносом стиля изображений и ГАНами.
- Вторая часть полностью посвящена обработке естественного языка (NLP) и обработке звука.
Сейчас идет набор на первую часть. О новостях второй части курса напишем отдельно (скоро).
Особенность нашей школы в том, что мы даем много практики (теория при этом тоже есть, разумеется, и немало). Вам предстоит много практических домашних заданий и самостоятельный итоговый проект в конце семестра. По окончании обучения вы точно получите нужные практические навыки работы с нейросетями. Больше информации об организации курса и подробную программу первой части можно найти тут.
Преподаватели школы — ведущие специалисты российских и зарубежных IT-компаний и научные сотрудники исследовательских лабораторий. Среди них — я (Таня), буду вести у вас несколько лекций про CV, сегментацию и архитектуры сетей =)
Школа бесплатная. Полностью онлайн: учиться можно из любой точки мира, где есть интернет. Занятия проходят раз в неделю — лекция, семинар и домашнее задание. Обучение проходит на платформе Stepik. Берем всех, отбора нет.
❗️Начиная с этого года также есть возможность приобрести дополнительный пакет, в который входит индивидуальная поддержка от менторов и преподавателей в прохождении курса, а также дополнительные вебинары. Подробнее о нем читайте на нашем сайте.
Занятия начинаются 16 сентября. Регистрация продлится до 23 сентября. Чтобы зарегистрироваться на курс, оставьте заявку на нашем сайте. После этого вам на почту придет письмо со ссылками на курс на Степике, на канал и чат в Телеграме (письмо может идти 15-20 минут).
Ссылки:
Наш сайт
Подробная программа и оргинформация первой части курса
Ответы на часто задаваемые вопросы (F.A.Q)
Наш YouTube (тут видео всех лекций и семинаров школы, а также открытые лекции и интервью)
Наша группа VK
Поддержать нашу школу на Boosty
❗️В этом году в организации школы произошли некоторые изменения по сравнению с предыдущими потоками. Подробнее о них читайте тут. Также хочется сказать, что мы за лето хорошо поработали над организацией, и теперь не будет задержек в выкладке материалов, проверке дз и решении других вопросов =)
Если остались вопросы, пишите нам на почту (dlphystech@gmail.com), в сообщения в группе VK или в комментарии под этим постом.
И ждем вас в чатике курса в новом семестре! =)
👍18❤5😢5🔥4
Burning Man 2023
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust
В этом году мне удалось осуществить свою давнюю мечту и оказаться на Burning Man. Этого бы не произошло, если бы не мои невероятные друзья! Спасибо 😍
Каждый год, порядка 80.000 человек приезжают в пустыню Black Rock Desert в штате Невада и строят там самый настоящий город - Black Rock City. Мне показалось, что этот город - идеальная выжимка человечества, всех людских нарративов, своего рода центральная площадь Вселенной, где людские истории и идеи переопыляются и трансформируются во что-то новое.
Все еще перевариваю произошедшее, но наверное главное что я понял (и чем бы хотел поделиться) пока был в пустыне - это то что всё в нашей жизни определяется намерением.
Как только намерение появилось и оно сформулировано четко - Вселенная сразу же стремиться дать тебе то, что ты хочешь. На Burning Man от намерения до реализации зачастую проходит всего несколько минут, и это невероятно!
На Плае (так Бернеры называют пустыню в районе города) столько всего, что многие возможности и новый опыт надо просто пропускать через себя и отпускать, что тоже способствует переосмыслению.
Конечно всего не рассказать, но постараюсь ответить на интересные вопросы в комментариях.
See you in the dust
🔥54❤10👍8😁3😢1🎉1🤩1
This media is not supported in your browser
VIEW IN TELEGRAM
☁️Погода наконец-то перестанет нас дурить!
Компания Google анонсировала обновлённую версию открытого бенчмарка WeatherBench для тестирования и сравнения разных моделей прогноза погоды.
WeatherBench 2 позволит ученым объективно оценивать точность прогнозов, созданных с помощью машинного обучения. Это важно, чтобы понимать насколько новые нейросетевые модели превосходят традиционные физические модели погоды.
В бенчмарке уже есть результаты нескольких передовых ML-моделей, например, MetNet от Google и GraphCast от DeepMind. По многим показателям они сопоставимы с лучшими физическими моделями.
Главное преимущество ML-моделей - скорость. Они генерируют прогноз за минуты, а не часы. Это важно для своевременного предупреждения об опасных явлениях (вот на берне бы нам такая штука не помешала на прошлой неделе).
В будущем WeatherBench 2 будет расширен для тестирования вероятностных ML-моделей погоды. Цель - ускорить создание точных и надёжных прогнозов с помощью ИИ.
👌 Блог-пост
Компания Google анонсировала обновлённую версию открытого бенчмарка WeatherBench для тестирования и сравнения разных моделей прогноза погоды.
WeatherBench 2 позволит ученым объективно оценивать точность прогнозов, созданных с помощью машинного обучения. Это важно, чтобы понимать насколько новые нейросетевые модели превосходят традиционные физические модели погоды.
В бенчмарке уже есть результаты нескольких передовых ML-моделей, например, MetNet от Google и GraphCast от DeepMind. По многим показателям они сопоставимы с лучшими физическими моделями.
Главное преимущество ML-моделей - скорость. Они генерируют прогноз за минуты, а не часы. Это важно для своевременного предупреждения об опасных явлениях (вот на берне бы нам такая штука не помешала на прошлой неделе).
В будущем WeatherBench 2 будет расширен для тестирования вероятностных ML-моделей погоды. Цель - ускорить создание точных и надёжных прогнозов с помощью ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🔥11❤6😢3
Forwarded from Агенты ИИ | AGI_and_RL
Довольно интересная обзорная статья по RL основанному на физике:
A Survey on Physics Informed Reinforcement Learning: Review and Open Problems
https://arxiv.org/abs/2309.01909
A Survey on Physics Informed Reinforcement Learning: Review and Open Problems
https://arxiv.org/abs/2309.01909
❤6🤩3👍2🔥2
Как найти аномалии в данных используя автокодировщики?
Коротко:
1. Обучаем автокодировщик на нормальных данных
2. Задаем порог
3. Добавляем новые изображения
4. Подсчитываем ошибку
5. Помечаем изображения с ошибкой выше порога
Кодировщик (Encoder input на картинке) сжимает входные данные в некое внутреннее представление (code).
Это внутреннее представление (code) содержит выходные данные от кодировщика и служит входом для декодировщика (decoder). По сути, это хранилище данных.
Декодировщик отображает закодированные данные обратно в исходное пространство данных (decoder output). Цель декодировщика - максимально точно восстановить исходные данные.
Теперь представим ситуацию:
У нас есть набор изображений с котиками, и мы хотим использовать эти данные, чтобы обнаруживать любые "аномальные" изображения, которые могут содержать не котиков.
Мы обучаем автокодировщик на этих изображениях. Кодировщик сожмет изображение в представление меньшей размерности, а декодировщик восстановит исходное изображение.
Цель - минимизировать разницу между входным и выходным изображением.
Пора протестировать:
Наш тестовый набор содержит в основном котиков, но также есть собачки.
Когда мы подаем на вход изображение с котиком, модель успешно восстанавливает его с небольшой ошибкой. Это ожидаемо, ведь котик - не аномалия.
Но когда на вход подается картинка с собачкой, ошибка получается высокой, так как автокодировщик обучался только на изображениях котиков и не умеет точно восстанавливать собак.
Мы можем задать порог того, насколько высокой может быть ошибка. Если она превышает лимит - помечаем входные данные как аномалию.
🖥 Ссылка
Коротко:
1. Обучаем автокодировщик на нормальных данных
2. Задаем порог
3. Добавляем новые изображения
4. Подсчитываем ошибку
5. Помечаем изображения с ошибкой выше порога
Кодировщик (Encoder input на картинке) сжимает входные данные в некое внутреннее представление (code).
Это внутреннее представление (code) содержит выходные данные от кодировщика и служит входом для декодировщика (decoder). По сути, это хранилище данных.
Декодировщик отображает закодированные данные обратно в исходное пространство данных (decoder output). Цель декодировщика - максимально точно восстановить исходные данные.
Теперь представим ситуацию:
У нас есть набор изображений с котиками, и мы хотим использовать эти данные, чтобы обнаруживать любые "аномальные" изображения, которые могут содержать не котиков.
Мы обучаем автокодировщик на этих изображениях. Кодировщик сожмет изображение в представление меньшей размерности, а декодировщик восстановит исходное изображение.
Цель - минимизировать разницу между входным и выходным изображением.
Пора протестировать:
Наш тестовый набор содержит в основном котиков, но также есть собачки.
Когда мы подаем на вход изображение с котиком, модель успешно восстанавливает его с небольшой ошибкой. Это ожидаемо, ведь котик - не аномалия.
Но когда на вход подается картинка с собачкой, ошибка получается высокой, так как автокодировщик обучался только на изображениях котиков и не умеет точно восстанавливать собак.
Мы можем задать порог того, насколько высокой может быть ошибка. Если она превышает лимит - помечаем входные данные как аномалию.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍11❤2
Forwarded from Лекторий
14.09 Лекторий о ритуалах и традициях в широком смысле
Какие ритуалы есть у наших домашних питомцев? Какую роль играют традиции в еврейском обществе? Как искусство отражает ритуалы? На лектории "От животных к людям: Ритуалы вокруг нас" мы попытаемся разобраться в многообразии ритуалов и традиций.
Своим взглядом поделятся:
🔆 Ольга Ситкина - специалист по поведению животных, Tellington TTouch couch, создатель курса "Счастливый кот" и Инфопортала мой котопес и др.
🔆 Даниэль Альтерман - свободный исследователь
🔆 Ноа Томин - еврейский образователь, мадриха, социолог
🔆 Анна Смолярова - художница, арт-медиаторка
📍 Almacén Gallery HaPninim 1, Tel Aviv
🕦 14 сентября, 19:00
💰 Стоимость билета: 70 шекелей
Билеты: https://get-in.com/lectorium2
Какие ритуалы есть у наших домашних питомцев? Какую роль играют традиции в еврейском обществе? Как искусство отражает ритуалы? На лектории "От животных к людям: Ритуалы вокруг нас" мы попытаемся разобраться в многообразии ритуалов и традиций.
Своим взглядом поделятся:
🔆 Ольга Ситкина - специалист по поведению животных, Tellington TTouch couch, создатель курса "Счастливый кот" и Инфопортала мой котопес и др.
🔆 Даниэль Альтерман - свободный исследователь
🔆 Ноа Томин - еврейский образователь, мадриха, социолог
🔆 Анна Смолярова - художница, арт-медиаторка
📍 Almacén Gallery HaPninim 1, Tel Aviv
🕦 14 сентября, 19:00
💰 Стоимость билета: 70 шекелей
Билеты: https://get-in.com/lectorium2
🤯5❤3👍3🔥2
🗺️ Гугл улучшил построение маршрутов на Картах
Сервис Google Карты использует удобную навигацию, чтобы строить оптимальный маршрут из пункта А в пункт Б. Но как именно он определяет, какая дорога будет самой лучшей для пользователя? Оказывается, с помощью технологии "обратного обучения с подкреплением" (inverse reinforcement learning).
Этот метод работает так: искусственный интеллект анализирует реальные маршруты, которые люди выбирают в жизни. Эти данные - пример оптимальных "маршрутов" (если людей усреднить, то обычно они перемещаются оптимально). На их основе нейросеть извлекает скрытые критерии, которыми пользователи руководствуются при построении маршрута. Учитывают ли они время в пути, стоимость, живописность дороги?
Раньше применение такого подхода в масштабах всей Земли было затруднено - просто слишком много возможных маршрутов для анализа! Но инженеры Google разработали новый алгоритм RHIP (Receding Horizon Inverse Planning), который эффективно масштабируется.
Он объединяет точные, но ресурсозатратные методы для локальных участков пути с более дешёвыми алгоритмами глобального планирования. Благодаря оптимизации и распараллеливанию вычислений, RHIP позволил впервые применить обратное обучение с подкреплением в масштабах всей дорожной сети планеты.
В итоге точность маршрутов в Google Картах выросла на 15-24% по сравнению с предыдущим алгоритмом. Теперь, когда вы строите маршрут, ИИ может предугадать оптимальный путь, максимально приближенный к тому, который выбрали бы вы сами.
🌍 Блог-пост
📰 Статья
Подпишись на @nn_for_science
Сервис Google Карты использует удобную навигацию, чтобы строить оптимальный маршрут из пункта А в пункт Б. Но как именно он определяет, какая дорога будет самой лучшей для пользователя? Оказывается, с помощью технологии "обратного обучения с подкреплением" (inverse reinforcement learning).
Этот метод работает так: искусственный интеллект анализирует реальные маршруты, которые люди выбирают в жизни. Эти данные - пример оптимальных "маршрутов" (если людей усреднить, то обычно они перемещаются оптимально). На их основе нейросеть извлекает скрытые критерии, которыми пользователи руководствуются при построении маршрута. Учитывают ли они время в пути, стоимость, живописность дороги?
Раньше применение такого подхода в масштабах всей Земли было затруднено - просто слишком много возможных маршрутов для анализа! Но инженеры Google разработали новый алгоритм RHIP (Receding Horizon Inverse Planning), который эффективно масштабируется.
Он объединяет точные, но ресурсозатратные методы для локальных участков пути с более дешёвыми алгоритмами глобального планирования. Благодаря оптимизации и распараллеливанию вычислений, RHIP позволил впервые применить обратное обучение с подкреплением в масштабах всей дорожной сети планеты.
В итоге точность маршрутов в Google Картах выросла на 15-24% по сравнению с предыдущим алгоритмом. Теперь, когда вы строите маршрут, ИИ может предугадать оптимальный путь, максимально приближенный к тому, который выбрали бы вы сами.
🌍 Блог-пост
📰 Статья
Подпишись на @nn_for_science
👍30🔥12❤4🤯2😢1
👃 У нейросетей появился нюх
Ученые из Google исследовали, как можно научить искусственный интеллект предсказывать запах вещества по его молекулярной структуре. Эта фундаментальная проблема в области цифрового обоняния долгое время оставалась нерешенной.
Для создания модели авторы использовали графовые нейронные сети – специальный тип нейросетей, хорошо работающий с графовыми данными. Молекулы очень удобно представлять в виде графов, где атомы – вершины, а связи – ребра. Такая структура позволяет эффективно анализировать особенности молекулы.
Модель обучалась на наборе из 5000 молекул с соответствующими запаховыми дескрипторами типа "цветочный", "фруктовый" и т.д. Затем ее проверили на 400 ранее не встречавшихся молекулах.
Результаты показали, что нейросеть описывает запахи новых веществ не хуже, чем средний человек! Более того, модель лучше справляется с задачей, чем предыдущие подходы на основе традиционных химических дескрипторов.
Полученная нейросетью "карта запахов" переносится и на другие задачи в области обоняния - например, определение схожести запахов разных веществ. Таким образом, исследователи создали универсальное средство для изучения мира запахов.
В будущем подобные модели могут использоваться для автоматического предсказания запаха еще не синтезированных молекул. Это поможет ускорить открытие новых ароматов и душистых веществ без дорогостоящего экспериментального тестирования.
📰 Статья
Подпишись на @nn_for_science
Ученые из Google исследовали, как можно научить искусственный интеллект предсказывать запах вещества по его молекулярной структуре. Эта фундаментальная проблема в области цифрового обоняния долгое время оставалась нерешенной.
Для создания модели авторы использовали графовые нейронные сети – специальный тип нейросетей, хорошо работающий с графовыми данными. Молекулы очень удобно представлять в виде графов, где атомы – вершины, а связи – ребра. Такая структура позволяет эффективно анализировать особенности молекулы.
Модель обучалась на наборе из 5000 молекул с соответствующими запаховыми дескрипторами типа "цветочный", "фруктовый" и т.д. Затем ее проверили на 400 ранее не встречавшихся молекулах.
Результаты показали, что нейросеть описывает запахи новых веществ не хуже, чем средний человек! Более того, модель лучше справляется с задачей, чем предыдущие подходы на основе традиционных химических дескрипторов.
Полученная нейросетью "карта запахов" переносится и на другие задачи в области обоняния - например, определение схожести запахов разных веществ. Таким образом, исследователи создали универсальное средство для изучения мира запахов.
В будущем подобные модели могут использоваться для автоматического предсказания запаха еще не синтезированных молекул. Это поможет ускорить открытие новых ароматов и душистых веществ без дорогостоящего экспериментального тестирования.
📰 Статья
Подпишись на @nn_for_science
👍32❤9🔥5😁2
Как уместить слона в холодильник: обзор квантования моделей в 🤗 Transformers
Квантование моделей в машинном обучении - это процесс уменьшения разрядности представления весов нейронной сети.
Обычно веса моделей хранятся с использованием 32-битных чисел с плавающей точкой (float32). Это позволяет достичь высокой точности, но требует большого объема памяти.
Квантование снижает разрядность представления весов до 8, 4 или даже 2 бит. Это значительно уменьшает размер модели и позволяет запускать её на устройствах с ограниченными ресурсами - например, смартфонах или дешевых GPU.
Конечно, меньшее количество бит приводит к некоторой потере точности модели. Но современные алгоритмы квантования, такие как поддерживаемые в библиотеке 🤗 Transformers, позволяют минимизировать эту потерю.
Таким образом, квантование делает возможным использование крупных нейросетевых моделей там, где раньше для этого не хватало вычислительных ресурсов. Это расширяет сферы применения искусственного интеллекта - от мобильных приложений до IoT устройств.
В статье (ниже) даётся обзор основных методов квантования, встроенных в популярную библиотеку 🤗 Transformers. Рассматриваются их особенности, производительность на разных устройствах и точность по сравнению с исходными моделями. Почитайте, возможно статья поможет вам выбрать оптимальный подход к квантованию для своих задач.
🤗 Статья
Подпишись на @nn_for_science
Квантование моделей в машинном обучении - это процесс уменьшения разрядности представления весов нейронной сети.
Обычно веса моделей хранятся с использованием 32-битных чисел с плавающей точкой (float32). Это позволяет достичь высокой точности, но требует большого объема памяти.
Квантование снижает разрядность представления весов до 8, 4 или даже 2 бит. Это значительно уменьшает размер модели и позволяет запускать её на устройствах с ограниченными ресурсами - например, смартфонах или дешевых GPU.
Конечно, меньшее количество бит приводит к некоторой потере точности модели. Но современные алгоритмы квантования, такие как поддерживаемые в библиотеке 🤗 Transformers, позволяют минимизировать эту потерю.
Таким образом, квантование делает возможным использование крупных нейросетевых моделей там, где раньше для этого не хватало вычислительных ресурсов. Это расширяет сферы применения искусственного интеллекта - от мобильных приложений до IoT устройств.
В статье (ниже) даётся обзор основных методов квантования, встроенных в популярную библиотеку 🤗 Transformers. Рассматриваются их особенности, производительность на разных устройствах и точность по сравнению с исходными моделями. Почитайте, возможно статья поможет вам выбрать оптимальный подход к квантованию для своих задач.
🤗 Статья
Подпишись на @nn_for_science
👍19❤6🔥5😁1