нарвался недавно на задачу несбалансированных классов
хорошо просвятили вот эти вот видео
- Несбалансированные данные
https://ru.coursera.org/lecture/supervised-learning/niesbalansirovannyie-dannyie-M97UX
- Метрики качества классификации
https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/mietriki-kachiestva-klassifikatsii-2-fPkI2
- Многоклассовая классификация
https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/mnoghoklassovaia-klassifikatsiia-P9Zun
а так же несколько статей
- 8 тактик для борьбы с несбалансированными классами в вашем наборе данных машинного обучения
https://www.machinelearningmastery.ru/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
- Assessing and Comparing Classifier Performance with ROC Curves
https://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/
- Лучшая метрика для оценки точности классификационных моделей
http://datareview.info/article/luchshaya-metrika-dlya-ocenki-tochnosti-klassifikacionnyx-modelej/
- Оценка классификатора (точность, полнота, F-мера)
http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
- ну и просто неплохая статья про логистическую регрессию
"Как легко понять логистическую регрессию"
https://habr.com/ru/company/io/blog/265007/
А вообще есть либа под sklearn для небалансных датафрэймов
https://imbalanced-learn.readthedocs.io/en/stable/api.html
#ml
хорошо просвятили вот эти вот видео
- Несбалансированные данные
https://ru.coursera.org/lecture/supervised-learning/niesbalansirovannyie-dannyie-M97UX
- Метрики качества классификации
https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/mietriki-kachiestva-klassifikatsii-2-fPkI2
- Многоклассовая классификация
https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/mnoghoklassovaia-klassifikatsiia-P9Zun
а так же несколько статей
- 8 тактик для борьбы с несбалансированными классами в вашем наборе данных машинного обучения
https://www.machinelearningmastery.ru/tactics-to-combat-imbalanced-classes-in-your-machine-learning-dataset/
- Assessing and Comparing Classifier Performance with ROC Curves
https://machinelearningmastery.com/assessing-comparing-classifier-performance-roc-curves-2/
- Лучшая метрика для оценки точности классификационных моделей
http://datareview.info/article/luchshaya-metrika-dlya-ocenki-tochnosti-klassifikacionnyx-modelej/
- Оценка классификатора (точность, полнота, F-мера)
http://bazhenov.me/blog/2012/07/21/classification-performance-evaluation.html
- ну и просто неплохая статья про логистическую регрессию
"Как легко понять логистическую регрессию"
https://habr.com/ru/company/io/blog/265007/
А вообще есть либа под sklearn для небалансных датафрэймов
https://imbalanced-learn.readthedocs.io/en/stable/api.html
#ml
Coursera
Несбалансированные данные - Линейные модели: классификация и практические аспекты | Coursera
Video created by Московский физико-технический институт, ...
== Кост-модель LLM: иллюзия простоты / Михаил Чебаков
https://youtu.be/I7VQXdkwTf0?si=PG4qdMLePb264Ly-
https://youtu.be/I7VQXdkwTf0?si=PG4qdMLePb264Ly-
YouTube
Кост-модель LLM: иллюзия простоты / Михаил Чебаков
На конференции «Я про бэкенд» Михаил Чебаков, руководитель разработки инструментальных ML-платформ Т-Банка, рассказал, какие инженерные сложности и компромиссы стоят за тем, чтобы спрятать всю сложность инференса LLM за простыми числами, и показал, как сделать…