#how_to_ml #ml_courses #dmia
Когда вам нужно применить машинное обучение так, чтобы все заработало, с приемлемым качеством и не с запредельными вложениями сил, если говорить об алгоритмах, выбор довольно понятный. Либо линейные модели (если у вас тексты или другие данные с большим количеством признаков, особенно разреженных), либо ансамбли деревьев (если есть время и память на обучение и вас не смущает меньшая интерпретируемость), либо нейросетки (если работаете с картинками, либо строите более «умную» модель на текстах, либо анализируете звук или какие-то еще данные с интересной внутренней структурой). Иногда, например, в некоторых банках, еще любят строить одиночные решающие деревья, по большей части - просто потому, что они очень уж наглядно визуализируются. Конкретно с нейросетками неплохо быть в курсе существующих архитектур для разных задач, чтобы просто применять их, но в целом, столкнувшись с конкретной задачей вы можете просто хорошо погуглить и изучить статьи. Но по крайней мере понимать, какие идеи сейчас активно развиваются в Deep Learning и как это работает - в 2019 году точно нужно.
Еще пару лет назад у меня был показательный случай: меня привлекали для обновления программы курса ML в одном университете и компании-партнеры ВУЗа, формировавшие требования к программе, недовольно восклицали «представляешь, у нас в 2017 году курс машинного обучения все еще без введения в deep learning!». Конечно, это не подразумевало добавление в курс рассказа за 2-3 лекции полноценного курса по DL, но полная неосведомленность уже тогда не устраивала тех, кто хантил DS’ов.
Кроме того, конечно машинное обучение начинается отнюдь не с выбора алгоритма.
С одной стороны, нужно подготовить данные, на которых модель будет обучаться, а значит что-то понимать в feature engineering (или иметь хорошую интуицию на этот счет, а лучше - и то и другое). Если модель должна приносить какую-то пользу - например, зарабатывать или экономить деньги компании или максимизировать некоторое «счастье пользователя» в вашем сервисе - нужно также адекватно выбрать способ оценки качества. Да и вообще вопрос, что должна прогнозировать модель и где там возникает какой-то эффект от её внедрения - отдельная и не всегда очевидная история.
На нашем курсе Data Mining in Action базовое направление знакомит слушателей именно со всем необходимым для быстрого старта в машинном обучении в 2019 году - есть и про классические методы, и про работу с признаками и оценку качества, и неплохое введение про нейросетки. Для тех, кто уже имеет неплохую базу в ML есть специализированные направления - индустриальное (применение ML в компаниях), спортивное (о том, как участвовать и побеждать в соревнованиях по анализу данных) и, конечно, направление deep learning. Отбор на курс уже идет полным ходом, запись на курс и отборочные задания направлений будут еще как минимум до 7 февраля доступны по ссылке: https://goo.gl/forms/Z5QvN6UR1wJRTeKg1 Организационные детали можно найти там же.
Торжественное открытие курса планируется 9 февраля, с 16 февраля начнутся лекции и семинары.
Когда вам нужно применить машинное обучение так, чтобы все заработало, с приемлемым качеством и не с запредельными вложениями сил, если говорить об алгоритмах, выбор довольно понятный. Либо линейные модели (если у вас тексты или другие данные с большим количеством признаков, особенно разреженных), либо ансамбли деревьев (если есть время и память на обучение и вас не смущает меньшая интерпретируемость), либо нейросетки (если работаете с картинками, либо строите более «умную» модель на текстах, либо анализируете звук или какие-то еще данные с интересной внутренней структурой). Иногда, например, в некоторых банках, еще любят строить одиночные решающие деревья, по большей части - просто потому, что они очень уж наглядно визуализируются. Конкретно с нейросетками неплохо быть в курсе существующих архитектур для разных задач, чтобы просто применять их, но в целом, столкнувшись с конкретной задачей вы можете просто хорошо погуглить и изучить статьи. Но по крайней мере понимать, какие идеи сейчас активно развиваются в Deep Learning и как это работает - в 2019 году точно нужно.
Еще пару лет назад у меня был показательный случай: меня привлекали для обновления программы курса ML в одном университете и компании-партнеры ВУЗа, формировавшие требования к программе, недовольно восклицали «представляешь, у нас в 2017 году курс машинного обучения все еще без введения в deep learning!». Конечно, это не подразумевало добавление в курс рассказа за 2-3 лекции полноценного курса по DL, но полная неосведомленность уже тогда не устраивала тех, кто хантил DS’ов.
Кроме того, конечно машинное обучение начинается отнюдь не с выбора алгоритма.
С одной стороны, нужно подготовить данные, на которых модель будет обучаться, а значит что-то понимать в feature engineering (или иметь хорошую интуицию на этот счет, а лучше - и то и другое). Если модель должна приносить какую-то пользу - например, зарабатывать или экономить деньги компании или максимизировать некоторое «счастье пользователя» в вашем сервисе - нужно также адекватно выбрать способ оценки качества. Да и вообще вопрос, что должна прогнозировать модель и где там возникает какой-то эффект от её внедрения - отдельная и не всегда очевидная история.
На нашем курсе Data Mining in Action базовое направление знакомит слушателей именно со всем необходимым для быстрого старта в машинном обучении в 2019 году - есть и про классические методы, и про работу с признаками и оценку качества, и неплохое введение про нейросетки. Для тех, кто уже имеет неплохую базу в ML есть специализированные направления - индустриальное (применение ML в компаниях), спортивное (о том, как участвовать и побеждать в соревнованиях по анализу данных) и, конечно, направление deep learning. Отбор на курс уже идет полным ходом, запись на курс и отборочные задания направлений будут еще как минимум до 7 февраля доступны по ссылке: https://goo.gl/forms/Z5QvN6UR1wJRTeKg1 Организационные детали можно найти там же.
Торжественное открытие курса планируется 9 февраля, с 16 февраля начнутся лекции и семинары.
Google Docs
Data Mining in Action: весна 2019
Начинается отбор на оффлайн курс Data Mining in Action (занятия очные).
Отбор будет производится на основе вступительного задания направления и небольшого мотивационного письма (не более 1000 символов), которое нужно ввести в этой форме. Ссылки на вступительные…
Отбор будет производится на основе вступительного задания направления и небольшого мотивационного письма (не более 1000 символов), которое нужно ввести в этой форме. Ссылки на вступительные…