Препарируем ROC-AUC
Многие любят использовать эту метрику для задач классификации, но знаете ли вы, как она работает? Что такое ROC-кривая? При чем тут площадь? Давайте разберемся.
P.S. При подготовке материала нашли такой интересный тест на знание ROC-AUC. Полезно для самопроверки.
P.S.№2. В комментариях оставим код для построения ROC-кривой в питоне
😻 #train #math
Многие любят использовать эту метрику для задач классификации, но знаете ли вы, как она работает? Что такое ROC-кривая? При чем тут площадь? Давайте разберемся.
P.S. При подготовке материала нашли такой интересный тест на знание ROC-AUC. Полезно для самопроверки.
P.S.№2. В комментариях оставим код для построения ROC-кривой в питоне
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍9❤4👏2🤔1
Как грызть гранит науки о данных?
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
😻 Ваша команда Data Secrets
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤145👍50🔥16⚡3🤯2☃1👌1🍌1🤨1🤓1
Теорема Байеса на примере
Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома. На этой идее основан классический алгоритм машинного обучения: Байесовский классификатор. Разбираемся с этой теоремой на примере.
😻 #math
Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома. На этой идее основан классический алгоритм машинного обучения: Байесовский классификатор. Разбираемся с этой теоремой на примере.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74❤13😨5🍌3⚡2
Центральная предельная теорема и почему она так важна
Сначала объясним интуитивно, потом добавим щепотку математики, приправим примером, а на десерт объясним, почему ЦПТ так важна.
😻 #math
Сначала объясним интуитивно, потом добавим щепотку математики, приправим примером, а на десерт объясним, почему ЦПТ так важна.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍72❤🔥14❤6🤯1
10 вопросов, чтобы проверить ваше знание статистики
Пишите в комментариях, на сколько из 10 смогли ответить. Есть среди нас десятки?
😻 #math
Пишите в комментариях, на сколько из 10 смогли ответить. Есть среди нас десятки?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🤯5
Разбор вчерашней задачи
Как вчера верно отметил один из комментаторов (верно решивший задачу): "тервер это одна из самых неочевидных областей математики))) поэтому проверять такие вещи нужно неинтуитивно, а по уже давно доказанным теоремам". Мы полностью согласны, поэтому разбираемся с определениями и решаем задачу математично.
😻 #math
Как вчера верно отметил один из комментаторов (верно решивший задачу): "тервер это одна из самых неочевидных областей математики))) поэтому проверять такие вещи нужно неинтуитивно, а по уже давно доказанным теоремам". Мы полностью согласны, поэтому разбираемся с определениями и решаем задачу математично.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73🤯8👏3👌3❤1
#читалиТвиттер и нашли вот такую визуальную подсказку по самым важным распределениям в DS. Конечно, на первом месте у нас нормальное и Бернулли, но на практике также попадается и логнормальное, и гамма, и (особенно) экспоненциальное. Полезно помнить, как все они выглядят.
Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.
😻 #advice #math
Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍8🤯3
(НЕ) парадокс Дней Рождения
Факт: если дана группа из 23 или более человек, то вероятность того, что хотя бы у двух из них дни рождения совпадут, превышает 50%. Доказываем вместе, показываем картинки, и даже рассказываем, как этот парадокс применяется хакерами.
То есть получается, что в комментариях с вероятностью почти 100% найдутся те, у кого День Рождения, как и у нас, сегодня?
😻 #math
Факт: если дана группа из 23 или более человек, то вероятность того, что хотя бы у двух из них дни рождения совпадут, превышает 50%. Доказываем вместе, показываем картинки, и даже рассказываем, как этот парадокс применяется хакерами.
То есть получается, что в комментариях с вероятностью почти 100% найдутся те, у кого День Рождения, как и у нас, сегодня?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥8❤6🤔2🐳1
Please open Telegram to view this post
VIEW IN TELEGRAM
❤101👍21🔥11🤩2🤝2🤯1
Почти бесполезно, но как же чертовки красиво!
P. S.Абсолютная погрешность составляет примерно 0,0004.
😻 #math
P. S.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍70⚡9❤6🤨2🦄2🔥1🌭1
Кит Макналти каждый день начинает с решения математической задачи
Макналти – известный математик, дата сайентист и инженер нашего времени, это автор нескольких отличных книг и LinkedIn Top Voice in Tech. Недавно на своей страничке он поделился тем, что каждое утро 30 минут решает задачи по математике, и это дает ему мощный заряд сил на весь день. Как, зачем и почему – в карточках.
😻 #math
Макналти – известный математик, дата сайентист и инженер нашего времени, это автор нескольких отличных книг и LinkedIn Top Voice in Tech. Недавно на своей страничке он поделился тем, что каждое утро 30 минут решает задачи по математике, и это дает ему мощный заряд сил на весь день. Как, зачем и почему – в карточках.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍50❤🔥11
Почему мы решили возводить ошибки в квадрат?
Всем знакома квадратичная фукнция потерь MSE. Но кто и когда решил, что возводить ошибки в квадрат – хорошая идея? Устраиваем краткий ликбез.
Если хотите узнавать больше интересных фактов из мира DS в формате сторис – тыкайте сюда
😻 #math
Всем знакома квадратичная фукнция потерь MSE. Но кто и когда решил, что возводить ошибки в квадрат – хорошая идея? Устраиваем краткий ликбез.
Если хотите узнавать больше интересных фактов из мира DS в формате сторис – тыкайте сюда
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29❤3😨3❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯31👍13❤6😁3🔥2🤨2🏆1