Как грызть гранит науки о данных?
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
😻 Ваша команда Data Secrets
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤145👍50🔥16⚡3🤯2☃1👌1🍌1🤨1🤓1
Как правильно задизайнить AB-тест
Вот 5 простых шагов и ответ на вопрос «зачем это нужно».
😻 #analytics
Вот 5 простых шагов и ответ на вопрос «зачем это нужно».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤5🤯3🐳1🤨1🙈1🗿1
Что делать с НЕнормальным распределением?
Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.
😻 #train #analytics #python
Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥10❤6🤯4😐3🙈3
ARIMA
ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.
😻 #analytics #train
ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤🔥6❤5🤔1
Зацените, как люди любят визуализацию: нашли в Твиттере аналитика Ewa Tuteja, которая сама связала датавиз и пометила пост прикольным тегом #DressYourHouseInData
😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥12😁11❤9🤯5
QQ-плот и с чем его едят
Сначала объяснили, кто такие куку и как они строятся. Потом раскрыли все секреты того, как их читать и делать по ним важные выводы. А напоследок показали универсальный код на питоне для построения этих графиков.
😻 #analytics
Сначала объяснили, кто такие куку и как они строятся. Потом раскрыли все секреты того, как их читать и делать по ним важные выводы. А напоследок показали универсальный код на питоне для построения этих графиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤40👍20🤯6❤🔥1
Незабываемая пятерка: топ самых крутых датавизов от нашей редакции
Смотрим, залипаем и учимся: как превращать данные во что-то изящно простое и одновременно красивое на примере 5 дашбордов.
😻 #analytics
Смотрим, залипаем и учимся: как превращать данные во что-то изящно простое и одновременно красивое на примере 5 дашбордов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤31👍10
CloudReports – для быстрой выгрузки данных из облака
Хорошая аналитика невозможна без хороших данных. Сегодня все больше компаний хранят данные в облачных сервисах. Но с выгрузкой данных оттуда есть нюанс... Читайте карточки – сами все поймете.
Как и обещали, оставляем ссылку на шаблоны отчетов и на Telegram канал CloudReports с новостями из мира аналитики.
Кто-нибудь пробовал? Дайте обратную связь.
😻 #advice #analytics
Хорошая аналитика невозможна без хороших данных. Сегодня все больше компаний хранят данные в облачных сервисах. Но с выгрузкой данных оттуда есть нюанс... Читайте карточки – сами все поймете.
Как и обещали, оставляем ссылку на шаблоны отчетов и на Telegram канал CloudReports с новостями из мира аналитики.
Кто-нибудь пробовал? Дайте обратную связь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤4🔥3
3 способа найти период в данных
Период - это время, необходимое для повторения "шаблона" в данных. Используя данные о периоде, можно построить модель с сезонностью, которая будет лчше предиктить будущие значения. Но как это период определить? На примере и в комплекте с кодом показываем три способа.
😻 #analytics #train
Период - это время, необходимое для повторения "шаблона" в данных. Используя данные о периоде, можно построить модель с сезонностью, которая будет лчше предиктить будущие значения. Но как это период определить? На примере и в комплекте с кодом показываем три способа.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🔥10👏4❤3🥰3💯1🙈1
Мощные и малоизвестные фишки Matplotlib
На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!
😻 #python #analytics
На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤯12❤🔥7🔥2❤1
Никогда не используйте feature importances для случайного леса в sklearn
И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.
😻 #analytics #train
И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80❤3
Partial Dependence Plots для интерпретации моделей
Чем больше машинного обучения в нашей жизни, тем острее встает вопрос повышения интерпретируемости моделей. В классическом примере с кредитом в случае отказа клиент всегда хочет знать, по какой именно причине ему не дали займ.
Поэтому появляется все больше и больше инструментов, которые приокрывают нам "черный ящик": feature importance, SHAP-значения или графики частичной зависимости. Вот о таких графиках сегодня и поговорим.
P.S. Мы вдохновились этим материалом с Kaggle, и здесь же у ребят есть ноутбук с отличными практическими упражнениями – можно перейти и проверить свои знания
😻 #train #analytics
Чем больше машинного обучения в нашей жизни, тем острее встает вопрос повышения интерпретируемости моделей. В классическом примере с кредитом в случае отказа клиент всегда хочет знать, по какой именно причине ему не дали займ.
Поэтому появляется все больше и больше инструментов, которые приокрывают нам "черный ящик": feature importance, SHAP-значения или графики частичной зависимости. Вот о таких графиках сегодня и поговорим.
P.S. Мы вдохновились этим материалом с Kaggle, и здесь же у ребят есть ноутбук с отличными практическими упражнениями – можно перейти и проверить свои знания
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤8🤔2
Тем временем МАИ совместно с VK Education запустили бесплатный онлайн-курс Введение в анализ данных.
Ведет курс Костя Измайлов: Chief Data Officer в Yandex и по совместительству Kaggle Master. Курс достаточно емкий и компактный, всего около 5 часов. Цена – 0 рублей. Темы курса классические, он подойдет для новичков или для тех, кто хочет освежить знания:
1. Python для анализа данных
2. Визуализация данных
3. Статистический анализ данных
4. Работа с базами данных
Все рабочие блокноты, кстати, доступны тут.
😻 #analytics #news #advice
Ведет курс Костя Измайлов: Chief Data Officer в Yandex и по совместительству Kaggle Master. Курс достаточно емкий и компактный, всего около 5 часов. Цена – 0 рублей. Темы курса классические, он подойдет для новичков или для тех, кто хочет освежить знания:
1. Python для анализа данных
2. Визуализация данных
3. Статистический анализ данных
4. Работа с базами данных
Все рабочие блокноты, кстати, доступны тут.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤7🤯3🤨1
Отличная пдфка от Данила Звягинцева про плохие паттерны в датавизе
В наборе:
- отсутствие контекста данных
- попытка угодить каждому
- много визуального шума (цветов, дизайн элементов, картинок и тд)
- непонятные заголовки
- обман графиками: манипуляции осями, 3D
- отсутствие темплейтов и стандартизации
- отсутствие выводов и призывов к действию
😻 #analytics
В наборе:
- отсутствие контекста данных
- попытка угодить каждому
- много визуального шума (цветов, дизайн элементов, картинок и тд)
- непонятные заголовки
- обман графиками: манипуляции осями, 3D
- отсутствие темплейтов и стандартизации
- отсутствие выводов и призывов к действию
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19❤4
Делаем тепловые карты круче и читабельнее
Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.
Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:
Подробности можно посмотреть в документации.
😻 #analytics
Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.
Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:
corr_mat = df.corr().stack().reset_index(name="correlation")
g = sns.relplot(data=corr_mat, x="level_0",
y="level_1", hue="correlation",
size="correlation")
Подробности можно посмотреть в документации.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍18❤8
Sankey Diagrams – недооцененный драгоценный камень визуализации
Очень многие виды данных могут быть проинтерпретированы, как потоки от точки A к точке Б: перевозки, трафик, финансовые потоки, воронки продаж, миграция и много чего другого. И если они похожи на потоки, то почему бы именно так их не изобразать?
Вот для этого и существует Диаграмма Санкея. Она наглядно иллюстрирует любые бизнес-процессы, движения потока. В питоне такое можно нарисовать с помощью специальной библиотеки:
На картинке можете посмотреть на результат. А вот здесь, например, Диаграмма Санкея используется для визуализации действий пользователей мобильного приложения – посмотрите, очень красочно.
😻 #analytics #python
Очень многие виды данных могут быть проинтерпретированы, как потоки от точки A к точке Б: перевозки, трафик, финансовые потоки, воронки продаж, миграция и много чего другого. И если они похожи на потоки, то почему бы именно так их не изобразать?
Вот для этого и существует Диаграмма Санкея. Она наглядно иллюстрирует любые бизнес-процессы, движения потока. В питоне такое можно нарисовать с помощью специальной библиотеки:
from ipysankeywidget import SankeyWidget
SankeyWidget(links = df.to_dict())
На картинке можете посмотреть на результат. А вот здесь, например, Диаграмма Санкея используется для визуализации действий пользователей мобильного приложения – посмотрите, очень красочно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍38❤7🙈1
Bump Charts
Когда мы хотим показать изменения сразу нескольких категорий данных с течением времени, то иногда пользуемся гистограммой. Но если речь идет о дискретном значении (например, рейтинг), то лучше использовать удобочитаемый элегантный Bumb Chart с симпатичными точечками, как на картинке.
Чтобы такой построить в питоне, нужно немного схитрить с subplots. Но не заморачивайтесь: мы уже написали для вас готовый код. Вот ссылка на Colab.
😻 #analytics
Когда мы хотим показать изменения сразу нескольких категорий данных с течением времени, то иногда пользуемся гистограммой. Но если речь идет о дискретном значении (например, рейтинг), то лучше использовать удобочитаемый элегантный Bumb Chart с симпатичными точечками, как на картинке.
Чтобы такой построить в питоне, нужно немного схитрить с subplots. Но не заморачивайтесь: мы уже написали для вас готовый код. Вот ссылка на Colab.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥6❤4
Ошибка 1-го и 2-го рода? А может лучше 7-го и 8-го?
А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все,справа налево сверху вниз.
😻 #analytics
А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все,
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯46😁25👍7❤2🔥1
Обманы ящиков с усами и гистограмм и при чем тут облака
Все очень любят ящики с усами и гистограммы. Но знаете ли вы, что они бывают коварны и любят вводить в заблуждение? Объясняем, как не попасться на эту удочку и какой график рисовать, чтобы точно понять распределение.
🖥 Чтобы рисовать облака в питоне, используйте библиотеку PtitPrince
💩 Любители R могут использовать Raincloud Plots
😻 #analytics
Все очень любят ящики с усами и гистограммы. Но знаете ли вы, что они бывают коварны и любят вводить в заблуждение? Объясняем, как не попасться на эту удочку и какой график рисовать, чтобы точно понять распределение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍71❤19