Кто кого бустит и зачем?
Ноги бустинга растут из вопроса «можно ли с помощью нескольких слабых алгоритмов сделать один сильный?». Оказывается, что да. В этом и есть суть метода: строим серию не особо точных алгоритмов и обучаем их на ошибках друг друга.
😻 #train
Ноги бустинга растут из вопроса «можно ли с помощью нескольких слабых алгоритмов сделать один сильный?». Оказывается, что да. В этом и есть суть метода: строим серию не особо точных алгоритмов и обучаем их на ошибках друг друга.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤39🔥13👍5😐2⚡1🤯1
Как грызть гранит науки о данных?
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
😻 Ваша команда Data Secrets
С чего начать, как продолжить и что точно нельзя упустить? На связи редакция Data Secrets, и сейчас мы всё-всё расскажем, а заодно проведем небольшую экскурсию по нашему журналу 🙂
Вообще, образование data специалиста стоит на двух китах: математика и программирование.
Математика, в свою очередь, стоит на трех черепахах: теория вероятностей и статистика, линейная алгебра, основы мат. анализа. Вся эта математика, кстати, далеко не так сложна как кажется. Проблема в том, что её плохо и скучно объясняют во многих вузах. А у нас вы можете найти интересные пояснения на эту тему по хэштэгу #math. Вот например, посты, где мы препарируем нормальное распределение, поясняем за градиенты и объясняем математику AB-теста. А вот наша подборка книг по математике – с ними точно не пропадете.
Программирование в дате – это в основном Python и SQL. Python является стандартом де-факто для нашей сферы: он простой и логичный. Помимо синтаксиса обязательно нужно знать несколько основных библиотек: pandas, numpy, sklearn и, если планируете заниматься нейросетями, то еще PyTorch и TensorFlow. Про это и еще много всего питоновского мы пишем по хэштегу #python. Вот наши любимые посты: Как пара строк кода может сократить использование памяти в два раза, Запускаем графовую нейросеть за 5 минут, Деплоим модель с помощью FastAPI. Про SQL тоже пишем (#SQL), куда же без него: Советы по написанию запросов, Вообще все про NULL, Соединяем питон с SQL и многое другое.
После изучения этой базы начинается все самое интересное:
– Классические алгоритмы машинного обучения (у нас по хэштегу #train). Вот несколько основных: Линейная регрессия, Стекинг, Бустинг, Обучение с подкреплением. А еще мы рассказываем про всякие хитрости и нюансы, например, что делать со статичными фичами и какие бывают необчные функции потерь.
– Конечно же, нейросети (#NN). Они бывают разные: сверточные, рекуррентные (а еще LSTM), графовые, диффузионные, трансформеры, GANы. Конечно, обучать их нелегко, но мы освещаем тонкости: например, пост про эмбеддинги, про DropOut или про всякие фишки CNN.
– Ну и аналитика с визуализацией. Умение проанализировать данные, обработать и представить их в виде хорошо читаемых схем – важный скилл (важнее, чем уметь обучать нейросети). Мы делимся инсайтами по хэштегу #analytics: например, рассказываем про бандитсткую альтернативу AB-тестам, учим правильно рисовать графики и делимся надежным роадмэпом для анализа данных.
Вот как-то так. Мы также рекомендуем много хорошей литературы, бесплатных курсов и источников по хэштегу #advice. А еще постим новости (#news) и самые лучшие мемы (#memes). Желаем удачи!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤145👍50🔥16⚡3🤯2☃1👌1🍌1🤨1🤓1
Как правильно задизайнить AB-тест
Вот 5 простых шагов и ответ на вопрос «зачем это нужно».
😻 #analytics
Вот 5 простых шагов и ответ на вопрос «зачем это нужно».
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56❤5🤯3🐳1🤨1🙈1🗿1
Теорема Байеса на примере
Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома. На этой идее основан классический алгоритм машинного обучения: Байесовский классификатор. Разбираемся с этой теоремой на примере.
😻 #math
Теорема позволяет рассчитать вероятность события, если причину и следствие поменять местами. Например, мы знаем распространенность симптома среди больных и здоровых. Значит, мы можем вычислить вероятность заболевания от наличия симптома. На этой идее основан классический алгоритм машинного обучения: Байесовский классификатор. Разбираемся с этой теоремой на примере.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74❤13😨5🍌3⚡2
Data Secrets
Человек или нет? Humanornot — это приложение дает возможность провести тест Тьюринга самостоятельно. Оно сводит вас с человеком или ChatGPT, вы разговариваете в течение 2 минут, а затем голосуете, "человек это или нет". Самая большая трата времени, но зато…
Помните, мы писали про игру Humanornot? Оказывается, она была частью большого исследования.
Недавно вышла статья "Human or Not?🤖 ❓ 🤖 A gamefied approach to the Turing Test" (да, эмоджи тоже часть названия). В чем суть: в середине прошлого века Алан Тьюринг предложил тест, в котором человек взаимодействует с собеседником, который может оказаться и компьютером, и человеком. После короткого диалога тестирующий пытается определить, кто с ним говорил. Если машине удалось ввести человека в заблуждение – она прошла тест.
Так вот, исследователи вдохновились идеями Тьюринга
и сделали веб-игру, в которой нужно было початиться пару минут и угадать, говорил ли ты с человеком или с ИИ-ботом. Статистические результаты интересные: люди угадывали правильно только в 68%. А если учесть только чаты с ИИ, то процент и вовсе составляет 60%.
Самое забавное – как пользователи пытались обманывать друг друга и подловить бота (см. картинки).
😻 #news
Недавно вышла статья "Human or Not?
Так вот, исследователи вдохновились идеями Тьюринга
и сделали веб-игру, в которой нужно было початиться пару минут и угадать, говорил ли ты с человеком или с ИИ-ботом. Статистические результаты интересные: люди угадывали правильно только в 68%. А если учесть только чаты с ИИ, то процент и вовсе составляет 60%.
Самое забавное – как пользователи пытались обманывать друг друга и подловить бота (см. картинки).
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🤯6❤2🔥1
Один из главных алгоритмов рекомендательных систем: коллаборативная фильтрация
Ее используют многие крупные компании: например, YouTube, Instagram, ВКонтакте и Facebook. Сегодня проводим экскурс в историю и рассказываем, как этот алгоритм устроен. Спойлер:его название сложнее, чем он сам .
😻 #train
Ее используют многие крупные компании: например, YouTube, Instagram, ВКонтакте и Facebook. Сегодня проводим экскурс в историю и рассказываем, как этот алгоритм устроен. Спойлер:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤25👍21🔥8⚡2