Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Обзор полного Workflow модели машинного обучения в бизнесе

В реальном мире внедрение любой ML-фичи происходит в три этапа: обработка данных, обучение моделей, деплой. Как это все работает смотрите на схеме, а подробнее про каждый этап – в карточках.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
26🔥14👍7🤯3
Спустя 3 часа обучения би лайк

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥75😁27👏4🤪4🙈3🤔1
LLaMA 2 вышла!

Есть варианты: 7B, 13B, 34B и 70B. Вот чем она отличается от первой версии тезисно:

– Добавили Grouped-Query Attention
– Токенов стало больше в два раза(2Т)
– Контекст увеличили до 4К
– И самое интересное: есть Chat версии. Они дообучены на диалог, и там даже есть RLHF, прямо как в ChatGPT. По качеству бот сравнимм с ChatGPT-3.5, однако на многих задачах ведет себя даже лучше.

И кстати, веса все-таки тоже опубликуют! Для получения доступа, правда, надо просить его на HuggingFace.

📖 Статья 🖥 Github 🤗 Demo

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤯7👍6🤓32
Нашли хороший курс по Data-инжинирингу, на котором будет очень много практики и очень много поддержки. Учат не только продумывать технический пайплайн, но и даже планировать бюджет на инфраструктуру проекта. Зайдите по ссылке ниже и посмотрите сами: там и Spark, и Airflow для оркестрации, и NOSQL, и Map-Reduce, и еще много чего про архитектуру и аналитику. Самые интересные фишки перечислили в карточке.

Старт потока 4 сентября, узнать больше и записаться можно тут

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🤨62🤯1
Мощные и малоизвестные фишки Matplotlib

На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!

😻 #python #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤯12❤‍🔥7🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
Визуальное объяснение того, как работают нейросети

Некто Jared Wilber выкатил веб-страницу, на которой объясняет, как устроены нейросети. Получилось и не слишком сложно, но и не очень популярно, ведь без математической составялющей алгоритм все равно до конца не понять. Особенно радует динамическая визуализация и приятная структура. Страницу интересно и полезно почитать, даже если вы уже неплохо разбираетесь в теме, или если наоборот, не разбираетесь совсем. Советуем!

😻 #advice #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
👍629🔥7🤯1🤩1🙈1
#читалиТвиттер и нашли вот такую визуальную подсказку по самым важным распределениям в DS. Конечно, на первом месте у нас нормальное и Бернулли, но на практике также попадается и логнормальное, и гамма, и (особенно) экспоненциальное. Полезно помнить, как все они выглядят.

Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.

😻 #advice #math
Please open Telegram to view this post
VIEW IN TELEGRAM
45👍8🤯3
Никогда не используйте feature importances для случайного леса в sklearn

И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍803
Яндекс Такси научилось предсказывать спрос

В приложении появился специальный график, который показывает, как будет меняться спрос. Алгоритм анализирует количество свободных машин такси поблизости и стоимость поездки по этому маршруту за прошлые четыре недели: за эти дни набирается достаточно данных для оценки и при этом, как правило, похожи погодные и дорожные условия.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4610🤯6🌚1
Статистика по-прежнему важна

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
70😁26🔥8🙈3
Что такое adversarial validation

Это один из самых популярных примеров использования подмены задачи. Кстати, этот трюк пришел к нам из соревновательного ML. Его суть – в карточках.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍206🤔4🤯4🥰1