Обзор полного Workflow модели машинного обучения в бизнесе
В реальном мире внедрение любой ML-фичи происходит в три этапа: обработка данных, обучение моделей, деплой. Как это все работает смотрите на схеме, а подробнее про каждый этап – в карточках.
😻 #train
В реальном мире внедрение любой ML-фичи происходит в три этапа: обработка данных, обучение моделей, деплой. Как это все работает смотрите на схеме, а подробнее про каждый этап – в карточках.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤26🔥14👍7🤯3
LLaMA 2 вышла!
Есть варианты: 7B, 13B, 34B и 70B. Вот чем она отличается от первой версии тезисно:
– Добавили Grouped-Query Attention
– Токенов стало больше в два раза(2Т)
– Контекст увеличили до 4К
– И самое интересное: есть Chat версии. Они дообучены на диалог, и там даже есть RLHF, прямо как в ChatGPT. По качеству бот сравнимм с ChatGPT-3.5, однако на многих задачах ведет себя даже лучше.
И кстати, веса все-таки тоже опубликуют! Для получения доступа, правда, надо просить его на HuggingFace.
📖 Статья 🖥 Github 🤗 Demo
😻 #news
Есть варианты: 7B, 13B, 34B и 70B. Вот чем она отличается от первой версии тезисно:
– Добавили Grouped-Query Attention
– Токенов стало больше в два раза(2Т)
– Контекст увеличили до 4К
– И самое интересное: есть Chat версии. Они дообучены на диалог, и там даже есть RLHF, прямо как в ChatGPT. По качеству бот сравнимм с ChatGPT-3.5, однако на многих задачах ведет себя даже лучше.
И кстати, веса все-таки тоже опубликуют! Для получения доступа, правда, надо просить его на HuggingFace.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥36🤯7👍6🤓3❤2
Нашли хороший курс по Data-инжинирингу, на котором будет очень много практики и очень много поддержки. Учат не только продумывать технический пайплайн, но и даже планировать бюджет на инфраструктуру проекта. Зайдите по ссылке ниже и посмотрите сами: там и Spark, и Airflow для оркестрации, и NOSQL, и Map-Reduce, и еще много чего про архитектуру и аналитику. Самые интересные фишки перечислили в карточке.
Старт потока 4 сентября, узнать больше и записаться можно тут
😻 #advice
Старт потока 4 сентября, узнать больше и записаться можно тут
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🤨6❤2🤯1
Мощные и малоизвестные фишки Matplotlib
На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!
😻 #python #analytics
На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤯12❤🔥7🔥2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Визуальное объяснение того, как работают нейросети
Некто Jared Wilber выкатил веб-страницу, на которой объясняет, как устроены нейросети. Получилось и не слишком сложно, но и не очень популярно, ведь без математической составялющей алгоритм все равно до конца не понять. Особенно радует динамическая визуализация и приятная структура. Страницу интересно и полезно почитать, даже если вы уже неплохо разбираетесь в теме, или если наоборот, не разбираетесь совсем. Советуем!
😻 #advice #NN
Некто Jared Wilber выкатил веб-страницу, на которой объясняет, как устроены нейросети. Получилось и не слишком сложно, но и не очень популярно, ведь без математической составялющей алгоритм все равно до конца не понять. Особенно радует динамическая визуализация и приятная структура. Страницу интересно и полезно почитать, даже если вы уже неплохо разбираетесь в теме, или если наоборот, не разбираетесь совсем. Советуем!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍62❤9🔥7🤯1🤩1🙈1
#читалиТвиттер и нашли вот такую визуальную подсказку по самым важным распределениям в DS. Конечно, на первом месте у нас нормальное и Бернулли, но на практике также попадается и логнормальное, и гамма, и (особенно) экспоненциальное. Полезно помнить, как все они выглядят.
Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.
😻 #advice #math
Если хотите больше почитать про распределения, то вот вам в дополнение еще полезный чит-лист. Тут описано каждое распределение, даны его характеристики, описательные статистики + примеры. Еще есть таблицы квантилей для тех, кто интересуется проверкой гипотез и оценками параметров.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤45👍8🤯3
Никогда не используйте feature importances для случайного леса в sklearn
И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.
😻 #analytics #train
И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍80❤3
Яндекс Такси научилось предсказывать спрос
В приложении появился специальный график, который показывает, как будет меняться спрос. Алгоритм анализирует количество свободных машин такси поблизости и стоимость поездки по этому маршруту за прошлые четыре недели: за эти дни набирается достаточно данных для оценки и при этом, как правило, похожи погодные и дорожные условия.
😻 #news
В приложении появился специальный график, который показывает, как будет меняться спрос. Алгоритм анализирует количество свободных машин такси поблизости и стоимость поездки по этому маршруту за прошлые четыре недели: за эти дни набирается достаточно данных для оценки и при этом, как правило, похожи погодные и дорожные условия.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥46❤10🤯6🌚1
Что такое adversarial validation
Это один из самых популярных примеров использования подмены задачи. Кстати, этот трюк пришел к нам из соревновательного ML. Его суть – в карточках.
😻 #train
Это один из самых популярных примеров использования подмены задачи. Кстати, этот трюк пришел к нам из соревновательного ML. Его суть – в карточках.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍20❤6🤔4🤯4🥰1