Про переобучение случайного леса
Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?
Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.
Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.
Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.
😻 #train
Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?
Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.
Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.
Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤59👍38🔥5😨4😐3🗿3🕊2
PointNet для облаков точек
Облака точек возникают во многих реальных задачах. Например, беспилотный автомобиль воспринимает окружающие его объекты в виде облака точек и строит между ними безопасный маршрут. Но чтобы извлечь из такого неупорядоченного облака структуру, нужно еще постараться. Один из вариантов – нейросеть PointNet.
😻 #NN
Облака точек возникают во многих реальных задачах. Например, беспилотный автомобиль воспринимает окружающие его объекты в виде облака точек и строит между ними безопасный маршрут. Но чтобы извлечь из такого неупорядоченного облака структуру, нужно еще постараться. Один из вариантов – нейросеть PointNet.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24⚡6😨5🤯3🗿3❤1
#ЧиталиТвиттер и нашли такую схему. По нашему мнению, не хватает CatBoost, LGBM, и, кроме того, Julia и Wolfram Mathematicа. Что еще забыли?
👍41⚡6❤🔥5
Media is too big
VIEW IN TELEGRAM
AMD объявили о выходе новой видеокарты для обучения и инференса нейронных сетей — AMD MI300X
В ней 192 Gb VRAM (тем временем у Nvidia H100 80Gb), а ее пропускная способность памяти – 5.2Tb (y H100 3.35). На презентации также показывали, как карта легко тянет 40B языковую модель Falcon. Это первый девайс, который вмещает такую огромную модель. Кроме того, AMD заколлабились с PyTorch, и их софтовый стэк будет поддерживаться и обновляться в Pytorch 2.0.
Наконец-то игра набирает обороты, и у Nvidia появляются конкуренты
😻 #news
В ней 192 Gb VRAM (тем временем у Nvidia H100 80Gb), а ее пропускная способность памяти – 5.2Tb (y H100 3.35). На презентации также показывали, как карта легко тянет 40B языковую модель Falcon. Это первый девайс, который вмещает такую огромную модель. Кроме того, AMD заколлабились с PyTorch, и их софтовый стэк будет поддерживаться и обновляться в Pytorch 2.0.
Наконец-то игра набирает обороты, и у Nvidia появляются конкуренты
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥32❤8🍌2
ARIMA
ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.
😻 #analytics #train
ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤🔥6❤5🤔1
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🌚8🤓4
Функция where() в numpy VS в pandas
Рассказываем про каждую функцию отдельно и сравниваем их. Кстати, иногда pd.where() очень удобно использовать вместо apply, а заодно и время с памятью экономится.
😻 #python
Рассказываем про каждую функцию отдельно и сравниваем их. Кстати, иногда pd.where() очень удобно использовать вместо apply, а заодно и время с памятью экономится.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍69❤8😨6
Подборка ближайших хакатонов от нашей редакции
1) Рекламатон по анализу данных от МТС совместно с НИУ ВШЭ. Задача: нужно за два дня разработать прототип продукта и создать модель нового маркетингового инструмента для работы с Телеграм. Ищут "студентов владеющих навыками анализа данных в Python и готовых применить их в практической задаче". Победителям обещают оффер. Регистрация до 28 июня.
2) CodeRun. Нужно решать задачи с Тренировок по алгоритмам от Яндекса, Yandex Cup и многих других мероприятий. Чем больше решишь – тем выше рейтинг. Есть треки по анализу данных, мобильной разработке, фронтенду, бэкенду и ML2.
3) Соревнование по структуризации чеков ОФД. Соревнование на ODS от Альфы. Включает csv-соревнование, Docker-соревнование и доразметку. Идет до 1 июля.
4) ML мини-контест ВКонтакте. Первый этап – составление рекомендаций для пользователей. Следующие этапы открываются постепенно.
5) Profbuh hackathon. Командный хакатон (2-6 человек) с призовым фондом 300к. Кейс: автоматическое создание текстовых публикаций на основе записанного видео. Регистрация до 19 июня.
😻 #advice
1) Рекламатон по анализу данных от МТС совместно с НИУ ВШЭ. Задача: нужно за два дня разработать прототип продукта и создать модель нового маркетингового инструмента для работы с Телеграм. Ищут "студентов владеющих навыками анализа данных в Python и готовых применить их в практической задаче". Победителям обещают оффер. Регистрация до 28 июня.
2) CodeRun. Нужно решать задачи с Тренировок по алгоритмам от Яндекса, Yandex Cup и многих других мероприятий. Чем больше решишь – тем выше рейтинг. Есть треки по анализу данных, мобильной разработке, фронтенду, бэкенду и ML2.
3) Соревнование по структуризации чеков ОФД. Соревнование на ODS от Альфы. Включает csv-соревнование, Docker-соревнование и доразметку. Идет до 1 июля.
4) ML мини-контест ВКонтакте. Первый этап – составление рекомендаций для пользователей. Следующие этапы открываются постепенно.
5) Profbuh hackathon. Командный хакатон (2-6 человек) с призовым фондом 300к. Кейс: автоматическое создание текстовых публикаций на основе записанного видео. Регистрация до 19 июня.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥9❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатили новую нейросеть, которая даёт примерить одежду
Нейросеть назвали TryOn Diffusion и уже внедрили в Google Shopping. ИИ создает реалистичные изображения одежды на реальных моделях с различными формами тела, позволяя клиентам видеть сложные детали, такие как драпировка одежды, растяжение и образование складок.
Архитектура основана на диффузии и алгоритме перекрестного внимания. Сила сети в том, что, в отличии от предыдущих работ, она решает задачи деформации одежды и сохранения ее деталей параллельно (это назвали Parallel-UNet), а не последовательно.
В Google признают, что работает сетка пока не идеально: есть некоторые проблемы с особенностями тел и сегментацией поз. Тем не менее, это новое интересное слово в онлайн-шоппинге и генеративном ИИ.
😻 #news
Нейросеть назвали TryOn Diffusion и уже внедрили в Google Shopping. ИИ создает реалистичные изображения одежды на реальных моделях с различными формами тела, позволяя клиентам видеть сложные детали, такие как драпировка одежды, растяжение и образование складок.
Архитектура основана на диффузии и алгоритме перекрестного внимания. Сила сети в том, что, в отличии от предыдущих работ, она решает задачи деформации одежды и сохранения ее деталей параллельно (это назвали Parallel-UNet), а не последовательно.
В Google признают, что работает сетка пока не идеально: есть некоторые проблемы с особенностями тел и сегментацией поз. Тем не менее, это новое интересное слово в онлайн-шоппинге и генеративном ИИ.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🤯15🔥5❤3🙈1
Пиво и подгузники: введение в ассоциативные правила
Обучение на ассоциативных правилах (Associations rules learning, ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей в айтемсетах. По сути, это правила вида "Кто купил Х, тот купит У".
Впервые подробно об этом заговорил Piatesky-Shapiro G в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991). А в 1992 исследователи с помощью таких правил вывели очень интересную закономерность: с этой истории и начнем знакомство с ARL.
😻 #train
Обучение на ассоциативных правилах (Associations rules learning, ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей в айтемсетах. По сути, это правила вида "Кто купил Х, тот купит У".
Впервые подробно об этом заговорил Piatesky-Shapiro G в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991). А в 1992 исследователи с помощью таких правил вывели очень интересную закономерность: с этой истории и начнем знакомство с ARL.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍15🌚4
Нашли отличный гайд по SQL в виде схем Canvas
Сойдет также в виде красивой подробной шпаргалки. В документе есть все что нужно от уровня beginner и до advanced:
– введение в базы данных и основы инструкции SELECT
– синтаксис запросов и лучшие практики известных big Data компаний
– введение в основные понятия (например фильтрация и агрегирование)
– расширенные концепции, такие как оконные функции и массивы
А еще набор вопросов и задач для проверки знаний по каждому пункту, сторонние полезные ссылки и специальное руководство для тех, кто переходит на SQL с Excel. Из минусов: все по-английски. Но зато бесплатно и красиво!
😻 #advice
Сойдет также в виде красивой подробной шпаргалки. В документе есть все что нужно от уровня beginner и до advanced:
– введение в базы данных и основы инструкции SELECT
– синтаксис запросов и лучшие практики известных big Data компаний
– введение в основные понятия (например фильтрация и агрегирование)
– расширенные концепции, такие как оконные функции и массивы
А еще набор вопросов и задач для проверки знаний по каждому пункту, сторонние полезные ссылки и специальное руководство для тех, кто переходит на SQL с Excel. Из минусов: все по-английски. Но зато бесплатно и красиво!
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47❤6🤯5🤨3🔥1😨1