Data Secrets
77.4K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Про переобучение случайного леса

Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?

Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.

Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.

Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
59👍38🔥5😨4😐3🗿3🕊2
PointNet для облаков точек

Облака точек возникают во многих реальных задачах. Например, беспилотный автомобиль воспринимает окружающие его объекты в виде облака точек и строит между ними безопасный маршрут. Но чтобы извлечь из такого неупорядоченного облака структуру, нужно еще постараться. Один из вариантов – нейросеть PointNet.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍246😨5🤯3🗿31
#ЧиталиТвиттер и нашли такую схему. По нашему мнению, не хватает CatBoost, LGBM, и, кроме того, Julia и Wolfram Mathematicа. Что еще забыли?
👍416❤‍🔥5
Media is too big
VIEW IN TELEGRAM
AMD объявили о выходе новой видеокарты для обучения и инференса нейронных сетей — AMD MI300X

В ней 192 Gb VRAM (тем временем у Nvidia H100 80Gb), а ее пропускная способность памяти – 5.2Tb (y H100 3.35). На презентации также показывали, как карта легко тянет 40B языковую модель Falcon. Это первый девайс, который вмещает такую огромную модель. Кроме того, AMD заколлабились с PyTorch, и их софтовый стэк будет поддерживаться и обновляться в Pytorch 2.0.

Наконец-то игра набирает обороты, и у Nvidia появляются конкуренты

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍79🔥328🍌2
ARIMA

ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤‍🔥65🤔1
Играем в DS-термины, как в города

Мы начнём: трансформер. Продолжайте в комментариях ⬇️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🌚8🤓4
Функция where() в numpy VS в pandas

Рассказываем про каждую функцию отдельно и сравниваем их. Кстати, иногда pd.where() очень удобно использовать вместо apply, а заодно и время с памятью экономится.

😻 #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍698😨6
На словах ты Лев Толстой, а на тесте...

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60😁288👏4
Подборка ближайших хакатонов от нашей редакции

1) Рекламатон по анализу данных от МТС совместно с НИУ ВШЭ. Задача: нужно за два дня разработать прототип продукта и создать модель нового маркетингового инструмента для работы с Телеграм. Ищут "студентов владеющих навыками анализа данных в Python и готовых применить их в практической задаче". Победителям обещают оффер. Регистрация до 28 июня.

2) CodeRun. Нужно решать задачи с Тренировок по алгоритмам от Яндекса, Yandex Cup и многих других мероприятий. Чем больше решишь – тем выше рейтинг. Есть треки по анализу данных, мобильной разработке, фронтенду, бэкенду и ML2.

3) Соревнование по структуризации чеков ОФД. Соревнование на ODS от Альфы. Включает csv-соревнование, Docker-соревнование и доразметку. Идет до 1 июля.

4) ML мини-контест ВКонтакте. Первый этап – составление рекомендаций для пользователей. Следующие этапы открываются постепенно.

5) Profbuh hackathon. Командный хакатон (2-6 человек) с призовым фондом 300к. Кейс: автоматическое создание текстовых публикаций на основе записанного видео. Регистрация до 19 июня.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥95
This media is not supported in your browser
VIEW IN TELEGRAM
Google выкатили новую нейросеть, которая даёт примерить одежду

Нейросеть назвали TryOn Diffusion и уже внедрили в Google Shopping. ИИ создает реалистичные изображения одежды на реальных моделях с различными формами тела, позволяя клиентам видеть сложные детали, такие как драпировка одежды, растяжение и образование складок.

Архитектура основана на диффузии и алгоритме перекрестного внимания. Сила сети в том, что, в отличии от предыдущих работ, она решает задачи деформации одежды и сохранения ее деталей параллельно (это назвали Parallel-UNet), а не последовательно.

В Google признают, что работает сетка пока не идеально: есть некоторые проблемы с особенностями тел и сегментацией поз. Тем не менее, это новое интересное слово в онлайн-шоппинге и генеративном ИИ.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🤯15🔥53🙈1
Пиво и подгузники: введение в ассоциативные правила

Обучение на ассоциативных правилах (Associations rules learning, ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей в айтемсетах. По сути, это правила вида "Кто купил Х, тот купит У".

Впервые подробно об этом заговорил Piatesky-Shapiro G в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991). А в 1992 исследователи с помощью таких правил вывели очень интересную закономерность: с этой истории и начнем знакомство с ARL.

😻 #train
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍15🌚4
Нашли отличный гайд по SQL в виде схем Canvas

Сойдет также в виде красивой подробной шпаргалки. В документе есть все что нужно от уровня beginner и до advanced:

– введение в базы данных и основы инструкции SELECT
– синтаксис запросов и лучшие практики известных big Data компаний
– введение в основные понятия (например фильтрация и агрегирование)
– расширенные концепции, такие как оконные функции и массивы

А еще набор вопросов и задач для проверки знаний по каждому пункту, сторонние полезные ссылки и специальное руководство для тех, кто переходит на SQL с Excel. Из минусов: все по-английски. Но зато бесплатно и красиво!

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍476🤯5🤨3🔥1😨1