Data Secrets – Telegram

Data Secrets

77.4K subscribers

6.04K photos

592 videos

20 files

2.42K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.4K subscribers

Про переобучение случайного леса

Вопрос про переобучение случайного леса и бустинга часто встречается на собеседованиях. Звучит он примерно так: объясните, от чего может переобучиться случайный лес, и в чем тут разница с бустингом?

Часто кандидаты отвечают: «Случайный лес не может переобучиться вообще, в отличии от бустинга». Но это правильно только отчасти.

Правильнее было бы сказать: случайный лес, в отличие от бустинга, не может переобучиться от увеличения количества деревьев. Это происходит потому что случайный лес усредняет предсказания всех деревьев. Это легко понять, если провести аналогию со средним генеральной совокупности. Возьмем из нее два случайных экземпляра и посчитаем их среднее. Очевидно, что это среднее будет сильно отличаться от среднего генеральной совокупности. Но если мы возьмем 1 000 000 случайных экземпляров, то среднее будет очень близко к генеральной совокупности, и добавление миллион первого, второго, третьего экземпляра сильно на среднее не повлияет.

Однако случайный лес все-таки может переобучиться, если задать большую глубину деревьев. Скажем, глубина 1000 – прямой путь к оверфиту, ведь тогда алгоритм просто выучит трейн.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

❤59👍38🔥5😨4😐3🗿3🕊2

7.57K views16:33

PointNet для облаков точек

Облака точек возникают во многих реальных задачах. Например, беспилотный автомобиль воспринимает окружающие его объекты в виде облака точек и строит между ними безопасный маршрут. Но чтобы извлечь из такого неупорядоченного облака структуру, нужно еще постараться. Один из вариантов – нейросеть PointNet.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24⚡6😨5🤯3🗿3❤1

7.43K views09:12

#ЧиталиТвиттер и нашли такую схему. По нашему мнению, не хватает CatBoost, LGBM, и, кроме того, Julia и Wolfram Mathematicа. Что еще забыли?

👍41⚡6❤‍🔥5

7.57K views14:17

Media is too big

VIEW IN TELEGRAM

AMD объявили о выходе новой видеокарты для обучения и инференса нейронных сетей — AMD MI300X

В ней 192 Gb VRAM (тем временем у Nvidia H100 80Gb), а ее пропускная способность памяти – 5.2Tb (y H100 3.35). На презентации также показывали, как карта легко тянет 40B языковую модель Falcon. Это первый девайс, который вмещает такую огромную модель. Кроме того, AMD заколлабились с PyTorch, и их софтовый стэк будет поддерживаться и обновляться в Pytorch 2.0.

Наконец-то игра набирает обороты, и у Nvidia появляются конкуренты

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍79🔥32❤8🍌2

8K views09:27

ARIMA

ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.

😻

#analytics #train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍45❤‍🔥6❤5🤔1

7.41K views12:43

Играем в DS-термины, как в города

Мы начнём: трансформер. Продолжайте в комментариях ⬇️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍27🌚8🤓4

6.86K views16:11

Функция where() в numpy VS в pandas

Рассказываем про каждую функцию отдельно и сравниваем их. Кстати, иногда pd.where() очень удобно использовать вместо apply, а заодно и время с памятью экономится.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍69❤8😨6

7.07K views09:04

На словах ты Лев Толстой, а на тесте...

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍60😁28❤8👏4

7.14K views13:27

Подборка ближайших хакатонов от нашей редакции

1) Рекламатон по анализу данных от МТС совместно с НИУ ВШЭ. Задача: нужно за два дня разработать прототип продукта и создать модель нового маркетингового инструмента для работы с Телеграм. Ищут "студентов владеющих навыками анализа данных в Python и готовых применить их в практической задаче". Победителям обещают оффер. Регистрация до 28 июня.

2) CodeRun. Нужно решать задачи с Тренировок по алгоритмам от Яндекса, Yandex Cup и многих других мероприятий. Чем больше решишь – тем выше рейтинг. Есть треки по анализу данных, мобильной разработке, фронтенду, бэкенду и ML2.

3) Соревнование по структуризации чеков ОФД. Соревнование на ODS от Альфы. Включает csv-соревнование, Docker-соревнование и доразметку. Идет до 1 июля.

4) ML мини-контест ВКонтакте. Первый этап – составление рекомендаций для пользователей. Следующие этапы открываются постепенно.

5) Profbuh hackathon. Командный хакатон (2-6 человек) с призовым фондом 300к. Кейс: автоматическое создание текстовых публикаций на основе записанного видео. Регистрация до 19 июня.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍29🔥9❤5

7.49K views16:43

This media is not supported in your browser

VIEW IN TELEGRAM

Google выкатили новую нейросеть, которая даёт примерить одежду

Нейросеть назвали TryOn Diffusion и уже внедрили в Google Shopping. ИИ создает реалистичные изображения одежды на реальных моделях с различными формами тела, позволяя клиентам видеть сложные детали, такие как драпировка одежды, растяжение и образование складок.

Архитектура основана на диффузии и алгоритме перекрестного внимания. Сила сети в том, что, в отличии от предыдущих работ, она решает задачи деформации одежды и сохранения ее деталей параллельно (это назвали Parallel-UNet), а не последовательно.

В Google признают, что работает сетка пока не идеально: есть некоторые проблемы с особенностями тел и сегментацией поз. Тем не менее, это новое интересное слово в онлайн-шоппинге и генеративном ИИ.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40🤯15🔥5❤3🙈1

7.16K views08:50

Пиво и подгузники: введение в ассоциативные правила

Обучение на ассоциативных правилах (Associations rules learning, ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей в айтемсетах. По сути, это правила вида "Кто купил Х, тот купит У".

Впервые подробно об этом заговорил Piatesky-Shapiro G в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991). А в 1992 исследователи с помощью таких правил вывели очень интересную закономерность: с этой истории и начнем знакомство с ARL.

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥29👍15🌚4

8.36K views11:36

Нашли отличный гайд по SQL в виде схем Canvas

Сойдет также в виде красивой подробной шпаргалки. В документе есть все что нужно от уровня beginner и до advanced:

– введение в базы данных и основы инструкции SELECT
– синтаксис запросов и лучшие практики известных big Data компаний
– введение в основные понятия (например фильтрация и агрегирование)
– расширенные концепции, такие как оконные функции и массивы

А еще набор вопросов и задач для проверки знаний по каждому пункту, сторонние полезные ссылки и специальное руководство для тех, кто переходит на SQL с Excel. Из минусов: все по-английски. Но зато бесплатно и красиво!

😻

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍47❤6🤯5🤨3🔥1😨1

8.27K views15:03