Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Forwarded from class Python
4 способа фильтрации данных с помощью pandas\numpy 🌸

💜 // class Python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
23👍10🔥3🤨2😐2
Object Importance

Это метод, который позволяет определить, как каждая запись трейна влияет на метрику.
Другими словами, он позволяет найти и избавится от бесполезных записей (шум или выбросы, например).

Этот метод хорошо реализован в Catboost:

train_pool = Pool(X_train, y_train)
val_pool = Pool(X_val, y_val)
cb = CatBoost({'eval_metric': 'RMSE'})
cb.fit(train_pool)
indices, scores = cb.get_object_importance(
val_pool,
train_pool,
importance_values_sign='Positive')

В функции доступны три метода расчета: SinglePoint (быстрый, но самый неточный), TopKLeaves ( помедленнее и поточнее) и AllPoints (долгий и самый точный).

Отрицательные значения означают, что строка уменьшает значение метрики, а положительные - что увеличивает. В зависимости от метрики нужно обратить внимание на значения определенного знака. После этого можно попробовать выкинуть плохо влияющие записи и переобучить модель.

Вот здесь есть еще туториал по использованию.

😻 #train #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥9
This media is not supported in your browser
VIEW IN TELEGRAM
Нашли аи-тул для генерации 360-градусных сцен с помощью эскиза. Все, что вы нарисуете, доточится до правильных пропорций, на это наложатся структуры и освещение и вуаля – готовый скайбокс. Можно даже заказать доступ к API (вдруг решите уйти из даты в геймдев).

Кстати, работает все это просто на модифицированной Stable Diffusion.

Вот тут можно поиграться.

😻 #news
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19🤯9🔥4
И снова доброе субботнее 🌸

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
47
Как по книжкам познать математику для машинного обучения и анализа данных?

Наша подборка в помощь: собрали как русскоязычные, так и англоязычные книги для любого уровня подготовки.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3015
ML Model Watermarking

SAP выкатили инструмент для защиты моделей машинного обучения от «заимствований». Суть – добавление водяных знаков в веса модели на основных фреймворках: Scikit-learn, PyTorch, HuggingFace.

Авторы утверждают, что добавление водяных знаков не сильно влияет на точность модели, зато позволит доказать владение. Вопрос в том, как вотермарки будут выдерживать файнтюнинг.

https://github.com/SAP/ml-model-watermarking

😻 #news #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
🤨33👍73
Препарируем нормальное распределение

А вы когда-нибудь задумывались, как на свет появилось нормальное распределение и почему его формула выглядит именно так? Почему там экспонента? Почему минус? Зачем делить на 2 сигма-квадрат? Откуда взялось число Пи? Рассказываем.

😻 #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
61👍30🔥11🏆4
Machine Learning и Data Science: 6 бесплатных курсов от Google

В начале 2023 года Google открыла доступ к 14 бесплатным курсам по Data Science, маркетингу, Machine Learning и др. Собрали 6 из них в нашем дайджесте. Ссылки – в комментариях.

😻 #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍8