Data Secrets
77.4K subscribers
6.04K photos
593 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
🎯 Новое соревнование на Kaggle

🐎Задача посвящена скачкам. По данным о прошедших турнирах и состоянии лошадей нужно предсказывать наилучшую стратегию для следующих забегов.

Соревнование спонсируется Нью-Йоркской ассоциацией скачек. Главный приз - $20,000 💸

Ссылка на соревнование

#info

Data Secrets
6👍1
📌 Как брать производную?

Знание основ мат.анализа - необходимая база любого, кто интересуется наукой о данных. А в анализе нет ничего проще производных!
Изучив их, ты будешь готов нырять в нейронки, исследовать функции и лучше поймешь алгоритмы машинного обучения 🤓

💥 В помощь подготовили подсказку, в которой уместилось всё, что нужно знать и ничего лишнего

#матанализ

Data Secrets
👏13👍4🍓2🤯1
Data Secrets
📌 Как брать производную? Знание основ мат.анализа - необходимая база любого, кто интересуется наукой о данных. А в анализе нет ничего проще производных! Изучив их, ты будешь готов нырять в нейронки, исследовать функции и лучше поймешь алгоритмы машинного…
📝 Тест по производным

🧑‍💻 Производные - основы основ матанализа. Мы приготовили для тебя тест, который определит, насколько ты в них разбираешься 😌

Лайфхак: пользуйся нашей шпаргалкой и точно выбьешь 5/5

Проверь себя 👇

#тесты
5👍2
🔥Самые горячие клавиши Jupyter

Чтобы переключиться в режим редактирования, используй ESC

👉 В режиме редактирования:

00 - перезапустит ядро
B - добавит пустую ячейку снизу
Z - отменит удаление ячейки
Shift + M - объединит выбранные ячейки
Control + Shift + -  - разделит код на разные ячейки

👀 Все горячие клавиши можно посмотреть прямо в блокноте с помощью Help -> Keyboard Shortcuts

#IDE #рекомендации

Data Secrets
👍4❤‍🔥21
This media is not supported in your browser
VIEW IN TELEGRAM
📌 Инструмент DataGrid от JetBrains

DataGrip - это новая среда управления базами данных. Он поддерживает MySQL, PostgreSQL, Oracle и др.

Вот несколько уникальных фишек сервиса:
🔘Диаграмммы зависимостей и визуализация
🔘Полностью настраиваемый интерфейс
🔘Встроенное форматирование и автодополнение кода

Плюсы: удобный интерфейс и все необходимое, чтобы эффективно работать с данными

Минусы: встречаются баги, к тому же инструмент платный

В этом видео рассказали обо всем, что умеет DataGrid. Скачать и воспользоваться пробной бесплатной версией можно здесь.

#IDE

Data Secrets
👍4🔥2😍2🌚1
📝Leveraging Distribution Alignment via Stein Path for Cross-Domain Cold-Start Recommendation

Сегодня разбираем статью с NeurIPS: крупнейшей конференции по ML 🤓

Представь, что ты знаешь, какие фильмы (горячие айтемы) предпочитает пользователь, и на основе этого хочешь порекомендовать ему книги (холодные айтемы). При этом о книжных предпочтениях пользователя ничего не известно. Эту проблему называют проблемой холодного старта 🧊

Авторы предлагают решение на основе использования контентной и коллаборативной информации о горячих айтемах. Также предлагается вариация поиска пути Штейна, применение которого существенно снижает временную сложность🏃

Прочитать статью полностью можно здесь.

#разбор_статей

Data Secrets
👍5🤯1💯1
Когда ищешь ошибку в коде 😁

Data Secrets
👏10👍32🤯2
📌 Расстояние Левенштейна

Расстояние Левенштейна (редакционное расстояние) — метрика cходства между двумя строками. Чем больше расстояние, тем более они различны.

Метрика названа в честь советского математика, выпускника мехмата МГУ Владимира Левенштейна. Он всю жизнь проработал в Институте Прикладной Математики им. М.В.Келдыша, умер в 2017 году.

Расстояние Левенштейна активно используется для исправления ошибок в словах, поиска дубликатов текстов, сравнения геномов и прочих символьных операций 👍

#метрики

Data Secrets
👍5🔥5
Плейлист на Youtube с курсом по машинному обучению

Видео для тех, кто хочет разобраться в обширной теме машинного обучения и определиться с карьерным вектором. Лекции ведет профессор МФТИ К. В. Воронцов.

Метрики, классификация и регрессия, рекоммендательные системы и даже обучение с подкрплением

👉 Посмотреть можно здесь

#info

Data Secrets
👍10👏21
📌 Сортировка данных в pandas

Датафрейм – это что-то вроде таблицы, он тоже состоит из строк и столбцов. В pandas мы можем сортировать фрейм данных по одному столбцу, по нескольким столбцам или по индексу 📈

#pandas #junior

Data Secrets
11👍3
Рассел М. - Data Mining.pdf
32.2 MB
📗Data Mining
✍️ Мэтью Рассел
⌛️3-е издание [2020]

В книге рассматривается процесс извлечения и анализа информации на примерах популярных социальных сетей — Twitter, Facebook, LinkedIn и Instagram. Вы узнаете, как работать с этими данными данные, используя код на Python, Jupyter Notebook или контейнеры Docker.

Наша оценка: 10/10 👍

#литература

Data Secrets
👍13❤‍🔥3
📌 Кросс - валидация

Кросс-валидация — это метод, предназначенный для оценки качества работы модели, широко применяемый в машинном обучении. Он помогает сравнить между собой различные модели и выбрать наилучшую для конкретной задачи

🧩 Суть метода заключается в том, что датасет разбивается на k одинаковых частей (фолдов), а потом проиисходит k итераций, во время каждой из которых один фолд выступает в роли тестового множества, а объединение остальных — в роли тренировочного. Финальный скор получается усреднением полученных оценок 📊

#метрики #junior

Data Secrets
6👍4
📌 Этапы решения задачи машинного обучения

Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?

👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов

#ML

Data Secrets
🔥10👍6
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Алгоритмы ИИ для удаления водяных знаков с картинок

модель сначала предсказывает местоположение водяного знака на изображении
затем отделяет цвета водяного знака от фона изображения
и востанавливает фон области, где находился вотермарк

👉 Попробовать

#AI #ML

Data Secrets
👍104👏2
📌 Построение графиков в matplotlib

Один рисунок может заменить тысячу слов. К счатью, чтобы строить графики в matplotlib, слов потребуется меньше 😜

📊Библиотека matplotlib - это бибилиотека двумерной графики для с помощью которой можно создавать высококачественные рисунки различных форматов

Наш краткий обзор на наглядных примерах познакомит тебя с возможностями этой библиотеки. Переходи по ссылке и нарисуй красивую картинку сам ⚡️

#визуализация

Data Secrets
🔥9👍5
💥 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях

Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”

👉 Здесь можно посмотреть список спикеров и топиков

Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.

#info #GNN #ML

Data Secrets
👍8👏2
📌 Матричные операции в numpy

💊 Матрица - это двухмерная структура данных, в которой числа расположены в строках и столбцах. Для Data Science это незаменимая структура данных.

В numpy представлено множество функций, которые позволяют эффективно работать с матрицами. Наш интерактивный гайд поможет разобраться с основными.

Запусти все примеры сам и выполни задание, чтобы точно усвоить тему 💣

#junior #numpy

Data Secrets
👍11🤯4
Ленивый четверг 🥱
👍26
Все время слышишь о нейросети DALLE

Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст

👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb

#ML #NN

Data Secrets
👍7😍5🔥4
📌 Мудрость толпы

На сельской ярмарке 1906 года в Плимуте 800 человек участвовали в конкурсе, где нужно было угадать вес убитого и освежёванного быка. Назывались самые разные числа, а после ярмарки статистик Фрэнсис Гальтон посчитал медиану всех вариантов и получил 547 кг, тогда как действительный вес составлял 543 кг, то есть коллективная ошибка составила менее 1%. 🤯

🧮 Подобная точность в оценке параметров или количества каких-либо предметов ещё не раз наблюдалась в экспериментах в разных странах. Этому статистическому феномену дали название «мудрость толпы».

#статистика

Data Secrets
🔥16👍12