Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
📌 Кросс - валидация

Кросс-валидация — это метод, предназначенный для оценки качества работы модели, широко применяемый в машинном обучении. Он помогает сравнить между собой различные модели и выбрать наилучшую для конкретной задачи

🧩 Суть метода заключается в том, что датасет разбивается на k одинаковых частей (фолдов), а потом проиисходит k итераций, во время каждой из которых один фолд выступает в роли тестового множества, а объединение остальных — в роли тренировочного. Финальный скор получается усреднением полученных оценок 📊

#метрики #junior

Data Secrets
6👍4
📌 Этапы решения задачи машинного обучения

Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?

👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов

#ML

Data Secrets
🔥10👍6
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Алгоритмы ИИ для удаления водяных знаков с картинок

модель сначала предсказывает местоположение водяного знака на изображении
затем отделяет цвета водяного знака от фона изображения
и востанавливает фон области, где находился вотермарк

👉 Попробовать

#AI #ML

Data Secrets
👍104👏2
📌 Построение графиков в matplotlib

Один рисунок может заменить тысячу слов. К счатью, чтобы строить графики в matplotlib, слов потребуется меньше 😜

📊Библиотека matplotlib - это бибилиотека двумерной графики для с помощью которой можно создавать высококачественные рисунки различных форматов

Наш краткий обзор на наглядных примерах познакомит тебя с возможностями этой библиотеки. Переходи по ссылке и нарисуй красивую картинку сам ⚡️

#визуализация

Data Secrets
🔥9👍5
💥 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях

Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”

👉 Здесь можно посмотреть список спикеров и топиков

Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.

#info #GNN #ML

Data Secrets
👍8👏2
📌 Матричные операции в numpy

💊 Матрица - это двухмерная структура данных, в которой числа расположены в строках и столбцах. Для Data Science это незаменимая структура данных.

В numpy представлено множество функций, которые позволяют эффективно работать с матрицами. Наш интерактивный гайд поможет разобраться с основными.

Запусти все примеры сам и выполни задание, чтобы точно усвоить тему 💣

#junior #numpy

Data Secrets
👍11🤯4
Ленивый четверг 🥱
👍26
Все время слышишь о нейросети DALLE

Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст

👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb

#ML #NN

Data Secrets
👍7😍5🔥4
📌 Мудрость толпы

На сельской ярмарке 1906 года в Плимуте 800 человек участвовали в конкурсе, где нужно было угадать вес убитого и освежёванного быка. Назывались самые разные числа, а после ярмарки статистик Фрэнсис Гальтон посчитал медиану всех вариантов и получил 547 кг, тогда как действительный вес составлял 543 кг, то есть коллективная ошибка составила менее 1%. 🤯

🧮 Подобная точность в оценке параметров или количества каких-либо предметов ещё не раз наблюдалась в экспериментах в разных странах. Этому статистическому феномену дали название «мудрость толпы».

#статистика

Data Secrets
🔥16👍12
📌 Корреляционные тесты

Корреляционный анализ – одна из основных тем в статистике и машинном обучении. Это метод изучения взаимосвязи между двумя и более случайными величинами(выбоками).

🚕 🌤 Например, тебе нужно проверить, зависит ли спрос на такси от температуры на улице. Тут помогут корреляционные тесты. А что это? И какими они бывают?

В этой заметке перечисляем четыре самых важных и нужных теста, которые пригодятся в любой области Data Science ипоказываем, как использовать их в Python.

#статистика #ML #python

Data Secrets
7
📌 Как работает ИИ в TikTok?

Задумывались, в чем волшебство сенсационного ТикТока, который так всех увлек? Ответ прост - система рекомендаций, поддерживаемая машинным обучением.

В этом переводе известной статьи расскажут про основы, особенности и алгоритмы рекоммендательной системы TikTok. После прочтения точно станет ясно, как TikTok сделал своего пользователя таким зависимым 🔥

👉 Читать

#статьи #рекомендации #AI

Data Secrets
❤‍🔥7👍3
This media is not supported in your browser
VIEW IN TELEGRAM
🎯 Вывод результатов всех операций в Jupyter Notebook

По умолчанию в Jupyter при выполнении ячейки выводится только результат последней операции. Это не всегда удобно. Так вот у нас есть лайфхак 🔥

Чтобы печаталось всё, скопируйте и выполните этот код в вашем блокноте:

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"


Минус подхода в том, что иногда выводиться будет чрезмерно много информации. Чтобы этого избежать, добавьте точку с запятой в конце строки, вывод которой вам не нужен 😉

#рекомендации #IDE

Data Secrets
👍131👏1
👅 Модель распознавания языка

Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.

🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.

https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb

#ML #AI

Data Secrets
👍11🔥2🤯2
📊 SQL: SELECT и компания

Мы продолжаем погружаться в SQL - язык управления базами данных, который необходимо знать каждому анатилику.

🧩 Сегодня разбираемся c самыми важными операторами: SELECT, WHERE и ORDER BY

#SQL #БД

Data Secrets
👍112👏1
Deep Learning_Gibson_Patterson.pdf
14.8 MB
📕 Глубокое обучение с точки зрения практика
✍️ Гибсон, Паттерсон
2018

О сложном простым языком. Авторы сначала раскрывают фундаментальные вопросы глубокого обучения, а затем переходят к библиотеке DL4J, предназначенной для разработки технологических процессов профессионального уровня. В процессе чтения можно с нуля создать нейронную сеть. На реальных примерах читатель познакомится с методами и стратегиями обучения глубоких сетей и с различной архитектурой и их распараллеливания в кластерах.

#литература

Data Secrets
👍7🔥3👏1
🤖 Как прикрутить Google аналитику к Telegram боту на aiogram

Google объявил о закрытии Universal Analytics и полном переходе на Google Analytics 4. Теперь, если ты хочешь получать максимум статистической информации о работе своего бота, поможет именно Google Analytics. Проблема в том, что этот инструмент заточен под сайты...

🧨 Но в этой статье уже рассказали о том, как преодолеть все трудности. В качестве примера используется связка python + aiogram, однако текст актуален и для любого другого решения.

👉 Прочитать можно здесь

#статистика #боты

Data Secrets
👍7
🌲 Посмеется ли друг над мемом и причем тут деревья?

🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?

Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.

🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать

#ML #алгоритмы

Data Secrets
👍10🔥4👏1🤯1
📌 IML – что это?

Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.

Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.

Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁‍♂️

#ML

Data Secrets
👍63👏1
Учите статистику 🥺
25👍8🔥3
📌 Нормальное распределение

Нормальное (гауссово) распределение - это вероятностное распределение, которое показывает, что данные вблизи среднего встречаются чаще, чем данные, далекие от среднего. На графике оно выглядит как колокол.

Предположение о нормальном распределении применяется например к ценам активов, а также к ценовой деятельности 💰

#статистика

Data Secrets
👍11👏1💯1