Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
📌 Этапы решения задачи машинного обучения

Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?

👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов

#ML

Data Secrets
🔥10👍6
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Алгоритмы ИИ для удаления водяных знаков с картинок

модель сначала предсказывает местоположение водяного знака на изображении
затем отделяет цвета водяного знака от фона изображения
и востанавливает фон области, где находился вотермарк

👉 Попробовать

#AI #ML

Data Secrets
👍104👏2
💥 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях

Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”

👉 Здесь можно посмотреть список спикеров и топиков

Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.

#info #GNN #ML

Data Secrets
👍8👏2
Все время слышишь о нейросети DALLE

Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст

👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb

#ML #NN

Data Secrets
👍7😍5🔥4
📌 Корреляционные тесты

Корреляционный анализ – одна из основных тем в статистике и машинном обучении. Это метод изучения взаимосвязи между двумя и более случайными величинами(выбоками).

🚕 🌤 Например, тебе нужно проверить, зависит ли спрос на такси от температуры на улице. Тут помогут корреляционные тесты. А что это? И какими они бывают?

В этой заметке перечисляем четыре самых важных и нужных теста, которые пригодятся в любой области Data Science ипоказываем, как использовать их в Python.

#статистика #ML #python

Data Secrets
7
👅 Модель распознавания языка

Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.

🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.

https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb

#ML #AI

Data Secrets
👍11🔥2🤯2
🌲 Посмеется ли друг над мемом и причем тут деревья?

🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?

Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.

🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать

#ML #алгоритмы

Data Secrets
👍10🔥4👏1🤯1
📌 IML – что это?

Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.

Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.

Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁‍♂️

#ML

Data Secrets
👍63👏1
⚡️ Прогнозирование цены на электичество

Прогнозирование цены на электроэнергию помогает многим предприятиям понять, какую сумму за электроэнергию они должны выплачивать каждый год.

В этом колабе мы рассмотрим, как сделать такой прогноз с помощью машинного обучения с использованием Python. Используем алгоритм Random Forest и корреляционный анализ.

Обучить самому и поиграть 👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/ElectricityPricePrediction.ipynb

#ML #прогнозирование

Data Secrets
👍1011❤‍🔥1
Внедрение моделей машинного обучения в бизнес – как делать красиво?

➡️ Ты пишешь крутую модель машинного обучения.
➡️ Ее покупает большая компания, которая просит тебя задеплоить модель в продакшн.
➡️ Ты справился, модель работает, а заказчик недоволен.

Почему? Скорее всего, ты забыл о важных правилах развертывания моделей в бизнесе. Рассказываем, как делать правильно ✔️

#ML #production

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Распознавание лиц, математика и черно-белые прямоугольники

Наверное, ты уже не раз сталкивался с технологией распознавания лиц. А задумывался ли, как это работает? Разбираемся, как айфон понимает, что ты это ты, и при чем тут векторы 🍎

#AI #ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
Предсказание цены криптовалюты

Все слышали про криптовалюту. Многие даже инвестировали в нее. Bitcoin, Ethereum и Binance Coin… Чего там только нет 💸

В этом колабе мы решили показать, как предсказывать цену криптовалюты с помощью машинного обучения и Python. Кстати, мы придумали хитрость: когда бы ты не запустил код, модель будет обучаться на самых свежих данных. То есть прогноз всегда будет актуален ✌️

👀 Посмотреть -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/rrr.ipynb

#прогнозирование #ML

Data Secrets
👍8🔥6🤯41
↪️ TD-IDF и векторизация текста

С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах ⚙️

Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.

#NLP #ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
Что такое повторное обучение?🍎

Разобрали для вас по полочкам, что такое повторное обучение(не путаться с переобучением), зачем оно нужно и как его внедрить ✔️

#ML #MlOps #info

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3💋31
🔩 Функция активации.

Является основным инструментом для задач классификации и нейронных сетей 💩

Чтобы лучше понять, что это такое, смотри наш небольшой экскурс.

#ML #AI

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🐳7🍌32
Кодирование категориальных переменных: Frequency Encoding

Люди умеют разговаривать на языке категорий: мы понимаем, что такое, например, “синий” и “красный”. А машины различают только числа. Чтобы найти общий язык, нам нужен переводчик. Рассказываем про кодирование категориальных переменных и один из вариантов “перевода”🌐

#ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🍌4
💡 Кодирование категориальных переменных PART 2: One Hot Encoding, Label Encoding

Разобрались до этого с одним из методов кодирования. Но этого явно мало. Рассказываем про еще 2 популярных метода 🤖

#ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🍌5🤨3
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️ Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️ NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️ Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️ RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥7