Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
👅 Модель распознавания языка

Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.

🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.

https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb

#ML #AI

Data Secrets
👍11🔥2🤯2
🌲 Посмеется ли друг над мемом и причем тут деревья?

🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?

Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.

🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать

#ML #алгоритмы

Data Secrets
👍10🔥4👏1🤯1
📌 IML – что это?

Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.

Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.

Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁‍♂️

#ML

Data Secrets
👍63👏1
⚡️ Прогнозирование цены на электичество

Прогнозирование цены на электроэнергию помогает многим предприятиям понять, какую сумму за электроэнергию они должны выплачивать каждый год.

В этом колабе мы рассмотрим, как сделать такой прогноз с помощью машинного обучения с использованием Python. Используем алгоритм Random Forest и корреляционный анализ.

Обучить самому и поиграть 👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/ElectricityPricePrediction.ipynb

#ML #прогнозирование

Data Secrets
👍1011❤‍🔥1
Внедрение моделей машинного обучения в бизнес – как делать красиво?

➡️ Ты пишешь крутую модель машинного обучения.
➡️ Ее покупает большая компания, которая просит тебя задеплоить модель в продакшн.
➡️ Ты справился, модель работает, а заказчик недоволен.

Почему? Скорее всего, ты забыл о важных правилах развертывания моделей в бизнесе. Рассказываем, как делать правильно ✔️

#ML #production

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Распознавание лиц, математика и черно-белые прямоугольники

Наверное, ты уже не раз сталкивался с технологией распознавания лиц. А задумывался ли, как это работает? Разбираемся, как айфон понимает, что ты это ты, и при чем тут векторы 🍎

#AI #ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
Предсказание цены криптовалюты

Все слышали про криптовалюту. Многие даже инвестировали в нее. Bitcoin, Ethereum и Binance Coin… Чего там только нет 💸

В этом колабе мы решили показать, как предсказывать цену криптовалюты с помощью машинного обучения и Python. Кстати, мы придумали хитрость: когда бы ты не запустил код, модель будет обучаться на самых свежих данных. То есть прогноз всегда будет актуален ✌️

👀 Посмотреть -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/rrr.ipynb

#прогнозирование #ML

Data Secrets
👍8🔥6🤯41
↪️ TD-IDF и векторизация текста

С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах ⚙️

Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.

#NLP #ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
Что такое повторное обучение?🍎

Разобрали для вас по полочкам, что такое повторное обучение(не путаться с переобучением), зачем оно нужно и как его внедрить ✔️

#ML #MlOps #info

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3💋31
🔩 Функция активации.

Является основным инструментом для задач классификации и нейронных сетей 💩

Чтобы лучше понять, что это такое, смотри наш небольшой экскурс.

#ML #AI

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🐳7🍌32
Кодирование категориальных переменных: Frequency Encoding

Люди умеют разговаривать на языке категорий: мы понимаем, что такое, например, “синий” и “красный”. А машины различают только числа. Чтобы найти общий язык, нам нужен переводчик. Рассказываем про кодирование категориальных переменных и один из вариантов “перевода”🌐

#ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍196🍌4
💡 Кодирование категориальных переменных PART 2: One Hot Encoding, Label Encoding

Разобрались до этого с одним из методов кодирования. Но этого явно мало. Рассказываем про еще 2 популярных метода 🤖

#ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍135🍌5🤨3
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️ Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️ NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️ Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️ RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍227🔥7