Data Secrets

📌 Этапы решения задачи машинного обучения

Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?

👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов

#ML

Data Secrets

🔥10👍6

2.09K views11:53

Data Secrets

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

🤯 Алгоритмы ИИ для удаления водяных знаков с картинок

➖модель сначала предсказывает местоположение водяного знака на изображении
➖затем отделяет цвета водяного знака от фона изображения
➖и востанавливает фон области, где находился вотермарк

👉 Попробовать

#AI #ML

Data Secrets

👍10⚡4👏2

2.16K views12:40

Data Secrets

💥 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях

Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”

👉 Здесь можно посмотреть список спикеров и топиков

Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.

#info #GNN #ML

Data Secrets

👍8👏2

1.84K views08:11

Data Secrets

Все время слышишь о нейросети DALLE❓

Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст ✨

👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb

#ML #NN

Data Secrets

👍7😍5🔥4

3.21K views12:33

Data Secrets

📌 Корреляционные тесты

Корреляционный анализ – одна из основных тем в статистике и машинном обучении. Это метод изучения взаимосвязи между двумя и более случайными величинами(выбоками).

🚕 🌤 Например, тебе нужно проверить, зависит ли спрос на такси от температуры на улице. Тут помогут корреляционные тесты. А что это? И какими они бывают?

В этой заметке перечисляем четыре самых важных и нужных теста, которые пригодятся в любой области Data Science ипоказываем, как использовать их в Python.

#статистика #ML #python

Data Secrets

⚡7

2.09K views13:07

🧑‍🔬Провести тесты

Data Secrets

👅 Модель распознавания языка

Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.

🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.

https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb

#ML #AI

Data Secrets

👍11🔥2🤯2

2.46K views11:25

Data Secrets

🌲 Посмеется ли друг над мемом и причем тут деревья?

🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?

Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.

🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать

#ML #алгоритмы

Data Secrets

👍10🔥4👏1🤯1

2.06K views12:53

🌱 Вырастить дерево

Data Secrets

📌 IML – что это?

Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.

⬜⬛ Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.

Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁‍♂️

#ML

Data Secrets

👍6⚡3👏1

2K viewsedited 12:34

Data Secrets

⚡️ Прогнозирование цены на электичество

Прогнозирование цены на электроэнергию помогает многим предприятиям понять, какую сумму за электроэнергию они должны выплачивать каждый год.

В этом колабе мы рассмотрим, как сделать такой прогноз с помощью машинного обучения с использованием Python. Используем алгоритм Random Forest и корреляционный анализ.

Обучить самому и поиграть 👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/ElectricityPricePrediction.ipynb

#ML #прогнозирование

Data Secrets

👍10❤1⚡1❤‍🔥1

2.58K views12:26

Data Secrets

Внедрение моделей машинного обучения в бизнес – как делать красиво?

➡️ Ты пишешь крутую модель машинного обучения.
➡️ Ее покупает большая компания, которая просит тебя задеплоить модель в продакшн.
➡️ Ты справился, модель работает, а заказчик недоволен.

Почему? Скорее всего, ты забыл о важных правилах развертывания моделей в бизнесе. Рассказываем, как делать правильно ✔️

#ML #production

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7

1.95K views14:49

Data Secrets

Распознавание лиц, математика и черно-белые прямоугольники

Наверное, ты уже не раз сталкивался с технологией распознавания лиц. А задумывался ли, как это работает? Разбираемся, как айфон понимает, что ты это ты, и при чем тут векторы 🍎

#AI #ML

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16

2.3K views13:34

Data Secrets

Предсказание цены криптовалюты

Все слышали про криптовалюту. Многие даже инвестировали в нее. Bitcoin, Ethereum и Binance Coin… Чего там только нет 💸

В этом колабе мы решили показать, как предсказывать цену криптовалюты с помощью машинного обучения и Python. Кстати, мы придумали хитрость: когда бы ты не запустил код, модель будет обучаться на самых свежих данных. То есть прогноз всегда будет актуален ✌️

👀 Посмотреть -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/rrr.ipynb

#прогнозирование #ML

Data Secrets

👍8🔥6🤯4❤1

2.52K viewsedited 12:36

Data Secrets

↪️

TD-IDF и векторизация текста

С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах ⚙️

Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.

#NLP #ML

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥5

2.53K views16:34

Data Secrets

Что такое повторное обучение?

🍎

Разобрали для вас по полочкам, что такое повторное обучение(не путаться с переобучением), зачем оно нужно и как его внедрить ✔️

#ML #MlOps #info

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥3💋3❤1

3.07K views13:40

Data Secrets

🔩

Функция активации.

Является основным инструментом для задач классификации и нейронных сетей

💩

Чтобы лучше понять, что это такое, смотри наш небольшой экскурс.

#ML #AI

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🐳7🍌3❤2

3.12K views08:11

Data Secrets

❌

Кодирование категориальных переменных: Frequency Encoding

Люди умеют разговаривать на языке категорий: мы понимаем, что такое, например, “синий” и “красный”. А машины различают только числа. Чтобы найти общий язык, нам нужен переводчик. Рассказываем про кодирование категориальных переменных и один из вариантов “перевода”🌐

#ML

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19⚡6🍌4

5.27K views13:02

Data Secrets

💡

Кодирование категориальных переменных PART 2: One Hot Encoding, Label Encoding

Разобрались до этого с одним из методов кодирования. Но этого явно мало. Рассказываем про еще 2 популярных метода 🤖

#ML

Data Secrets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤5🍌5🤨3

6.66K views12:42

Data Secrets

Forwarded from Machinelearning

Дайджест первого дня ICLR 2025 от делегации Яндекса

✔️

Computer Vision: прорывы в генерации и анализе изображений.

Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.

✔️

NLP: оптимизация предпочтений и эффективный инференс.

Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.

✔️

Speech: расширенные бенчмарки и новые токенизации.

Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.

✔️

RecSys: инновационные архитектуры для рекомендаций.

Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.

@ai_machinelearning_big_data

#news #AI #ML #LLM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍22❤7🔥7

13.9K views17:15

About

Blog

Apps

Platform