📌 Этапы решения задачи машинного обучения
Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?
👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов
#ML
Data Secrets
Решение задачи машинного обучения - это не просто построение одной модели. Это сложный процесс, который включает в себя работу с данными, постоянный анализ и оптимизацию. Так с чего начать и где закончить?
👉 Оказывается, в общем случае процесс решения ML задач можно разделить на несколько последовательных этапов
#ML
Data Secrets
🔥10👍6
This media is not supported in your browser
VIEW IN TELEGRAM
🤯 Алгоритмы ИИ для удаления водяных знаков с картинок
➖модель сначала предсказывает местоположение водяного знака на изображении
➖затем отделяет цвета водяного знака от фона изображения
➖и востанавливает фон области, где находился вотермарк
👉 Попробовать
#AI #ML
Data Secrets
➖модель сначала предсказывает местоположение водяного знака на изображении
➖затем отделяет цвета водяного знака от фона изображения
➖и востанавливает фон области, где находился вотермарк
👉 Попробовать
#AI #ML
Data Secrets
👍10⚡4👏2
💥 28 сентября (среда) в Стэнфорде пройдет воркшоп о графовых нейросетях
Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”
👉 Здесь можно посмотреть список спикеров и топиков
Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.
#info #GNN #ML
Data Secrets
Русский тизер:
“На этом семинаре соберутся лидеры академических и промышленных кругов, чтобы продемонстрировать последние методологические достижения графовых нейронных сетей, широкий спектр приложений в различных областях, а также платформы машинного обучения и практические задачи для крупномасштабного обучения и развертывания машинного обучения на основе графовых моделей.”
👉 Здесь можно посмотреть список спикеров и топиков
Трансляция будет идти онайн с 18:00 28.09 по 03:00 29.09 МСК. Чтобы смотреть онлайн, нужно зарегистрироваться тут. Запись тоже будет.
#info #GNN #ML
Data Secrets
👍8👏2
Все время слышишь о нейросети DALLE❓
Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст ✨
👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb
#ML #NN
Data Secrets
Пришло время опробовать ее на деле, естественно на Python. Подготовили для вас Collab, где с нуля можно самому сгенерировать все что душе угодно. Приятное дополнение: модель понимает русский текст ✨
👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/rudalle.ipynb
#ML #NN
Data Secrets
👍7😍5🔥4
📌 Корреляционные тесты
Корреляционный анализ – одна из основных тем в статистике и машинном обучении. Это метод изучения взаимосвязи между двумя и более случайными величинами(выбоками).
🚕 🌤 Например, тебе нужно проверить, зависит ли спрос на такси от температуры на улице. Тут помогут корреляционные тесты. А что это? И какими они бывают?
В этой заметке перечисляем четыре самых важных и нужных теста, которые пригодятся в любой области Data Science ипоказываем, как использовать их в Python.
#статистика #ML #python
Data Secrets
Корреляционный анализ – одна из основных тем в статистике и машинном обучении. Это метод изучения взаимосвязи между двумя и более случайными величинами(выбоками).
🚕 🌤 Например, тебе нужно проверить, зависит ли спрос на такси от температуры на улице. Тут помогут корреляционные тесты. А что это? И какими они бывают?
В этой заметке перечисляем четыре самых важных и нужных теста, которые пригодятся в любой области Data Science ипоказываем, как использовать их в Python.
#статистика #ML #python
Data Secrets
⚡7
👅 Модель распознавания языка
Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.
🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.
https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb
#ML #AI
Data Secrets
Как человек, ты можешь легко определить, на каком из известных тебе языков написан текст. Но компьютеру это дается не так легко. Например, в Google Translate встроена целая модель машинного обучения для определения языка.
🔥 Мы решили показать, как это работает, в этом колабе. Здесь можно самостоятельно обучить модель и поиграть с ней.
https://colab.research.google.com/github/Veron28/bot_test/blob/master/lang_detection.ipynb
#ML #AI
Data Secrets
👍11🔥2🤯2
🌲 Посмеется ли друг над мемом и причем тут деревья?
🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?
Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.
🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать
#ML #алгоритмы
Data Secrets
🤪 Ситуация: ты регулярно отправляешь другу мемы, над которыми он либо смеется, либо нет. Ты постепенно изучаешь его поведение и стремишься к тому, чтобы мемы ему всегда нравились. Как этого достичь?
Поведение друга зависит от многих факторов. Отследив их, можно построить дерево решений для предсказания того, посмеется ли человек в очередной раз.
🧩 Построение такого дерева - дело непростое. В нашей новой заметке рассмотрели, как сделать это правильно с помощью Python и даже рассказали, как такое дерево визуализировать
#ML #алгоритмы
Data Secrets
👍10🔥4👏1🤯1
📌 IML – что это?
Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.
⬜⬛ Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.
Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁♂️
#ML
Data Secrets
Модель может отклонить вашу заявку на ипотеку или диагностировать рак. Эти решения имеют последствия и мы ожидаем объяснений. Человек мог бы их дать: у субъекта маленький доход или поражено ряд клеток. А сможет ли так модель? Этот вопрос рассматривает IML – область интерпретируемого машинного обучения.
⬜⬛ Есть два типа моделей: белые и черные ящики. Белые ящики позволяют легко проследить "ход решения". А вот черные ящики – это темные лошадки, которые дают результат, но не объясняют его.
Чтобы получить объяснения от черного ящика можно использовать разные методы. Например, использовать дополнительную (суррогатную) модель. Или применять метод перестановок: менять параметры модели и анализировать результаты 💁♂️
#ML
Data Secrets
👍6⚡3👏1
⚡️ Прогнозирование цены на электичество
Прогнозирование цены на электроэнергию помогает многим предприятиям понять, какую сумму за электроэнергию они должны выплачивать каждый год.
В этом колабе мы рассмотрим, как сделать такой прогноз с помощью машинного обучения с использованием Python. Используем алгоритм Random Forest и корреляционный анализ.
Обучить самому и поиграть 👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/ElectricityPricePrediction.ipynb
#ML #прогнозирование
Data Secrets
Прогнозирование цены на электроэнергию помогает многим предприятиям понять, какую сумму за электроэнергию они должны выплачивать каждый год.
В этом колабе мы рассмотрим, как сделать такой прогноз с помощью машинного обучения с использованием Python. Используем алгоритм Random Forest и корреляционный анализ.
Обучить самому и поиграть 👉 https://colab.research.google.com/github/Veron28/bot_test/blob/master/ElectricityPricePrediction.ipynb
#ML #прогнозирование
Data Secrets
👍10❤1⚡1❤🔥1
Внедрение моделей машинного обучения в бизнес – как делать красиво?
➡️ Ты пишешь крутую модель машинного обучения.
➡️ Ее покупает большая компания, которая просит тебя задеплоить модель в продакшн.
➡️ Ты справился, модель работает, а заказчик недоволен.
Почему? Скорее всего, ты забыл о важных правилах развертывания моделей в бизнесе. Рассказываем, как делать правильно✔️
#ML #production
Data Secrets
Почему? Скорее всего, ты забыл о важных правилах развертывания моделей в бизнесе. Рассказываем, как делать правильно
#ML #production
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7
Распознавание лиц, математика и черно-белые прямоугольники
Наверное, ты уже не раз сталкивался с технологией распознавания лиц. А задумывался ли, как это работает? Разбираемся, как айфон понимает, что ты это ты, и при чем тут векторы🍎
#AI #ML
Data Secrets
Наверное, ты уже не раз сталкивался с технологией распознавания лиц. А задумывался ли, как это работает? Разбираемся, как айфон понимает, что ты это ты, и при чем тут векторы
#AI #ML
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16
Предсказание цены криптовалюты
Все слышали про криптовалюту. Многие даже инвестировали в нее. Bitcoin, Ethereum и Binance Coin… Чего там только нет 💸
В этом колабе мы решили показать, как предсказывать цену криптовалюты с помощью машинного обучения и Python. Кстати, мы придумали хитрость: когда бы ты не запустил код, модель будет обучаться на самых свежих данных. То есть прогноз всегда будет актуален ✌️
👀 Посмотреть -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/rrr.ipynb
#прогнозирование #ML
Data Secrets
Все слышали про криптовалюту. Многие даже инвестировали в нее. Bitcoin, Ethereum и Binance Coin… Чего там только нет 💸
В этом колабе мы решили показать, как предсказывать цену криптовалюты с помощью машинного обучения и Python. Кстати, мы придумали хитрость: когда бы ты не запустил код, модель будет обучаться на самых свежих данных. То есть прогноз всегда будет актуален ✌️
👀 Посмотреть -> https://colab.research.google.com/github/Veron28/bot_test/blob/master/rrr.ipynb
#прогнозирование #ML
Data Secrets
👍8🔥6🤯4❤1
С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах
Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.
#NLP #ML
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
Что такое повторное обучение?🍎
Разобрали для вас по полочкам, что такое повторное обучение(не путаться с переобучением), зачем оно нужно и как его внедрить✔️
#ML #MlOps #info
Data Secrets
Разобрали для вас по полочкам, что такое повторное обучение(не путаться с переобучением), зачем оно нужно и как его внедрить
#ML #MlOps #info
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥3💋3❤1
Является основным инструментом для задач классификации и нейронных сетей
Чтобы лучше понять, что это такое, смотри наш небольшой экскурс.
#ML #AI
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🐳7🍌3❤2
Люди умеют разговаривать на языке категорий: мы понимаем, что такое, например, “синий” и “красный”. А машины различают только числа. Чтобы найти общий язык, нам нужен переводчик. Рассказываем про кодирование категориальных переменных и один из вариантов “перевода”
#ML
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍19⚡6🍌4
Разобрались до этого с одним из методов кодирования. Но этого явно мало. Рассказываем про еще 2 популярных метода
#ML
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤5🍌5🤨3
Forwarded from Machinelearning
Дайджест первого дня ICLR 2025 от делегации Яндекса
✔️ Computer Vision: прорывы в генерации и анализе изображений.
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
✔️ NLP: оптимизация предпочтений и эффективный инференс.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
✔️ Speech: расширенные бенчмарки и новые токенизации.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
✔️ RecSys: инновационные архитектуры для рекомендаций.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Исследователи представили многомодальную модель Eagle с множеством энкодеров, теоретическое обоснование ограничений диффузионных моделей с тяжёлыми хвостами, метод FreCaS для генерации изображений высокого разрешения и фреймворк FORTE для автоматического обнаружения аутлайеров в данных.
Предложены новые подходы к DPO с учётом временного затухания для первых токенов, прогрессивная смешанная точность для эффективного инференса LLM, улучшенные метрики для моделей с длинным контекстом и обучение реворд-моделей для предотвращения reward hacking.
Представлен бенчмарк Dynamic-SUPERB Phase-2 со 180 задачами для речевых моделей, предложена токенизация на уровне слогов в SyllableLM, а также доказаны математические гарантии для алгоритма Flow Matching, показывающие одинаковый порядок сходимости с классическими диффузионными процессами.
Разработана архитектура ContextGNN, объединяющая попарный скор и двухбашенный подход, исследовано применение диффузионных моделей в рекомендациях от TikTok, предложены новые методы персонализации для диалоговых агентов и эффективная дистилляция LLM для секвенциальных рекомендаций.
@ai_machinelearning_big_data
#news #AI #ML #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22❤7🔥7