Машинное обучение RU
17.7K subscribers
1.58K photos
207 videos
11 files
2.04K links
Все о машинном обучении

админ - @workakkk

@data_analysis_ml - анализ даннных

@ai_machinelearning_big_data - Machine learning

@itchannels_telegram -лучшие ит-каналы

@pythonl - Python

@pythonlbooks- python 📚

@datascienceiot - 📚

РКН: clck.ru/3FmrUw
Download Telegram
Исследования: как мозг строит гипотезы об окружающем мире и подгоняет ощущения под гипотезы

Некоторые нейробиологи объясняют восприятие человека теорией «контролируемых галлюцинаций». Эта теория предполагает, что восприятие, память, контроль движений и другие функции мозга зависят не от сенсорной информации, а скорее от сравнения текущего реального опыта и смоделированных ожиданий мозга.

Вместо того, чтобы ждать сенсорной информации о реальном мире, мозг всегда активно строит гипотезы о том, как устроен мир и предполагает какую информацию получит. А потом использует гипотезы для объяснения реального опыта и заполнения недостающих данных. Другими словами — мозг галлюцинирует, потому что создает информацию, которой нет в реальности.

Читать дальше

@machinelearning_ru
👍9🔥3
🧩 Продолжаем осваивать PySpark. Предобработка текста для машинного обучения

Для задач NLP, как мы знаем, недостаточно положить в модель голый текст. Датасет возьмем с кеггла (https://www.kaggle.com/rishisankineni/text-similarity) — оставим тренировочную часть и попробуем предобработать данные для наших моделей. Надеюсь, это моя не последняя статья и далее мы разберем уже конкретные модели, но сегодня остановимся на предобработке.

Читать дальше

@machinelearning_ru
🔥6👍3🤔1
Zero-shot classification

Стоит отдать должное NLI (Natural Language Inference), развитие которого позволило моделям пытаться искать логическую взаимосвязь между двумя высказываниями.

У меня есть некоторое выражение (например – «Сократ сказал, что никто не будет жить вечно») и гипотеза (например – «Сократ никогда не умрет»). Модели необходимо определить какое заключение получится:

Логическое следствие – из высказывания следует гипотеза;
Логическая нейтральность – гипотеза и высказывание не связаны;
Логическое противоречие – из высказывания не следует гипотеза.
В данном случае, при применении модели, на выходе получается, что наибольшая вероятность у метки логического противоречия, так как действительно гипотеза является полным противоречием высказыванию.

Читать дальше

@machinelearning_ru
9👍2
👀 Компьютерное зрение в поиске атмосферных осадков

При дожде или снегопаде капли дождя или снежинки оставляют на видеокадрах треки — протяженные линии. Особенно ярко этот эффект проявляется в темное время суток при активации инфракрасной подсветки видеокамер.

Читать дальше

@machinelearning_ru
👍9
💻 Аугментация Dataseta c помощью Tensorflow

В данный момент можно найти много подготовленных наборов данных для машинного обучения. Но что делать, если нужного под именно ваши задачи нет? Здесь приходится собирать данные вручную. Я столкнулся с такой ситуацией. Мне нужно обучить нейронную сеть распознавать сигналы светофора, а для этого соответственно мне нужны сами фотографии этих светофоров. Как бы странно это не казалось, но в интернете я не смог найти датасет с фотографиями светофоров. Максимум, который я откопал, на сайте Kaggle был датасет с пешеходными светофорами, в котором как побочный пример были представлены искомые изображения светофоров. Но этого все равно явно недостаточно, потому что на класс приходится примерно по 100 фотографий. Добавил еще несколько собственных фоток, но принципиально ничего не изменилось. Смешно, учитывая, что обычно нейросети обучаются на тысячах фотографий.

Читать дальше

@machinelearning_ru
👍8🔥43👎1
☑️ Подбор параметров для построения модели для различных видов переменных

Подбор признаков (Feature selection) — это процесс уменьшения количества входных параметров, используемых при построении моделей. Используя различные статистические подходы, можно определить взаимоотношение между признаками и целевой переменной, для определения тех переменных, которые имеют наиболее сильную связь. Однако, выбор статистических методов зависит как от создаваемой модели, так и от типов сравниваемых данных, а потому может представлять определённые трудности для разработчика.

➡️ Читать

@machinelearning_ru
🔥6👍1
🚀 DeepSpeed ​​— это библиотека оптимизации глубокого обучения, которая делает распределенное обучение и логические выводы простыми, эффективными и действенными.

➡️ Github
🎯 Docs

@machinelearning_ru
🔥13
📝 Решение задачи определения границ предложений

В последнее время в Data Science сообществе фокус исследований сместился в сторону качества данных. Если еще пару лет назад большинство специалистов утверждали, что при использовании подходящих алгоритмов проблему можно решить достаточно хорошо, то сейчас большое внимание уделяют оценке качества данных. В своей практике я столкнулась с задачей, в которой результат напрямую зависел от качества нарезки текстов на предложения. Для разработки собственного алгоритма иногда просто нет времени, тут на помощь нам приходят библиотеки. В этой статье я хочу поделиться опытом, как я решала задачу определения границ предложений с использованием существующих алгоритмов и разработкой собственного перечня специфичных сокращений.

Задача определения границ предложений или Sentence boundary detection не является тривиальной по нескольким причинам:

Мы не можем однозначно понимать конец предложения по точке.
В текстах тематических областей используются разнообразные сокращения.
Неоднозначность определения границ из-за использования в текстах инициалов и сокращений, которые могут находиться как в середине предложения, так и в конце.

➡️ Читать дальше

@machinelearning_ru
👍4🔥3
Forwarded from Machinelearning
Эволюция машинного обучения и проблема «черного ящика»

Какие бенчмарки используются в ML?
Благодаря чему произошел прорыв в технологиях машинного обучения?
Как метод LIME помогает интерпретировать алгоритмы ИИ?
Почему нейронки по-прежнему работают не так, как хотелось бы ученым?

Ученые Yandex Research рассказали, как они исследуют логику нейросетей и почему людям до сих пор сложно прочитать их «мысли».
👍10🔥1
🪐 Визуализация архитектуры и отдельных блоков нейросети с помощью Netron

Netron поддерживает как наиболее популярные фреймворки глубокого обучения – Keras и PyTorch – так и менее известные, и даже scikit-learn.

Установка в виде сервера для python производится стандартным образом через pip. Также можно установить netron в виде отдельной программы командой.

winget install -s winget netron
(для Windows) или
snap install netron
(для Linux).


Читать дальше

@machinelearning_ru
👍7🔥3
🔥 Полезные библиотеки Python

AcurusTrack
- крутая утилита для трекинга одинаковых объектов вне зависимости от их природы.

Может следить за любыми одинаковыми объектами, хоть за людьми в масках, хоть хоккеистами, лошадьми или машинами.

GitHub

@machinelearning_ru
👍9🔥3
#03TheNotSoToughML | Регрессия: Ошибки → Спуск с вершины горы

https://nuancesprog.ru/p/16046/

@machinelearning_ru
🔥8
Как нейросети проводят лето: подборка самых ярких новостей в мире Data Science за месяц

В июле нейросети не теряли времени даром и успели предсказать структуру 200 млн белков, написать научную статью в соавторстве с человеком (и возможно на шаг приблизиться к той самой симфонии), а ещё дать футбольным фанатам надежду на крепкий сон. Подробнее об этих и других достижениях AI – в подборке новостей Data Science.

Читать дальше

@machinelearning_ru
👍7
deepfake от Samsung

А именно, у него есть показать новые варианты deepfake-ов в реальном времени с большим разрешением. Конечно, всё ещё не идеально, но намного лучше чем в 2020 году. А если вспомнить, как быстро менялась та же генерация изображений, то вероятно, что до совсем качественных deepfake-ов уже недалеко.

Видео: https://www.youtube.com/watch?v=JkUF40kPV4M

Статья: https://samsunglabs.github.io/MegaPortraits/

@machinelearning_ru
👍10🔥2
⭐️ Обучение модели W2NER для поиска именованных сущностей в текстах на русском языке

Задача распознавания сущностей (NER) постоянно возникает при машинной обработке документов, продолжается улучшение показателей качества и скорости работы алгоритмов для решения данной задачи. Предлагаю рассмотреть модель W2NER – классификатор попарных отношений слов в предложении. Далее я обучу модель на русскоязычном датасете и оценю качество её работы. Данные взяты из научной публикации: Unified Named Entity Recognition as Word-Word Relation Classification авторов Jingye Li и др.

➡️ Читать дальше
↪️ Github

@machinelearning_ru
🔥9👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🤖 5 классических алгоритмов машинного обучения, о которых вам обязательно следует знать

Статья дает базовое представление о классических алгоритмах машинного обучения, которые находят широкое применение при решении прикладных задач, таких как предсказание оттока клиентов, персонализация рекламы и так далее.

Формат статьи отличается от обычного списка невзаимосвязанных элементов. Вместо этого, все алгоритмы разделены на группы, и для каждой группы описаны самые популярные её представители.

Почему именно такой формат?

Практическое применение. Знания бесполезны, если они не могут быть применены. Разбивка на основные группы по применению даст лучшее понимание того, какие задачи вы можете решить, используя тот или иной алгоритм.
Актуальность. Правда в том, что не все алгоритмы машинного обучения сохраняют свою актуальность. Вы сразу увидите, что такие традиционные алгоритмы, как наивный байесовский алгоритм, не включены в статью просто потому, что они деклассированы более совершенными алгоритмами.
Усвояемость. Есть тысячи онлайн ресурсов, которые научат тебя реализовывать модели, о которых пойдет далее разговор. Мы же больше сфокусированы на оптимальном применении каждого типа алгоритмов.

➡️ Читать дальше
↪️ Machine Learning From Scratch

@machinelearning_ru
👍12🔥1
Выборка 9 человек из интересующей нас популяции выявила средний объем мозга = 1100 куб.см. со стандартным отклоненим 30 куб.см. Каким будет 95% Т-доверительный интервал Стьюдента для среднего объема мозга в этой популяции?

Ответ

Используем формулу доверительного интервала для выборки (картинка)

Учитывая уровень доверительности 95% и количество степеней свободы, равное 8, t-оценка = 2.306.

Доверительный интервал = 1100 +/- 2.306*(30/3) = [1076.94, 1123.06].

38. Девять испытуемых получали диетические пилюли на протяжении 6 недель. Средняя потеря веса составила -2 кг. Каким должно быть стандартное отклонение потери веса, чтобы верхняя граница 95% Т-доверительного интервала была равна 0?

Верхняя граница = среднее + t-оценка * (стандартное отклонение / квадратный корень из размера выборки).

0 = -2 + 2.306*(s/3)

2 = 2.306 * s / 3

s = 2.601903

Таким образом, стандартное отклонение должно быть примерно 2.60, чтобы Т-доверительный интервал заканчивался в нуле.

@machinelearning_interview
👍13🔥21