Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
RNN в картинках

Объясняем как работют рекуррентные нейронные сети по такому рецепту: минимум слов, максимум схем и примеров.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍41🔥43
5 способов векторизации текста

Машина не понимают человеческого языка. В конечном итоге они работают только с числами. Чтобы заставить машину понять речь, ее тоже надо перевести в набор чисел – векторы. Это называется векторизация или получение эмбеддингов. Способов провести векторизацию много. Сегодня обзорно рассказывает про некоторые опорные в порядке их появления в науке.

😻 #NN #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍348🤯3
Gradient Checkpointing: сокращение использования памяти при обучении нейросетей на 60%

Нейронные сети в основном используют память двумя способами:

• Сохранение весов модели.
• Вычисление и сохранения активаций всех слоев при прямом проходе + вычисление градиентов на каждом слое при обратном проходе

То есть чем больше сеть, тем сложнее впихнуть ее в память. Но есть способ это оптимизировать: Gradient Checkpointing (вот он в PyTorch). Рассказываем, что это такое.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍298🔥6🤯3
Про гроккинг

Знаете этот момент, когда долго пытаешься что-то понять, выполянешь действия под копирку, а потом до тебя кааак доходит. В моделях машинного обучения такое явление тоже есть. Называется гроккинг, и мы грокаем его в карточках.

Статьи:
От OpenAI
От MIT
От Google

😻 #NN #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥33👍10🤔3
Любая LSTM – это своего рода RNN. Но не любая RNN – LSTM ☝️

Так в чем же разница и чем LSTM лучше RNN (про эту архитектуру мы говорили тут)? Разбираемся и рассказываем, как работает LSTM.

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍255
Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.

😻 #NN #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥74
Вариации градиентного спуска

Градиентный спуск – это основа основ оптимизации в машинном обучении. Существует множество вариаций этого алгоритма. Три самые известные из них: стохастический спуск, batch спуск и mini-batch спуск. Сейчас расскажем, чем они отличаются и как работают.

😻 #train #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍304🔥432
Byte Pair Encoding

Обработка текстов на сегодняшний день – флагман нейросетевых задач. Но, поскольку нейросети работают с числами, до передачи в модель текст нужно преобразовать, в том числе разбить на части – токены. Для этого есть множество подходов, и один из них BPE. Он используется в моделях BERT и GPT-2. Рассказываем, как он работает.

Оригинальная статья
Реализация Google
Реализация Facebook AI Research
Обгоняющая по скорости Google и Facebook в 10-50 раз реализация VK

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍27🔥63
Как работает BERT?

Модель BERT (Bidirectional Encoder Representations from Transformers) была представлена в статье от исследователей из Google AI Language. Она вызвала нешуточный ажиотаж в сообществе, и эту модель до сих пор все очень любят. Мы подготовили лонгрид о том, как она работает, и как ее использовать для своих задач.

Вот, кстати, ссылка на исходный код

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
26👍14
Крутой инструмент для ускорения LLM

Это Medusa, и она упрощает и ускоряет большие языковые модели. Делает она это так: в процессе обучения к LLM добавляется несколько так называемых «heads», которые затем отдельно настраиваются в процессе обучения. В процессе генерации каждый из этих выходов выдает несколько вероятных слов для соответствующей позиции. Затем эти варианты комбинируются и обрабатываются с помощью механизма внимания, а наиболее правдоподобные из них отбираются для дальнейшего декодирования.

🖥 Github
🗂 Подробнее о том, как это работает

😻 #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
👍173😇2