Data Secrets

Смотрите, какое симпатичное объяснение метода обратного распространения ошибки всего в одной гифке

Давайте разбираться, что тут происходит. Нам дана нейросеть с тремя слоями (layer), входной вектор X, предсказания, которые мы получили в ходе прямого прохода (Y_pred) и истинные метки (Y_target).

Перед нами стоит задача сделать шаг Backpropagation и обновить веса модели. Как мы это делаем? Считаем градиенты, конечно.

Сначала для третьего слоя. Здесь мы можем посчитать градиент обычным вычитанием (синий цвет), так как используем софтмакс и кросс-энтропийный лосс. Это наш ∂L / ∂z3. Чтобы с помощью этого градиента сосчитать, как нужно менять веса и biases, мы домножаем его на активацию, которая стояла после второго слоя (a2) + вектор из единиц. Так мы получим ∂L / ∂W3 и ∂L / ∂b3 (черный и оранжевый цвет), которые после и прибавялются с некоторым весом к weights, чтобы их обновить.

Для второго слоя все то же самое. Вот только ∂L / ∂z2 в этот раз посчитать вычитанием не получится. Придется сначала как бы сделать шаг назад по сети, то есть домножить полученный на прошлом шаге ∂L / ∂z3 на неизмененные пока веса третьего слоя и получить ∂L / ∂a2 (зеленое). Только потом мы можем посчитать ∂L / ∂z2 (синее), а дальше все по накатанной.

С третьим слоем все то же самое. Вот такой алгоритм, благодаря которому обучаются все нейросети (и LLM тоже). Тут, как (не)говорится, матричное умножение is All You Need. Вот почему способность GPU эффективно умножать матрицы играет такую важную роль в развитии Deep Learning. Вот почему NVIDIA сейчас оценивается примерно в 1 триллион долларов.

P.S. Крайне полезно проделать это упражнение вручную с другими числами: не пожалеете. А если хотите больше узнать про алгоритм, читайте этот наш пост.

😐32👍21❤183🤯2😁1

9.79K views15:55