Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Центральная идея обучения с подкреплением: гипотеза вознаграждения

А еще мышки, кошки, сыр и дисконтирование.

😻 #train #NN
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍256
Упс

😻 #memes
Please open Telegram to view this post
VIEW IN TELEGRAM
32😁19🫡7😍3😈3😨3😇2
Большой гайд по optuna

Optuna — это фреймворк для для автоматизированного поиска оптимальных гиперпараметров. Знакомимся с ней ближе.

😻 #train #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍34🔥153
Data Secrets
Адаптивный подбор размера шага в градиентном спуске Мы с вами уже раскладывали по полочкам базовый градиентный спуск. И конечно, исследователи нашли тысячу и один способ улучшить этот алгоритм. Например, многие сразу задались вопросом: как подбирать размер…
Метод моментов и ADAM

В прошлый раз мы говорили о том, как решить проблему динамического подбора шага в градиентном спуске. Следующая претензия к этому алгоритму: мы не учитываем то, что было на предыдущих шагах. А ведь там может храниться что-то полезное, правда? Для этого придумали метод инерции.

Ну а если объединить адаптивный подбор шага и метод инерции, то получится state of the art: ADAM.

😻 #train #math
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥158👍8❤‍🔥1
В дополнение к сегодняшнему посту про ADAM: как раз недавно появился новый оптимизатор Sophia. Авторы утверждают, что он в 2x быстрее, чем Adam для тренировки LLM

Sophia использует быструю оценку матрицы вторых производных – Гессиана (см псевдокод в картинке), для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь. Именно в таких местах Адам тормозит, а вторые производные как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.

На вторых производных уже были основаны многие алгоритмы – методы второго порядка, но вычислять Гессиан в общем случае довольно сложно(и медленно), поэтому они так и не получили распространения для обучения нейросеток. Но Sophia показывает, что оценить диагональные элементы Гессиана можно довольно быстро. Кстати, памяти расходуется тоже меньше: Sophia не хранит моменты второго порядка.

Статья
Код

😻 #news #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍339
t-тест

1) Объясняем что это
2) Разбираем общую идею
3) Показываем пример

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37