Data Secrets
Адаптивный подбор размера шага в градиентном спуске Мы с вами уже раскладывали по полочкам базовый градиентный спуск. И конечно, исследователи нашли тысячу и один способ улучшить этот алгоритм. Например, многие сразу задались вопросом: как подбирать размер…
Метод моментов и ADAM
В прошлый раз мы говорили о том, как решить проблему динамического подбора шага в градиентном спуске. Следующая претензия к этому алгоритму: мы не учитываем то, что было на предыдущих шагах. А ведь там может храниться что-то полезное, правда? Для этого придумали метод инерции.
Ну а если объединить адаптивный подбор шага и метод инерции, то получится state of the art: ADAM.
😻 #train #math
В прошлый раз мы говорили о том, как решить проблему динамического подбора шага в градиентном спуске. Следующая претензия к этому алгоритму: мы не учитываем то, что было на предыдущих шагах. А ведь там может храниться что-то полезное, правда? Для этого придумали метод инерции.
Ну а если объединить адаптивный подбор шага и метод инерции, то получится state of the art: ADAM.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤8👍8❤🔥1
В дополнение к сегодняшнему посту про ADAM: как раз недавно появился новый оптимизатор Sophia. Авторы утверждают, что он в 2x быстрее, чем Adam для тренировки LLM
Sophia использует быструю оценку матрицы вторых производных – Гессиана (см псевдокод в картинке), для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь. Именно в таких местах Адам тормозит, а вторые производные как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
На вторых производных уже были основаны многие алгоритмы – методы второго порядка, но вычислять Гессиан в общем случае довольно сложно(и медленно), поэтому они так и не получили распространения для обучения нейросеток. Но Sophia показывает, что оценить диагональные элементы Гессиана можно довольно быстро. Кстати, памяти расходуется тоже меньше: Sophia не хранит моменты второго порядка.
Статья
Код
😻 #news #train
Sophia использует быструю оценку матрицы вторых производных – Гессиана (см псевдокод в картинке), для того чтобы быстрее двигаться в плоских областях ландшафта функции потерь. Именно в таких местах Адам тормозит, а вторые производные как раз помогают более точно понять, в каком направлении нужно оптимизировать параметры.
На вторых производных уже были основаны многие алгоритмы – методы второго порядка, но вычислять Гессиан в общем случае довольно сложно(и медленно), поэтому они так и не получили распространения для обучения нейросеток. Но Sophia показывает, что оценить диагональные элементы Гессиана можно довольно быстро. Кстати, памяти расходуется тоже меньше: Sophia не хранит моменты второго порядка.
Статья
Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33❤9
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍37
This media is not supported in your browser
VIEW IN TELEGRAM
Очень милое и визуально приятное исследование от Яндекса про упоминание животных в названиях улиц
Получилось, что больше половины названий люди связали с птицами, четверть — с млекопитающими. Ещё почти 10 % пришлись на рыб и 5 % на насекомых. Дикие животные упоминаются в названиях гораздо чаще домашних — на них приходится почти 90 % изученных улиц. Самые распространённые из числа домашних — лошадь, коза, корова, гусь и пчела.
😻 #advice
Получилось, что больше половины названий люди связали с птицами, четверть — с млекопитающими. Ещё почти 10 % пришлись на рыб и 5 % на насекомых. Дикие животные упоминаются в названиях гораздо чаще домашних — на них приходится почти 90 % изученных улиц. Самые распространённые из числа домашних — лошадь, коза, корова, гусь и пчела.
Please open Telegram to view this post
VIEW IN TELEGRAM
🙈16🔥8💅5😁3
Модели экспоненциального сглаживания, и какие они бывают
Пройдемся во верхам, не углубляясь в математику. Поможет освежить в памяти тем, кто знал, и познакомиться с темой тем, кто только начинает изучение.
😻 #train #analytics
Пройдемся во верхам, не углубляясь в математику. Поможет освежить в памяти тем, кто знал, и познакомиться с темой тем, кто только начинает изучение.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29
Мы тут придумали эскизы тату для трушных ML-пацанов и девчонок 🐺
Набили бы?
P.S. Ваши варианты – в комментарии
😻 #memes
Набили бы?
P.S. Ваши варианты – в комментарии
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁36🔥13👍2🍌1