Об метоптах замолвите слово.
Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.
Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.
Пример статьи: http://arxiv.org/abs/2306.03241
Углядел тут про "новый метод"
А теперь глянем на SWA:
https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/
А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".
Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.
UPD. Но жизнь занерзула ап хирша никто не отменял, поэтому будет потом симплекс на тесте, потом на трейне, потом все вместе. Вот тебе 3-4 статьи.
Душнила мод off.
Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.
Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.
Пример статьи: http://arxiv.org/abs/2306.03241
Углядел тут про "новый метод"
А теперь глянем на SWA:
https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/
А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".
Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.
UPD. Но жизнь за
Душнила мод off.
arXiv.org
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Training Large Language Models (LLMs) incurs significant cost; hence, any strategy that accelerates model convergence is helpful. In this paper, we investigate the ability of a simple idea...
👍16😁8❤1
OpenAI выкатили новые Embeds.
Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.
+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.
Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.
+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.
Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
Openai
New embedding models and API updates
We are launching a new generation of embedding models, new GPT-4 Turbo and moderation models, new API usage management tools, and soon, lower pricing on GPT-3.5 Turbo.
👍15❤1
О чем мечтают нейросети в пятницу: как провести выходные с хрустящей булкой и вином 👇
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Начну-ка я год с токсичности 😈
Мы с коллегами недавно выпустили новый классификатор токсичности для текстов и аудио - MuTox.
Статья, код, блокнот в колабе с примерами.
Для обучения этого классификатора мы организовали разметку 20К коротких аудио на 21 языке на предмет токсичности (датасет тоже опубликован).
Сам классификатор - маленькая моделька поверх эмбеддингов SONAR, которые недурно представляют тексты на 200 языках в общем семантическом пространстве (также есть энкодеры речи для ~50 языков, и их число будет расти). Поэтому есть основания надеяться, что и для других языков, поддержаных SONAR (список примерно совпадает со списоком FLORES-200 и NLLB), моделька будет показывать какой-то приличный уровень качества.
Мы с коллегами недавно выпустили новый классификатор токсичности для текстов и аудио - MuTox.
Статья, код, блокнот в колабе с примерами.
Для обучения этого классификатора мы организовали разметку 20К коротких аудио на 21 языке на предмет токсичности (датасет тоже опубликован).
Сам классификатор - маленькая моделька поверх эмбеддингов SONAR, которые недурно представляют тексты на 200 языках в общем семантическом пространстве (также есть энкодеры речи для ~50 языков, и их число будет расти). Поэтому есть основания надеяться, что и для других языков, поддержаных SONAR (список примерно совпадает со списоком FLORES-200 и NLLB), моделька будет показывать какой-то приличный уровень качества.
🔥17👍5❤3
Вайб выходного дня.
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Final Results
89%
Жги
11%
Туши
💯29🔥6😁2🏆1🖕1
Dealer.AI
Вайб выходного дня.
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Прекрасно. Ставки сделаны, ставок больше не принимается.
А теперь напишите в комментариях тут, что про карьерный трек интересно было бы узнать.
А теперь напишите в комментариях тут, что про карьерный трек интересно было бы узнать.
👍2
Так пока думаете над тем, чтобы спросить. Тут вышел Leeroo(y) Jenkins Orchestrator 💪
Люди совсем унюхались снега или песка и пыли (смотря какое время года) и решили: " у нас хайповые LLMs, MoE и RL, а еще мы хотим бабок или их экономии и AGI конечно".😜
Далее сотворили это - полиси оркестратор экспертов (моделей), с функцией цели - снижение затрат на инференс и максимизации полезности ответа. Кажется где-то я уже о подобном говорил. Точно у Амазон так роутят retrieval модули тык тут (ппц я визионер 🕺) при помощи многоруких бандитов. В статье также освещается специальный сэмплинг запросов на эксперта, но это почитаете сами)
В сумме, метод позволил войти в топ2 на MMLU, правда обмазались они всеми топ open LLM: Llama(2), Mistral и Mixtral.🚬 Помнится мне, я вот тут уже предлагал делать роут уже small LM (офигет я визионер дважды 😎 )
Люди совсем унюхались снега или песка и пыли (смотря какое время года) и решили: " у нас хайповые LLMs, MoE и RL, а еще мы хотим бабок или их экономии и AGI конечно".
Далее сотворили это - полиси оркестратор экспертов (моделей), с функцией цели - снижение затрат на инференс и максимизации полезности ответа. Кажется где-то я уже о подобном говорил. Точно у Амазон так роутят retrieval модули тык тут (ппц я визионер 🕺) при помощи многоруких бандитов. В статье также освещается специальный сэмплинг запросов на эксперта, но это почитаете сами)
В сумме, метод позволил войти в топ2 на MMLU, правда обмазались они всеми топ open LLM: Llama(2), Mistral и Mixtral.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Routoo: Learning to Route to Large Language Models Effectively
LLMs with superior response quality--particularly larger or closed-source models--often come with higher inference costs, making their deployment inefficient and costly. Meanwhile, developing...
😁6
А ты, нейрос(у)етолог или право имеющий?
https://www.rbc.ru/life/news/642595009a794766fd87683e
Или как в тиндере парней съесть и в М.Видео сесть.
https://xn--r1a.website/denissexy/7757
Все совпадения имен случайны.
https://www.rbc.ru/life/news/642595009a794766fd87683e
Или как в тиндере парней съесть и в М.Видео сесть.
https://xn--r1a.website/denissexy/7757
Все совпадения имен случайны.
РБК Life
«М.Видео» взяла на работу написавшего диплом с помощью ChatGPT студента
В редакции бренд-медиа М.Видео М.Клик появился нейросетолог. На эту должность компания взяла выпускника РГГУ Александра Жадана, который написал диплом с помощью ChatGPT, сообщили РБК Life в ...
😈5❤🔥2🌭1
Dealer.AI
А ты, нейрос(у)етолог или право имеющий? https://www.rbc.ru/life/news/642595009a794766fd87683e Или как в тиндере парней съесть и в М.Видео сесть. https://xn--r1a.website/denissexy/7757 Все совпадения имен случайны.
Юмор от моих коллег: "ждём от него очередного хайпа, как chatgpt воспитал его детей.."
🔥14😁1