Заметки про эффективный RAG.
Основано на курсе и личном опыте. А также навеяно последним обзором ChatQA выше.
1. эмбеддер для поиска подсказок важен, с него апает качество. С ходу можно получить прирост от 5-7%.
Не стоит стесняться тюнить энкодер е2е без тюна LLM (она зафриз, следим ток за конечной е2е метрикой). Так же тюнить соло без е2е тоже, как шаг 2 (после шаг1 бейзлайна взять лучший энкодер по MTEB), а е2е тюн с LLM уже последняя мера.
2. MMR поверх выдачи эмбеддера повышает разнообразие итоговых подсказок и даёт лучший импакт на конечную генерацию. Тут суть в том, что нам нужно получить не топК ближайших парафраз/формулировок подсказок, а топК разнообразных релевантных подсказок, не являющихся парафразами друг-друга. Это и помогает сделать MMR метрика.
3. Промтинг всё ещё также в купе с пп. 1-2 даёт импакт к итоговой генерации. Тут можно урвать +2% процента минимум к качеству ответа.
4. Разбиение документов поиска на чанки. Хитрая разбивка от малого к большому. А именно мы бьём документы не на большие куски, а храним иерархию большой чанк <=> его сабчанки. Далее ищем именно по саб.чанк, а в промт по обратной связи возвращается родительский большой. Такое расширение контекста закрывает проблемы lost in the middle. Тк при слишком крупной нарезке, ретривер может размывать информацию в эмбеддинг представлении текста биг чанка. В купе с этим MMR поможет сделать выдачу на основе малых чанков разнообразней/информативней и залинковать разнообразные родительские чанки, вместо сабчанков одного и того же. Кстати подобное было и в статье про ChatQA.
Список думаю будет еще пополняться, а пока на этом все. Stay tuned!
Основано на курсе и личном опыте. А также навеяно последним обзором ChatQA выше.
1. эмбеддер для поиска подсказок важен, с него апает качество. С ходу можно получить прирост от 5-7%.
Не стоит стесняться тюнить энкодер е2е без тюна LLM (она зафриз, следим ток за конечной е2е метрикой). Так же тюнить соло без е2е тоже, как шаг 2 (после шаг1 бейзлайна взять лучший энкодер по MTEB), а е2е тюн с LLM уже последняя мера.
2. MMR поверх выдачи эмбеддера повышает разнообразие итоговых подсказок и даёт лучший импакт на конечную генерацию. Тут суть в том, что нам нужно получить не топК ближайших парафраз/формулировок подсказок, а топК разнообразных релевантных подсказок, не являющихся парафразами друг-друга. Это и помогает сделать MMR метрика.
3. Промтинг всё ещё также в купе с пп. 1-2 даёт импакт к итоговой генерации. Тут можно урвать +2% процента минимум к качеству ответа.
4. Разбиение документов поиска на чанки. Хитрая разбивка от малого к большому. А именно мы бьём документы не на большие куски, а храним иерархию большой чанк <=> его сабчанки. Далее ищем именно по саб.чанк, а в промт по обратной связи возвращается родительский большой. Такое расширение контекста закрывает проблемы lost in the middle. Тк при слишком крупной нарезке, ретривер может размывать информацию в эмбеддинг представлении текста биг чанка. В купе с этим MMR поможет сделать выдачу на основе малых чанков разнообразней/информативней и залинковать разнообразные родительские чанки, вместо сабчанков одного и того же. Кстати подобное было и в статье про ChatQA.
Список думаю будет еще пополняться, а пока на этом все. Stay tuned!
Telegram
Dealer.AI
Взять LLM за RAGa в 60 минут
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
Вводный курс от deeplearning.ai
В мир прекрасного ранкинга и LMок
https://www.deeplearning.ai/short-courses/building-evaluating-advanced-rag/
👍23❤5🔥4
Полет над гнездом LLM - Detect AI Generated Text.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которыми мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.
По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.
Кстати вот те советы , которыми мы делились с комьюнити:
1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.
Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.
2. Добавить код с ошибками и опечатками как фичу в бустинг.
Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.
3. Добавить фичу Vectara hallucinations из huggingface model.
Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.
4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.
Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.
2-4 пункты это, как вы поняли, фичи в бустинг.
При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.
Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.
А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
Telegram
Dealer.AI
Новый NLP сорев на kaggle.
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
В век LLM встаёт вопрос детекции синтетики/сгенерированных текстов. И вот наконец-то докатилось и до моей любимой платформы соревнований.
Кстати советую почитать каналы:
1. Юрия Кашницкого
2. И Техножрицы
Всё на тему детекции…
🔥11
Об метоптах замолвите слово.
Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.
Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.
Пример статьи: http://arxiv.org/abs/2306.03241
Углядел тут про "новый метод"
А теперь глянем на SWA:
https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/
А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".
Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.
UPD. Но жизнь занерзула ап хирша никто не отменял, поэтому будет потом симплекс на тесте, потом на трейне, потом все вместе. Вот тебе 3-4 статьи.
Душнила мод off.
Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.
Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.
Пример статьи: http://arxiv.org/abs/2306.03241
Углядел тут про "новый метод"
А теперь глянем на SWA:
https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/
А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".
Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.
UPD. Но жизнь за
Душнила мод off.
arXiv.org
Early Weight Averaging meets High Learning Rates for LLM Pre-training
Training Large Language Models (LLMs) incurs significant cost; hence, any strategy that accelerates model convergence is helpful. In this paper, we investigate the ability of a simple idea...
👍16😁8❤1
OpenAI выкатили новые Embeds.
Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.
+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.
Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.
+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.
Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
Openai
New embedding models and API updates
We are launching a new generation of embedding models, new GPT-4 Turbo and moderation models, new API usage management tools, and soon, lower pricing on GPT-3.5 Turbo.
👍15❤1
О чем мечтают нейросети в пятницу: как провести выходные с хрустящей булкой и вином 👇
Forwarded from ̶с̶а̶м̶̶о̶изолента мёбиуса
Начну-ка я год с токсичности 😈
Мы с коллегами недавно выпустили новый классификатор токсичности для текстов и аудио - MuTox.
Статья, код, блокнот в колабе с примерами.
Для обучения этого классификатора мы организовали разметку 20К коротких аудио на 21 языке на предмет токсичности (датасет тоже опубликован).
Сам классификатор - маленькая моделька поверх эмбеддингов SONAR, которые недурно представляют тексты на 200 языках в общем семантическом пространстве (также есть энкодеры речи для ~50 языков, и их число будет расти). Поэтому есть основания надеяться, что и для других языков, поддержаных SONAR (список примерно совпадает со списоком FLORES-200 и NLLB), моделька будет показывать какой-то приличный уровень качества.
Мы с коллегами недавно выпустили новый классификатор токсичности для текстов и аудио - MuTox.
Статья, код, блокнот в колабе с примерами.
Для обучения этого классификатора мы организовали разметку 20К коротких аудио на 21 языке на предмет токсичности (датасет тоже опубликован).
Сам классификатор - маленькая моделька поверх эмбеддингов SONAR, которые недурно представляют тексты на 200 языках в общем семантическом пространстве (также есть энкодеры речи для ~50 языков, и их число будет расти). Поэтому есть основания надеяться, что и для других языков, поддержаных SONAR (список примерно совпадает со списоком FLORES-200 и NLLB), моделька будет показывать какой-то приличный уровень качества.
🔥17👍5❤3
Вайб выходного дня.
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Final Results
89%
Жги
11%
Туши
💯29🔥6😁2🏆1🖕1
Dealer.AI
Вайб выходного дня.
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Прекрасно. Ставки сделаны, ставок больше не принимается.
А теперь напишите в комментариях тут, что про карьерный трек интересно было бы узнать.
А теперь напишите в комментариях тут, что про карьерный трек интересно было бы узнать.
👍2
Так пока думаете над тем, чтобы спросить. Тут вышел Leeroo(y) Jenkins Orchestrator 💪
Люди совсем унюхались снега или песка и пыли (смотря какое время года) и решили: " у нас хайповые LLMs, MoE и RL, а еще мы хотим бабок или их экономии и AGI конечно".😜
Далее сотворили это - полиси оркестратор экспертов (моделей), с функцией цели - снижение затрат на инференс и максимизации полезности ответа. Кажется где-то я уже о подобном говорил. Точно у Амазон так роутят retrieval модули тык тут (ппц я визионер 🕺) при помощи многоруких бандитов. В статье также освещается специальный сэмплинг запросов на эксперта, но это почитаете сами)
В сумме, метод позволил войти в топ2 на MMLU, правда обмазались они всеми топ open LLM: Llama(2), Mistral и Mixtral.🚬 Помнится мне, я вот тут уже предлагал делать роут уже small LM (офигет я визионер дважды 😎 )
Люди совсем унюхались снега или песка и пыли (смотря какое время года) и решили: " у нас хайповые LLMs, MoE и RL, а еще мы хотим бабок или их экономии и AGI конечно".
Далее сотворили это - полиси оркестратор экспертов (моделей), с функцией цели - снижение затрат на инференс и максимизации полезности ответа. Кажется где-то я уже о подобном говорил. Точно у Амазон так роутят retrieval модули тык тут (ппц я визионер 🕺) при помощи многоруких бандитов. В статье также освещается специальный сэмплинг запросов на эксперта, но это почитаете сами)
В сумме, метод позволил войти в топ2 на MMLU, правда обмазались они всеми топ open LLM: Llama(2), Mistral и Mixtral.
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
Routoo: Learning to Route to Large Language Models Effectively
LLMs with superior response quality--particularly larger or closed-source models--often come with higher inference costs, making their deployment inefficient and costly. Meanwhile, developing...
😁6