Dealer.AI
14.8K subscribers
689 photos
46 videos
17 files
726 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Обученик контекстного QA в контрастиве
Таблица результатов ретриверов в сетапе rewrite, контекст как есть.
Та самая таблица 5. Подход топ-5.
👍1
ах чуть не забыл главную таблицу с ChatQA vs all GPT, LLama и тп.
Заметки про эффективный RAG.

Основано на курсе и личном опыте. А также навеяно последним обзором ChatQA выше.

1. эмбеддер для поиска подсказок важен, с него апает качество. С ходу можно получить прирост от 5-7%.
Не стоит стесняться тюнить энкодер е2е без тюна LLM (она зафриз, следим ток за конечной е2е метрикой). Так же тюнить соло без е2е тоже, как шаг 2 (после шаг1 бейзлайна взять лучший энкодер по MTEB), а е2е тюн с LLM уже последняя мера.

2. MMR поверх выдачи эмбеддера повышает разнообразие итоговых подсказок и даёт лучший импакт на конечную генерацию. Тут суть в том, что нам нужно получить не топК ближайших парафраз/формулировок подсказок, а топК разнообразных релевантных подсказок, не являющихся парафразами друг-друга. Это и помогает сделать MMR метрика.

3. Промтинг всё ещё также в купе с пп. 1-2 даёт импакт к итоговой генерации. Тут можно урвать +2% процента минимум к качеству ответа.

4. Разбиение документов поиска на чанки. Хитрая разбивка от малого к большому. А именно мы бьём документы не на большие куски, а храним иерархию большой чанк <=> его сабчанки. Далее ищем именно по саб.чанк, а в промт по обратной связи возвращается родительский большой. Такое расширение контекста закрывает проблемы lost in the middle. Тк при слишком крупной нарезке, ретривер может размывать информацию в эмбеддинг представлении текста биг чанка. В купе с этим MMR поможет сделать выдачу на основе малых чанков разнообразней/информативней и залинковать разнообразные родительские чанки, вместо сабчанков одного и того же. Кстати подобное было и в статье про ChatQA.

Список думаю будет еще пополняться, а пока на этом все. Stay tuned!
👍235🔥4
Юмор уходящего рабочего дня.

Я не трудоголик ITшник, а на тренде💅
🔥8
Полет над гнездом LLM - Detect AI Generated Text.

Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.

По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.

Кстати вот те советы , которыми мы делились с комьюнити:

1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.

Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.

2. Добавить код с ошибками и опечатками как фичу в бустинг.

Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.

3. Добавить фичу Vectara hallucinations из huggingface model.

Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.

4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.

Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.

2-4 пункты это, как вы поняли, фичи в бустинг.

При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.

Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.


А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
🔥11
Залет на 1-3к мест вверх в голду - большая удача)
😱17👍10
Об метоптах замолвите слово.

Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.

Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.

Пример статьи: http://arxiv.org/abs/2306.03241

Углядел тут про "новый метод"

А теперь глянем на SWA:

https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/

А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".

Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.

UPD. Но жизнь за нерзула ап хирша никто не отменял, поэтому будет потом симплекс на тесте, потом на трейне, потом все вместе. Вот тебе 3-4 статьи.

Душнила мод off.
👍16😁81
Юмор дня.

Программирувай утром бегит, вечером литкодит, отжумания.

Новые нормативы для спорт программирования:  бег, наклоны из положения стоя и подъёмы туловища. Вот вам и новый федеральный стандарт по спортивному программированию.

Кекаю. Готовьтесь к одышке.
🏆27😁7🗿21
OpenAI выкатили новые Embeds.

Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.

+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.

Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
👍151
О чем мечтают нейросети в пятницу: как провести выходные с хрустящей булкой и вином 👇
Знатный багет
🔥8
Начну-ка я год с токсичности 😈
Мы с коллегами недавно выпустили новый классификатор токсичности для текстов и аудио - MuTox.
Статья, код, блокнот в колабе с примерами.
Для обучения этого классификатора мы организовали разметку 20К коротких аудио на 21 языке на предмет токсичности (датасет тоже опубликован).

Сам классификатор - маленькая моделька поверх эмбеддингов SONAR, которые недурно представляют тексты на 200 языках в общем семантическом пространстве (также есть энкодеры речи для ~50 языков, и их число будет расти). Поэтому есть основания надеяться, что и для других языков, поддержаных SONAR (список примерно совпадает со списоком FLORES-200 и NLLB), моделька будет показывать какой-то приличный уровень качества.
🔥17👍53
Вайб выходного дня.

Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Final Results
89%
Жги
11%
Туши
💯29🔥6😁2🏆1🖕1
Dealer.AI
Вайб выходного дня.

Хотите ли вы чтобы я рассказал о карьере в ML/DS/DL включая трек lead?
Прекрасно. Ставки сделаны, ставок больше не принимается.

А теперь напишите в комментариях тут, что про карьерный трек интересно было бы узнать.
👍2
Так пока думаете над тем, чтобы спросить. Тут вышел Leeroo(y) Jenkins Orchestrator 💪

Люди совсем унюхались снега или песка и пыли (смотря какое время года) и решили: " у нас хайповые LLMs, MoE и RL, а еще мы хотим бабок или их экономии и AGI конечно". 😜
Далее сотворили это - полиси оркестратор экспертов (моделей), с функцией цели - снижение затрат на инференс и максимизации полезности ответа. Кажется где-то я уже о подобном говорил. Точно у Амазон так роутят retrieval модули тык тут (ппц я визионер 🕺) при помощи многоруких бандитов. В статье также освещается специальный сэмплинг запросов на эксперта, но это почитаете сами)

В сумме, метод позволил войти в топ2 на MMLU, правда обмазались они всеми топ open LLM: Llama(2), Mistral и Mixtral. 🚬 Помнится мне, я вот тут уже предлагал делать роут уже small LM (офигет я визионер дважды 😎)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁6
This media is not supported in your browser
VIEW IN TELEGRAM
😁9