Dealer.AI
14.8K subscribers
688 photos
46 videos
17 files
724 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai (реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
есть интересное мнение 👇
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥18👍3
Аугментируй это.

Новый функционал Augmentex. Теперь и bbox атаки. С помощью данных методов можно улучшить робастность моделей по отношению к входным данным. Также можно банально аугментировать текст ошибками (ru, en) и парафразингом (пока ru).

Ссылка на ветку:

https://github.com/ai-forever/augmentex/tree/paraphrase_branch

Примеры атак:

https://github.com/ai-forever/augmentex/blob/paraphrase_branch/notebooks/tutorial.ipynb

Пробуем!


P/S. А еще мой падаван Марк выступит на AI talent HuB2024 с данной темой :
https://ods.ai/events/aitalentdemoday2024
🔥101
ChatQA или догоняет ли Ахилес черепаху GPT-4.

Намедни, NVIDIA выкатила статью, где дословно утверждается:
"Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90, тут кстати значим ли разлет? ) , without relying on any synthetic data from OpenAI GPT models."

Таблицы результатов замеров на разных QA датасетах , размеры модеделей и сетапы указаны, смотрите папиру. Жаль моделек в открытом доступе нет, а представлены там размеры: 8b, 13b, 70b. 8b видимо, чтобы не подумали, что кто-то все на llama2 сделал ;)

Мне более интересно как делают эффективный тюн под dialogue QA.
Первый этап (они прям так его и зовут) это ,разумеется, претрен+domain sft adoptation. Тут они берут general диалоговые сеты аля SODA, OpenAssistant, приправляют чутка другими аля инструктивный FLAN и long-QA eli5 и тп.

Второй этап это уже более узконаправленный контекстно-улучшенный instruction tuning чисто под QA домен. И тут самое интересное,на мой взгляд, творится.

Подход подобен e2e обучению LLM+retrieval(RAG). На данном этапе, проводят два эксперимента (на самом деле три, но основных ветки две, а третья уже микст): с обучением ретривера по контексту диалога или по саммари контекста диалога. Раскрою вышеуказанное поподробнее. Ретривер используется для того, чтобы сходить в базу знаний и вытащить оттуда документы/чанки (не более 300 слов), далее положить их в контекст LLM и улучшить ее QA ответы. Для этого авторы предлагают или использовать в качестве запроса контекст диалога as is или его переписанный вариант/саммари. Все сетапы тюнились в ретривере на базе E5 и Dragon в contrastive формате аля CLIP/SBERT и тп. (схему приложу ниже). Причем, до кучи, еще пробовали E5 и Dragon заморозить. Rewrite диалога получали путем обстрела GPT-3.5, для этого даже приложили удачные сетапы инструкций/промтов в статье. Для E5 итоге победил внезапно подход без переписывания диалога, а для Dragon разница в метриках , по словам авторов, не значима (тут я согласен). Более того, переписывание диалога, по словам тех же авторов накладывало бы на них зависимость от ChatGPT, какие бы смыслы вы под этим не поняли (время генерации, лицензия, деньги).

Что еще интересного? А то, что потом авторы микстанули подход но уже на уровне нарезки документов. Т.е. в контекст LLM уже стали досыпать не только top-K выдачу чанков из ретривера, но и саммари лучшего документа, который содержит ответ. Сначала, они делали top-4 выбор чанков, но потом добавили саммари топ-1 документа, и назвали это уже топ-5 подходом. Причем сделали они это не случайно. Пробовали искать по саммари документов (которые 100% содержат в себе ответ), но чтобы не размывать информацию таким образом, стали микстить по процедуре выше. Тут показал себя лучшим Dragon, а также в среднем улучшились метрики ответа LLM для retrieval сетов, но упали для остальных. На мой взгляд не значимо, ни рост , ни падение. Да и сетап был chatQA-70b+top5 (см.таблицу 5).

На этом, для меня интересное закончилось. Узнал про новые RAG подходы в e2e с LLM и на контекстах диалогов, неплохой хинт с микстом саммари и чанками документов.

Всем хорошего воскресенья!
👍13🔥4🤡1
Общая схема e2e
Обученик контекстного QA в контрастиве
Таблица результатов ретриверов в сетапе rewrite, контекст как есть.
Та самая таблица 5. Подход топ-5.
👍1
ах чуть не забыл главную таблицу с ChatQA vs all GPT, LLama и тп.
Заметки про эффективный RAG.

Основано на курсе и личном опыте. А также навеяно последним обзором ChatQA выше.

1. эмбеддер для поиска подсказок важен, с него апает качество. С ходу можно получить прирост от 5-7%.
Не стоит стесняться тюнить энкодер е2е без тюна LLM (она зафриз, следим ток за конечной е2е метрикой). Так же тюнить соло без е2е тоже, как шаг 2 (после шаг1 бейзлайна взять лучший энкодер по MTEB), а е2е тюн с LLM уже последняя мера.

2. MMR поверх выдачи эмбеддера повышает разнообразие итоговых подсказок и даёт лучший импакт на конечную генерацию. Тут суть в том, что нам нужно получить не топК ближайших парафраз/формулировок подсказок, а топК разнообразных релевантных подсказок, не являющихся парафразами друг-друга. Это и помогает сделать MMR метрика.

3. Промтинг всё ещё также в купе с пп. 1-2 даёт импакт к итоговой генерации. Тут можно урвать +2% процента минимум к качеству ответа.

4. Разбиение документов поиска на чанки. Хитрая разбивка от малого к большому. А именно мы бьём документы не на большие куски, а храним иерархию большой чанк <=> его сабчанки. Далее ищем именно по саб.чанк, а в промт по обратной связи возвращается родительский большой. Такое расширение контекста закрывает проблемы lost in the middle. Тк при слишком крупной нарезке, ретривер может размывать информацию в эмбеддинг представлении текста биг чанка. В купе с этим MMR поможет сделать выдачу на основе малых чанков разнообразней/информативней и залинковать разнообразные родительские чанки, вместо сабчанков одного и того же. Кстати подобное было и в статье про ChatQA.

Список думаю будет еще пополняться, а пока на этом все. Stay tuned!
👍235🔥4
Юмор уходящего рабочего дня.

Я не трудоголик ITшник, а на тренде💅
🔥8
Полет над гнездом LLM - Detect AI Generated Text.

Тут давече закончился сорев по детекции сгенерированных LLM сочинений vs писания кожАных мешков.

По этому сореву я вел некоторые мастер классы для студентов. Об этом уже было выше.

Кстати вот те советы , которыми мы делились с комьюнити:

1. В лучшем паблик ноутбуке для моделей logreg/SGD использовать нормализацию при помощи из sklearn: standart scaling.

Примечание: В данном сореве хорошо заходили классик методы аля tfidf поверх bbpe/bpe словарей от энкодеров.

2. Добавить код с ошибками и опечатками как фичу в бустинг.

Примечание: Тут была гипотеза, что ошибки которые допускает человек и LLM при генерации имеют смещение друг относительно друга.

3. Добавить фичу Vectara hallucinations из huggingface model.

Примечание: Данная модель может оценивать степень галлюцинаций , была гипотеза что между моделями и человеком в скоре vectara есть также сигнал.

4. Добавить расчёт перплексии на моделях: qwen, llama2, falcon, mistral для моделей менее 10b и с уровнем точности fp16/int8. Пример на кекл.

Примечание: Данный пункт похож на предыдущие, тк по перплекссии мы можем оценить степень нормальности/естественности текста.

2-4 пункты это, как вы поняли, фичи в бустинг.

При этом, после беглого просмотра топ решений в discussion , были найдены хинты в тч из списка выше.

Самое важное в данном соревновании, что данные не были даны. Ну как. Были но 3 сэмпла. Все нужно было генерить самим) Поэтому грамотно собранный сет+валидация тоже имхо решали.


А вот к чему приводит собственный сбор , а не датка от оргов , см. ниже.
🔥11
Залет на 1-3к мест вверх в голду - большая удача)
😱17👍10
Об метоптах замолвите слово.

Мне очень нравятся методы оптимизации, но очень не нравится, когда переизобретают одно и тоже для Deep Learning оттуда под разным соусом.

Такое чувство, что у людей в рамках CS курсов не было методов оптимизации, хотя предмет для ML в целом must have.

Пример статьи: http://arxiv.org/abs/2306.03241

Углядел тут про "новый метод"

А теперь глянем на SWA:

https://pytorch.org/blog/pytorch-1.6-now-includes-stochastic-weight-averaging/

А теперь пойдем в гугле вобьем "метод треугольников/медиан" или "Нелдер-Мида алгоритм".

Следующий шаг в таких " новшествах" будет отражение симплекса по методу последнего выше, чекайте.

UPD. Но жизнь за нерзула ап хирша никто не отменял, поэтому будет потом симплекс на тесте, потом на трейне, потом все вместе. Вот тебе 3-4 статьи.

Душнила мод off.
👍16😁81
Юмор дня.

Программирувай утром бегит, вечером литкодит, отжумания.

Новые нормативы для спорт программирования:  бег, наклоны из положения стоя и подъёмы туловища. Вот вам и новый федеральный стандарт по спортивному программированию.

Кекаю. Готовьтесь к одышке.
🏆27😁7🗿21
OpenAI выкатили новые Embeds.

Как отметили мои коллеги по цеху, все еще не топ эмбы со времен Ada. Но относительно себя же семейство моделей дает ап +2-5% пунктов , см таблицы по ссылке.

+ вопрос: зачем нам ada2 , если есть топ me5 в открытом доступе? ответ: внезапно, по моему опыту оказалось,что по доменам аля финансы и юр, мед. me5/e5 оказался в поиске хуже чем Ada2.

Т. е. in general ada2 не топ эмбеддер, но для downstream задач as is я бы обязательно брал, как бенч ada2 like vs me5 на ваших тасках.
👍151
О чем мечтают нейросети в пятницу: как провести выходные с хрустящей булкой и вином 👇
Знатный багет
🔥8