Dealer.AI

Завезли блендер на максималках с LLM и FLAN-T5.

Чтобы не плодить обзоров см. у корешей тут:
https://xn--r1a.website/lovedeathtransformers/6023

От себя добавлю:

Мы в своей работе уже давно используем классик схему: encoder RoSBERTa +Faiss-KNN + reranker. В качестве реранкера используем или lgbm или cross-encoder.

С появлением у нас GPTlike моделей мы перешли к блендер схеме (где-то в q2-3 2022г.): LLM+retrieval cands + reranker. Это позволило нам добавить интересности от GPT генераций и релевантности/фактологичности от retrieval.

Поэтому если хочется улучшить свои метрики а-ля SSA: специфичность и релевантность. Советую блендер схему. Ну и конечно рад, что мы смотрим в одном направлении с индустрией.

Love. Death. Transformers.

#чтивонаночь
LLM-Blender
OpenAi знаете? есть слухи что gpt4 это MoE модель, те 4 модели по 220б параметров, которые переключаются каким то образом, решают разные задачи и вот это все, но при этом одна модель.

Собственно идея такая: давайте возьмем несколько…

👍14

2.44K viewsedited 10:28

Dealer.AI

Впереди выходные, а значит время посмотреть что-то интересное.

Мой падаван @qwertysobaka составил лист выступлений нашей большой команды #SaluteDevices на #DataFest2023.

Надеюсь в нём вы найдете доклады по интересам.

https://xn--r1a.website/kaggle_fucker/77

Ремарки Марка

Всем привет! Немного запоздалый пост, но не менее информативный. Как вы знаете недавно прошел DataFest 2023 🦜 и я был удивлен сколько моих коллег из SberDevices👋 там выступало. Поэтому решил сделать полный список их выступлений и поделиться им с вами.

1️⃣…

🔥7👍3🤩1

2.48K viewsedited 07:59

Dealer.AI

Пошёл новый урожай ~~картохи~~ либ для inference and serving LLM - vllm

Много знакомых приходит с вопросом, какие либы посоветуешь для инференса LLM. Обычно сношаются с этим: text-generation-inference; FasterTransformer. Понятно ещё докучи + accelerate и bits and bytes. Вот вам в копилочку ещё VLLM.

VLLM это либа, которая даёт возможность удобного сервинга/инференса с использованием:

- Поддержка оптимизаций с CUDA

- Интеграция с моделями HF (gpt-neo, LLAMA like, opt, gpt2 like etc.)

- Динамический батчинг для входящих запросов, beam search, parallel sampling etc.

- TensorParallelism для multigpu inference.

- Оптимизация attention inference с Paged attention.

И др.

Дока и блогпост тут.

Попробуйте сами и делитесь в комментариях как оно.

GitHub

GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

A high-throughput and memory-efficient inference and serving engine for LLMs - vllm-project/vllm

👍16🔥2

2.79K viewsedited 07:45

Dealer.AI

Steam (не)против нейросетей.

Что мы любим делать в свободное от работы время, а лучше в выходные? Конечно зайти в любимую игру и пройти очередной уровень или затащить катку.

Причём тут на канале про ML игры?- спросите вы. Ответ прост - нейросети уже давно влились в gamedev, а с появлением генеративных сеток возможности разработчиков возросли. Это касается не только оптимизации алгоритмов и поведения ИИ персонажей, но и контента, дизайна и др.

Но не всё в последнее время так гладко. И вот уже Valve отказывает разработчикам в выпуске игр на своей платформе, если при её создании использовались нейросети.
В чем соль? Да в том же, что и рассказывал ранее, тк нейросети для обучения используют данные из различных источников,то компания Valve запросила подтверждения отсутствия нарушения авторских прав в разрезе этих данных. Поэтому выход игры не может быть одобрен до предоставления доказательств.

Самое интересное, что и после удаления билдов, созданных нейросетями и обновлению их на ручные, Valve также отказала в выпуске.

При этом, например, уже в Steam есть несколько игр с прямым указанием, что при создании использовался ИИ. Даже авторы, ожидаемого ремейка 2023г, System shock не скрывают этого и будут далее юзать генеративки для создания игр (а именно MidJourney).

Вот так регулирование AI просачивается и в мой любимый мир игр.. (

From the aigamedev community on Reddit: Valve is not willing to publish games with AI generated content anymore

Explore this post and more from the aigamedev community

👍5🔥2😢1

2.07K viewsedited 11:20

Dealer.AI

Машинное отучение.

Нет, автор не ошибся. Да он в своём уме, если че это всё Google - они анонсировали на платформе kaggle новое соревнование. Оно станет частью соревновательного трека NeurIPS2023.

Вообще интересная идея. На мой взгляд, машинное отучение может стать прекрасным дополнением для выравнивания обучения (alignment).
Есть мнение, что RL PPO нужен в тч для указания что НЕ надо делать модели при генерации, помимо, того чтобы отранжировать лучшие. Кто-то из моих коллег по цеху даже считает это первостепенной задачей.

Так вот. Результаты соревнования: новые методы и эвристики - уверен помогут на этапе SFT модели выполнить роль регулирования забываемости. Ведь помимо того, что нужно не забыть после pretrain ( см. катострофическое забывание), нам нужно и исключить влияние тех плохих источников данных, что мы упустили в сет обучения.

В общем участвуем и/или ждём обзоров решения победителей к концу года.

Подробнее тут:
https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html?m=1

И тут: https://unlearning-challenge.github.io/

research.google

Announcing the first Machine Unlearning Challenge

Posted by Fabian Pedregosa and Eleni Triantafillou, Research Scientists, Google Deep learning has recently driven tremendous progress in a wide arr...

👍11👌1

2.7K viewsedited 12:56

Dealer.AI

Неплохая демонстрация простыми словами, что происходит в потрошках трансформера. Да ещё и с гифоном.

https://prvnsmpth.github.io/animated-transformer/

prvnsmpth.github.io

The Animated Transformer

An intuitive explanation of the Transformer model architecture.

👍12🤯1

2.34K views09:39

Dealer.AI

Forwarded from Knowledge Accumulator

Tree of Thoughts [2023] - заставляем GPT исследовать чертоги своего разума

Поговорим о разных видах взаимодействия с LLM.
1) Базовый - составляем запрос с задачей в модель, получаем ответ на выходе
2) Chain of Thoughts - просим модель описывать пошагово ход решения задачи и рассуждения, и в конце ответ.
3) Iterative refinement - В течение нескольких запросов, просим модель критиковать и улучшать решение.
4) В случае, если нам нужен ответ на задачу, в которой применимо ансамблирование ответов, можно запускать предыдущие методы несколько раз и потом комбинировать их ответы в один финальный

В статье авторы изобретают ещё более хитрый способ заставить модель анализировать. Мы генерируем дерево мыслей. Корень - это изначальная задача, а дети любой вершины - это добавление к рассуждению какой-то мысли. Данное дерево можно растить, посылая в LLM запрос вида "придумай следующий шаг к решению", и подавая текущее состояние на вход.

Как оценивать качество вершины? Используем саму же LLM, веря, что модель с оценкой мыслей справляется лучше, чем с их генерацией. Таким образом, мы можем каким-нибудь алгоритмом обхода дерева с эвристиками искать в нём решение, в котором шаги решения будут высоко оценены моделью. Я думаю, что детали тут слишком быстро устареют и конкретный алгоритм нам не важен.

Что по результатам? Они не радикально выше, но, видимо, схема помогает решать некоторые задачи, в которых такое "поисковое мышление" уместно. Например, большой буст наблюдается в решении мини-кроссвордов, т.е. заполнении буквами сетку 5 на 5 согласно вопросам. Классический способ решения подразумевает как раз поиск по дереву, так что прирост от подхода ожидаем.

Возможно, что со временем мы придём к какой-то black-box абстракции над LLM, где схема промптинга станет частью скрытой от пользователя реализации, и подобные алгоритмы конструирования ответа станут весьма сложными. А вы как думали, сверхсильный-ИИ-GPT возьмёт и расскажет всё просто так?

Получасовой обзор статьи

@knowledge_accumulator

👍5👌1

2.29K views12:08

Dealer.AI

0:21

This media is not supported in your browser

VIEW IN TELEGRAM

Эх мечты... Мечты..

😁9👎6

2.19K views11:38

Dealer.AI

Помоги LLM выбрать лучшие ответы.

На kaggle завезли соревку по задаче реранкинга генераций GPT-3.5. Нужно из топ-5 генераций выбрать топ-3 лучших в ранжированном виде. Метрика MAP@3, что логично. Домен "сложный научный". В обучении 200 пар)

В общем расчехляйте свои пайпы по созданию reward моделек. И вперёд за медальками.

Kaggle

Kaggle - LLM Science Exam

Use LLMs to answer difficult science questions

🔥13🏆2

5.42K viewsedited 06:04

Dealer.AI

Heroes of NLP and Magic... Или объявлена неделя NLP соревнований...

Теперь придётся дублировать себя почкованием и тп, что успеть в две соревки...

CommonLit Challenge уже был когда-то на просторах kaggle, нужно оценивать работы студентов по некоторой шкале оценок, выделяя детали, идею и беглость языка.

Оценка естественно раз по баллам, то и метрика MCRMSE (среднее корней MSE по шкалам) уже предвкушаю биас на редкие оценки)

Обязательно советую посмотреть лучшие решения прошлого соревнования:

-сперва конечно мастера необычных и простых решений https://youtu.be/nof28KMutAk,
-потом уже более привычный космолет https://www.kaggle.com/competitions/commonlitreadabilityprize/discussion/258554

Удачи!

Kaggle

CommonLit - Evaluate Student Summaries

Automatically assess summaries written by students in grades 3-12

👍8

4.09K viewsedited 06:34

Dealer.AI

Шолле так ~~офигел~~ оШоллел от релиза LLAMA2. Что керас теперь будет оберткой для тф, торча и джакса)

huggingface.co

Llama 2 is here - get it on Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

🔥6🤪4👍1🆒1

2.05K viewsedited 10:55

Dealer.AI

И шутеечки вдогонку

😁12👍2🥴1

2.15K views10:55

Dealer.AI

Мы строили, строили и наконец построили.

🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face

Хабр

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

? Upd. Добавили пример запуска в Colab'е. Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat. Про то, что такое...

🔥57👍8❤5

11.9K viewsedited 08:23

Dealer.AI

Други хотели примеры с файнтюном и квантизацией. Их есть у нас, от Вас. Спасибо, комьюнити! 🦾🤖👇

https://xn--r1a.website/complete_ai/205

Complete AI

⚡️Запускаем ruGPT-3.5 в Colab'е

Сообщество не дремлет и накидало в личку квантованных версий вышедшей вчера модели (ребята, вы молодцы 🚀).

Ужимали при помощи AutoGPTQ в 4bit, так же как делает TheBloke. Качество, само собой, при квантизации в 4bit проседает…

🔥14❤2

2.21K views11:44

Dealer.AI

Продолжаем серию шуток про метавëрс от Шолле по вопросу объединения PyTorch, TF, JAX под Keras.

https://xn--r1a.website/dealerAI/214,
https://xn--r1a.website/dealerAI/215

😁6🥴1

1.85K views08:37

Dealer.AI

Твоя кроличья LAPCA.
(может и на удачу...)

В семействе Language Agnostic энкодеров прибыло. Напомню, что уже существует LABSE .
Идея у LABSE простая: давайте возьмём некоторую multi-lingual модельку и помимо MLM, NSP таски на pre-train или на дотюн вкинем ещё одну. Будем сводить эмбеды фраз на разных языках, но имеющих один перевод. Такой вот мой любимый contrastive learning.

Что же нового досыпали разработчики из Huawei + Николенко на LAPCA(у) ? :)

На самом деле, идея вполне на поверхности. Используются две задачи. Первая-сводим пары запрос/ответ или запрос/документ в рамках одного языка, решая классическую задачу information retrieval. Вторая же задача призвана, как я считаю, якорить или арканить для того же ответа/запроса его перевод. Тут указано, что для ответа/документа происходит матч с его переводом или текстом на другом языке схожим по смыслу.

Также выделяют ребята три подхода:
- Параллельный майнинг тех самых переводов.
- Hard negative майнинг. Тут по классике ищем сложные негативы с помощью самой же модели.
- Третий пункт они зовут self-training, но по мне - это по аналогии с п.2 сэмплинг позитивов при помощи самой обучаемой модели и topK KNN, но на домене QA.

Далее, всё это учится с помощью encoder с shared weights. Т.е. по сути сиамская сетка. И имеет два лосса: L-self и L-IR.
Их объединяют классически как joint-loss= a*L-IR+(1-a)*L-self.
Также авторы советуют претрейнить сначала с a=0 для параллельного сета и с a=1 для QA + IR дата-сета. И, видимо, далее уже jointly.

В общем взяли всё лучшее и соединили.
Остаются два вопроса:
- Сравнения с LaBSE , казалось бы логичным, нет в таблицах.
- Почему нельзя всё зарядить в триплеты (и парафразы и фразу перевод)?

Скрины прилагаются.

ACM Conferences

LAPCA: Language-Agnostic Pretraining with Cross-Lingual Alignment | Proceedings of the 46th International ACM SIGIR Conference…

👍13🔥4

2.62K viewsedited 18:14

Dealer.AI

Вот тут как раз авторы уповают на жёсткую связность переводов в векторном пространстве после их метода обучения.

🔥4

1.74K viewsedited 18:15

Dealer.AI

Разумеется, предлагаемая схема

🔥2

1.71K viewsedited 18:17

Dealer.AI

Интересное про RL, от рок-н-роллщиков из жёлтого банка. 👇

1.59K viewsedited 07:08

Dealer.AI

Forwarded from Жёлтый AI

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

0:24

This media is not supported in your browser

VIEW IN TELEGRAM

ICML День #2: Туториалы

(Прим. редакции – @vkurenkov ушел спать прежде чем выдал нам впечатления о втором дне, видимо очень устал тусить на ICML. Поэтому пост с запозданием. Он предупредил нас, что на третий день пойдет кутить на вечеринку WandB, поэтому третий день конференции тоже ждем завтра).

Основная часть конференции с постерными сессиями начинается завтра (самое интересное!), а сегодня был день туториалов. Это в целом мало чем отличается от первого дня, только вместо того, что приходят компании и рассказывают про то как они применяют крутые технологии у себя, тут приходят рисерчеры и инженеры и делают интро в какую-то конкретную хайповую технологию.

В этот раз были — RLHF от HuggingFace + доклад по сбору данных от Toloka AI; графовые нейронные сети на TensorFlow (туда я не пошел); последние достижения в теории нейронных сетей; и обучение agent-centric латентных репрезентаций динамики в RL’e (сюда я пошел).

Скажу честно, если хоть сколько-то читали про эти штуки, то на докладе будет турбо-скучно, потому что никаких деталей там особо не раскрывается, но из плюсов — можно задать сразу интересующие вопросы. Вот, например, что Nathan Lambert из HuggingFace рассказывал про RLHF:

(1) Модель награды не тренируют больше одной эпохи, потому что оно дико оверфитится.
(2) Существующие трюки из RL’я далеко не всегда переносятся на RLHF, поэтому выдумывают новые.
(3) Хороший бейзлайн — вместо PPO использовать Best-of-N или Rejection Sampling.

P.S. в нулевой день мне понравилось больше, там я постучал в гонг и увидел 5 морских черепах на берегу — лучше всяких RLHF 🤙️️

👍8

1.69K views07:08

About

Blog

Apps

Platform