Dealer.AI

Нарезка.

2.54K views18:37

Dealer.AI

Схема кэша

2.71K views18:37

Dealer.AI

Метрики

2.65K views18:37

Dealer.AI

Юмор начала рабочей недели.

Когда сказал бате, что дистиллируешь модели на работе, но он понял это по-своему.

😁32👍10

3.05K viewsedited 08:19

Dealer.AI

NanoFlow, что-то про yet another vLLM.

Чет в последнее время везде любители микро, мини, нано ~~займов~~ неймингов стали.

NanoFlow очередная тема для сервинга LLM.

Крч, обещают ап скорости в ~1.9 раза vs TensorRT. Получается засчет бэка на c++. Интеграция с CUTLASS, MSCCL++, FlashInfer —присутствует.

Че есть еще?

- Nano-batching;
- Management KV-кэша;
- Оптимизация метапараметров инференса моделей.

Код туть. Станет ли это конкурентом vLLM— не знаю, но когда-то и в него дядя верил, а другие не раскусили потенциал. Но и к тому же на рынке уже куча решений, еще одно интересное LitServe у коллеги по цеху тут.

🔥6

3.1K viewsedited 13:32

Dealer.AI

Mixture of Nested Experts (MoNE) или что сокрыто в ~~имени~~ сетке твоей.

Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке.

О чем это я? Да вот есть новый концепт Nested experts. Работа опирается на следующее.
На разном уровне вложенности в слоях модели, мы получаем разный details описываемого. Загнул дядя? Ща поясню. Для задач с картинками, как в примере к статье (а тут берут ViT) на входе в модель мы имеем векторное представление картинки, которое представляет весь объект в целом,но чем глубже мы проносим это представление от входа по слоям к выходу, тем более сложные детали изображения мы кодируем. По этому поводу есть разные исследования и для текстовых моделей в тч. Таким образом, чем дальше от начала мы берем эмб объекта, тем более тонкие материи он кодирует.

При чем тут эксперты спросите вы? А вот тут как раз вступает процедура нарезки модели на такие вот части разной глубины кодирования. Вся модель e2e — это первый эксперт. Далее, мы берем, допустим вырезаем середину модели,но берем не полную размерность от эмба — это эксперт два и в конце режем совсем малую подсетку от конца к некотором слою -L и при этом еще и также режем размерноть на -М. Для примера, авторы делают нарезку в К раз, где К =2 , те второй эксперт меньше модели по числу слоев и размеру эмбов в х2 раз, а третий в 4 раза. Тут мы имеем сразу два гиперпараметра и размер нарезки и стратегию нарезки (какие слои брать в эксперта).

Далее авторы берут ViT нарезают image на токены и кормят экспертам их по стратегии: сначала себе выбирает топN токенов вся модель, далее из тех что остались разыгрывается топN для второй серединной модельки и оставшиеся остаются "малышу" на розыгрыш.

MHA магия. Все это далее шизо-образом идет в MultiHead (картинка ниже прилагается). Для фулл модели токены имеют фулл размерность, и идут по классике в MHA. А вот для "урезанных" представлений эмбов идут в урезанные до их же размера QKV веса модуля внимания. Для того чтобы взаимодействовать с другими токенами в MHA с большим размером эмбов, их всех приводят к размеру исходной модели засчет доп. отображения. Пройдя интеракции и получив влияние от окружения такие токены идут в MLP приводящий их снова к размеру урезанного эмба и все повторяется снова.

Выводы:
Так и для чего эта вся магия была нужна? А для того, по мнению дяди, чтобы получить PCA (метод главных компонент) на максималках. Тк мы имеем экспертов с разным масштабом вложенности, да еще и с разными участками-токенами картинки, мы можем анализировать какой эксперт какую долю информации по участкам взял на себя для принятия решения. И это показано в статье в виде картинок: исходник и что на Ком эксперте. Выглядит во многом логично, но есть примеры, где модель аттендится не на те участки, что выбрал бы я сам как "главные компоненты".

Вот такая интересная статья, надо бы примериться к текстам с таким подходом. Остается незакрытым вопрос стратегии выбора подсеток (вот тут мб и Lottery tickets в помощь) ибо я сходу могу предложить несколько, но какая лучше тут еще есть место для ablation study и новой статьи.

P. S. Название красивое кстати MoNE.

🤨5👍4🤯3🔥1

2.61K viewsedited 14:12

Dealer.AI

Механизм внимания

👍1🔥1🤯1

2.7K views14:14

Dealer.AI

Примеры аттенда на компоненты картинок.

🤯2

2.9K views14:17

Dealer.AI

Вот еще прикольное, но я думал во втором случае будет рука главная.

👍2

3.14K viewsedited 14:17

Dealer.AI

Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей. Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке. О чем это я? Да вот есть новый…

На самом деле конечно это не PCA, ап метрик видим в тч задаче ImgNet CLF , что с таким подходом мы учимся быстрее.

👍1🔥1

3.5K views14:25

Dealer.AI

Дядя всех дядь, мой друк и крутой Kaggle Grand Maestro (дада именно так и не иначе) запилил свой канал про соревнования.👇

🔥5

3.09K views19:19

Dealer.AI

Forwarded from adapt compete evolve or die

Иногда думать медленно, облекая мысли в слова, полезно и даже приятно.

Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.

Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.

Люблю смотреть как падает loss и спонтанность. Не люблю ждать.

👍20

3.19K views19:19

Dealer.AI

🏆 Наши слоны с AutoML побеждают на международной арене

Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!

🚀 LightAutoML - бесплатный и открытый инструмент.

Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.

🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.

🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.

p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.

Kaggle

AutoML Grand Prix Finale - Congratulations to our Winners! | Kaggle

AutoML Grand Prix Finale - Congratulations to our Winners!.

534🔥37❤3👍3

3.32K viewsedited 09:02

Dealer.AI

O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.

💳

Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?

Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.

Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.

Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.

UPD. И да ждем подробностей в следующих анонсах.

Please open Telegram to view this post

VIEW IN TELEGRAM

Openai

Learning to reason with LLMs

We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.

50👍7😁1

3.17K viewsedited 17:21

Dealer.AI

O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳 Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/ Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного? Первое…

o1-system-card.pdf

1.9 MB

да название o1 system card прям тонко)

😁4

2.68K viewsedited 19:09

Dealer.AI

RIG-RAG и DataCommons, как Gemma работает с надежными источниками данных.

Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.

Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.

Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.

Гугл продолжает свои исследования.

Google

DataGemma: Using real-world data to address AI hallucinations

Introducing DataGemma, the first open models designed to connect LLMs with extensive real-world data drawn from Google's Data Commons.

👍12❤2

3.52K viewsedited 08:29

Dealer.AI

Схема RIG-RAG

Upd. research paper http://datacommons.org/link/DataGemmaPaper

50👍10

3.6K viewsedited 08:30

Dealer.AI

Exo для тех кто мечтал в "две руки".

exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).

Если вы мечтали быть "пианистом" LLM и фигачить в две и более ~~руки~~ пекарни веса жирных моделек - это ваш вариант.

Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.

git: https://github.com/exo-explore/exo

GitHub

GitHub - exo-explore/exo: Run frontier AI locally.

Run frontier AI locally. Contribute to exo-explore/exo development by creating an account on GitHub.

🔥18👍5🫡5😁2

4.47K viewsedited 18:31

Dealer.AI

Курс Агентов 007.

Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).

🔥15👍8❤2😁2

4.73K views10:34

Dealer.AI

Юмор выходного дня.

Завтра кому-то на работу и снова будет так)

👍18😁11😢2

3.73K viewsedited 16:48

About

Blog

Apps

Platform