NanoFlow, что-то про yet another vLLM.
Чет в последнее время везде любители микро, мини, нанозаймов неймингов стали.
NanoFlow очередная тема для сервинга LLM.
Крч, обещают ап скорости в ~1.9 раза vs TensorRT. Получается засчет бэка на c++. Интеграция с CUTLASS, MSCCL++, FlashInfer —присутствует.
Че есть еще?
- Nano-batching;
- Management KV-кэша;
- Оптимизация метапараметров инференса моделей.
Код туть. Станет ли это конкурентом vLLM— не знаю, но когда-то и в него дядя верил, а другие не раскусили потенциал. Но и к тому же на рынке уже куча решений, еще одно интересное LitServe у коллеги по цеху тут.
Чет в последнее время везде любители микро, мини, нано
NanoFlow очередная тема для сервинга LLM.
Крч, обещают ап скорости в ~1.9 раза vs TensorRT. Получается засчет бэка на c++. Интеграция с CUTLASS, MSCCL++, FlashInfer —присутствует.
Че есть еще?
- Nano-batching;
- Management KV-кэша;
- Оптимизация метапараметров инференса моделей.
Код туть. Станет ли это конкурентом vLLM— не знаю, но когда-то и в него дядя верил, а другие не раскусили потенциал. Но и к тому же на рынке уже куча решений, еще одно интересное LitServe у коллеги по цеху тут.
🔥6
Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей.
Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке.
О чем это я? Да вот есть новый концепт Nested experts. Работа опирается на следующее.
На разном уровне вложенности в слоях модели, мы получаем разный details описываемого. Загнул дядя? Ща поясню. Для задач с картинками, как в примере к статье (а тут берут ViT) на входе в модель мы имеем векторное представление картинки, которое представляет весь объект в целом,но чем глубже мы проносим это представление от входа по слоям к выходу, тем более сложные детали изображения мы кодируем. По этому поводу есть разные исследования и для текстовых моделей в тч. Таким образом, чем дальше от начала мы берем эмб объекта, тем более тонкие материи он кодирует.
При чем тут эксперты спросите вы? А вот тут как раз вступает процедура нарезки модели на такие вот части разной глубины кодирования. Вся модель e2e — это первый эксперт. Далее, мы берем, допустим вырезаем середину модели,но берем не полную размерность от эмба — это эксперт два и в конце режем совсем малую подсетку от конца к некотором слою -L и при этом еще и также режем размерноть на -М. Для примера, авторы делают нарезку в К раз, где К =2 , те второй эксперт меньше модели по числу слоев и размеру эмбов в х2 раз, а третий в 4 раза. Тут мы имеем сразу два гиперпараметра и размер нарезки и стратегию нарезки (какие слои брать в эксперта).
Далее авторы берут ViT нарезают image на токены и кормят экспертам их по стратегии: сначала себе выбирает топN токенов вся модель, далее из тех что остались разыгрывается топN для второй серединной модельки и оставшиеся остаются "малышу" на розыгрыш.
MHA магия. Все это далее шизо-образом идет в MultiHead (картинка ниже прилагается). Для фулл модели токены имеют фулл размерность, и идут по классике в MHA. А вот для "урезанных" представлений эмбов идут в урезанные до их же размера QKV веса модуля внимания. Для того чтобы взаимодействовать с другими токенами в MHA с большим размером эмбов, их всех приводят к размеру исходной модели засчет доп. отображения. Пройдя интеракции и получив влияние от окружения такие токены идут в MLP приводящий их снова к размеру урезанного эмба и все повторяется снова.
Выводы:
Так и для чего эта вся магия была нужна? А для того, по мнению дяди, чтобы получить PCA (метод главных компонент) на максималках. Тк мы имеем экспертов с разным масштабом вложенности, да еще и с разными участками-токенами картинки, мы можем анализировать какой эксперт какую долю информации по участкам взял на себя для принятия решения. И это показано в статье в виде картинок: исходник и что на Ком эксперте. Выглядит во многом логично, но есть примеры, где модель аттендится не на те участки, что выбрал бы я сам как "главные компоненты".
Вот такая интересная статья, надо бы примериться к текстам с таким подходом. Остается незакрытым вопрос стратегии выбора подсеток (вот тут мб и Lottery tickets в помощь) ибо я сходу могу предложить несколько, но какая лучше тут еще есть место для ablation study и новой статьи.
P. S. Название красивое кстати MoNE.
Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке.
О чем это я? Да вот есть новый концепт Nested experts. Работа опирается на следующее.
На разном уровне вложенности в слоях модели, мы получаем разный details описываемого. Загнул дядя? Ща поясню. Для задач с картинками, как в примере к статье (а тут берут ViT) на входе в модель мы имеем векторное представление картинки, которое представляет весь объект в целом,но чем глубже мы проносим это представление от входа по слоям к выходу, тем более сложные детали изображения мы кодируем. По этому поводу есть разные исследования и для текстовых моделей в тч. Таким образом, чем дальше от начала мы берем эмб объекта, тем более тонкие материи он кодирует.
При чем тут эксперты спросите вы? А вот тут как раз вступает процедура нарезки модели на такие вот части разной глубины кодирования. Вся модель e2e — это первый эксперт. Далее, мы берем, допустим вырезаем середину модели,но берем не полную размерность от эмба — это эксперт два и в конце режем совсем малую подсетку от конца к некотором слою -L и при этом еще и также режем размерноть на -М. Для примера, авторы делают нарезку в К раз, где К =2 , те второй эксперт меньше модели по числу слоев и размеру эмбов в х2 раз, а третий в 4 раза. Тут мы имеем сразу два гиперпараметра и размер нарезки и стратегию нарезки (какие слои брать в эксперта).
Далее авторы берут ViT нарезают image на токены и кормят экспертам их по стратегии: сначала себе выбирает топN токенов вся модель, далее из тех что остались разыгрывается топN для второй серединной модельки и оставшиеся остаются "малышу" на розыгрыш.
MHA магия. Все это далее шизо-образом идет в MultiHead (картинка ниже прилагается). Для фулл модели токены имеют фулл размерность, и идут по классике в MHA. А вот для "урезанных" представлений эмбов идут в урезанные до их же размера QKV веса модуля внимания. Для того чтобы взаимодействовать с другими токенами в MHA с большим размером эмбов, их всех приводят к размеру исходной модели засчет доп. отображения. Пройдя интеракции и получив влияние от окружения такие токены идут в MLP приводящий их снова к размеру урезанного эмба и все повторяется снова.
Выводы:
Так и для чего эта вся магия была нужна? А для того, по мнению дяди, чтобы получить PCA (метод главных компонент) на максималках. Тк мы имеем экспертов с разным масштабом вложенности, да еще и с разными участками-токенами картинки, мы можем анализировать какой эксперт какую долю информации по участкам взял на себя для принятия решения. И это показано в статье в виде картинок: исходник и что на Ком эксперте. Выглядит во многом логично, но есть примеры, где модель аттендится не на те участки, что выбрал бы я сам как "главные компоненты".
Вот такая интересная статья, надо бы примериться к текстам с таким подходом. Остается незакрытым вопрос стратегии выбора подсеток (вот тут мб и Lottery tickets в помощь) ибо я сходу могу предложить несколько, но какая лучше тут еще есть место для ablation study и новой статьи.
P. S. Название красивое кстати MoNE.
🤨5👍4🤯3🔥1
Dealer.AI
Mixture of Nested Experts (MoNE) или что сокрыто в имени сетке твоей. Народ обмазывается MoE концептом по-крупному: то роутят small-LM, то роутят multimodal projection, а теперь роутят "lottery tickets" в самой модельке. О чем это я? Да вот есть новый…
На самом деле конечно это не PCA, ап метрик видим в тч задаче ImgNet CLF , что с таким подходом мы учимся быстрее.
👍1🔥1
Дядя всех дядь, мой друк и крутой Kaggle Grand Maestro (дада именно так и не иначе) запилил свой канал про соревнования.👇
🔥5
Forwarded from adapt compete evolve or die
Иногда думать медленно, облекая мысли в слова, полезно и даже приятно.
Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.
Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.
Люблю смотреть как падает loss и спонтанность. Не люблю ждать.
Когда-то у меня был сетевой дневник, но мне слишком нравится начинать с чистого листа, не оставляя никакой памяти позади.
Я отец замечательных парней, разработчик моделей, kaggle grandmaster, в свободное от работы время решаю соревнования на аналитику данных (хорошо), играю в шахматы и на гитаре (плохо) и занимаюсь каким-нибудь спортом (приемлемо). Супер-соревновательный и ищу соревнование даже там, где не надо.
Люблю смотреть как падает loss и спонтанность. Не люблю ждать.
👍20
🏆 Наши слоны с AutoML побеждают на международной арене
Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!
🚀 LightAutoML - бесплатный и открытый инструмент.
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.
🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.
🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.
p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.
Команда “LightAutoML testers” победила в международном соревновании Kaggle AutoML Grand Prix! Наши рубята: Александр Рыжков, Дмитрий Симаков, Ринчин Дамдинов и Иван Глебов с помощью решений на основе LightAutoML обошли известных конкурентов по индустрии, включая команды из Amazon и H2O!
🚀 LightAutoML - бесплатный и открытый инструмент.
Ключом к успеху стала open-source библиотека LightAutoML (LAMA), которая автоматизирует построение моделей машинного обучения. Благодаря использованию библиотеки ускоряется построение моделей и, зачастую, повышается качество. Инструмент подойдет как новичкам, так и профессионалам - решение можно получить как в несколько строк, так и с полной кастомизацией.
🌍 Kaggle AutoML Grand Prix 2024
Это - онлайн соревнование, приуроченное к ежегодной международной конференции International Conference on Automated Machine Learning, которая в этом году пройдет в Париже. Соревнование проходило на Kaggle (самой масштабной мировой платформе для соревнований по анализу данных) в 5 этапов, в каждом из которых было необходимо создать качественную модель машинного обучения всего за 24 часа.
🎓 Команда делится опытом
Хотите узнать секреты победителей? Не пропустите предстоящий вебинар, где команда расскажет о своих решениях и ответит на ваши вопросы! Следите за анонсами в канале @lightautoml.
p. s. я давно дружу с Димой и Сашей, вместе кагглили и много летали по лидерборду, горжусь.
Kaggle
AutoML Grand Prix Finale - Congratulations to our Winners! | Kaggle
AutoML Grand Prix Finale - Congratulations to our Winners!.
534🔥37❤3👍3
O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳
Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?
Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.
Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.
Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.
UPD. И да ждем подробностей в следующих анонсах.
Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/
Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного?
Первое-это цепочка рассуждений (CoT) которую делает алгоритм прежде, чем ответит LLM. Эта идея не нова, интересно как это реализовали.
Второе-как выбирают лучшую цепочку, возможно тут зарыт RL и тот самый q-learning или уже мифический q*.
Ну и мы видим, что некоторые евангелисты AI правы и модели будут идти в сторону динамического планинга рассуждений и генерации ответа на этом.
UPD. И да ждем подробностей в следующих анонсах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Openai
Learning to reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
50👍7😁1
Dealer.AI
O1 как виза только LLM. Видимо эта сможет попасть по талантам куда угодно.💳 Не останусь в стороне этого превью:https://openai.com/index/learning-to-reason-with-llms/ Конечно в посте куча метрик, большой ап по бенчам и тп. Но для меня. Что интересного? Первое…
o1-system-card.pdf
1.9 MB
да название o1 system card прям тонко)
😁4
RIG-RAG и DataCommons, как Gemma работает с надежными источниками данных.
Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.
Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.
Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.
Гугл продолжает свои исследования.
Как-то осталось незамеченным решение Gemma вчера на фоне o1 от openAI, при том что вышел анонс пораньше. И если o1 работает с релевантностью ответов через CoT, то гуглы идут от своих преимуществ поиска и собирают DataCommons. DataCommons—это источник надежных БД (по мнению гугла), состоящий из разных доменов и типов данных (таблицы, текст, графики и тп.), которые динамически расширяются и изменяются.
Естественно, для вопросно-ответных систем надежность источников данных стоит на первых местах. Помимо этого Gemma использует два уже устоявшихся концепта RIG и RAG поверх DataCommons.
RIG позволяет делать из промпта упреждающие структурированные запросы в БД , обращаясь именно к тем доменным областям и данным, которые релевантны для исходного запроса. Также в данной системе есть алгоритм проверки достоверности стат.данных извлеченных из БД. При этом RAG используется также—запрос трансформируется в К запросов свободной формы в разные места БД.
Совмещение надёжных источников, rig и rag дает прирост в релевантности ответов, для примера в gemma27b и 7b.
Гугл продолжает свои исследования.
Google
DataGemma: Using real-world data to address AI hallucinations
Introducing DataGemma, the first open models designed to connect LLMs with extensive real-world data drawn from Google's Data Commons.
👍12❤2
Exo для тех кто мечтал в "две руки".
exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).
Если вы мечтали быть "пианистом" LLM и фигачить в две и болееруки пекарни веса жирных моделек - это ваш вариант.
Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.
git: https://github.com/exo-explore/exo
exo — это тулза для распределенного запуска на своих девайсах LLM. Поддерживается iPhone, iPad, Android, Mac, Linux. Использует среды MLX, llama.cpp, tinygrad. В качестве стратегии шеринга весов моделей использует разные стратегии, а по дефолту схему "кольцо" (напоминает layer/pipline parallelism).
Если вы мечтали быть "пианистом" LLM и фигачить в две и более
Пример. Вот тут чувак запилил инференс на х2 маках 405b llama3.1.
git: https://github.com/exo-explore/exo
GitHub
GitHub - exo-explore/exo: Run frontier AI locally.
Run frontier AI locally. Contribute to exo-explore/exo development by creating an account on GitHub.
🔥18👍5🫡5😁2
Курс Агентов 007.
Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).
Из соседнего чатека занесли:
- Ongoing курс по LLM агентам
https://llmagents-learning.org/f24
потихоньку выкладывают записи лекций и слайды(с).
🔥15👍8❤2😁2