gonzo-обзоры ML статей

Here are my slides from today's talk at Datafest Yerevan.

The talk was about non-transformer architectures, e.g., good old MLPs, CNNs, RNNs, and brand-new SSMs. It may be too dense with too many model names, but I think it may be useful as a reference for further exploration.

https://docs.google.com/presentation/d/19jpt6sSScUb1yKnlO3a47SsMRIL7UmqQZKkuADyI7nM/edit#slide=id.g2f6fb83b821_0_15

Google Docs

DataFest Yerevan 2024 / Not only Transformers

Not only Transformers Grigory Sapunov DataFest Yerevan 2024 07.09.2024 gs@inten.to

🔥43👍21❤‍🔥11❤2

10.8K views21:34

gonzo-обзоры ML статей

Интересная статистика сбоев в распределенной системе для обучения большой LLM. Из работы про Llama 3 (https://ai.meta.com/research/publications/the-llama-3-herd-of-models/)

👍37🔥9❤4❤‍🔥1

10K views07:43

gonzo-обзоры ML статей

Ризонинг подвезли!

https://openai.com/index/learning-to-reason-with-llms/

Openai

Learning to reason with LLMs

We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.

👍21❤5❤‍🔥5☃3🌚1

9.18K views17:50

gonzo-обзоры ML статей

⚡4👍2

9.67K views17:52

gonzo-обзоры ML статей

❤3⚡3

9.88K views17:52

gonzo-обзоры ML статей

Ура! Моя книга “Deep Learning with JAX” (в девичестве "JAX in Action") вышла в печать! Я только что получил свои бумажные копии 🙂

https://www.manning.com/books/deep-learning-with-jax

Для тех, кто не следил, JAX -- это питоновская библиотека для высокопроизводительных вычислений и large-scale ML, с отличной поддержкой ускорителей, в частности TPU.

На данный момент JAX является вполне реальной альтернативой TensorFlow и PyTorch (torch.func, в юности functorch, до сих пор пытается угнаться и всё ещё beta), и многие компании, в частности Google DeepMind, Cohere, xAI и прочие, перешли на него. На JAX созданы такие известные модели как AlphaFold, GraphCast, Gemini, Gemma, Grok, и я уже молчу сколько разного рисёча.

JAX -- это больше, чем библиотека для ML, это библиотека для очень разных высокопроизводительных, параллельных и распределённых вычислений. Не просто так его называют “NumPy на стероидах”. За пределами ML/DL, например, JAX активно используется для физических симуляций, и на GitHub есть уже огромное количество производных библиотек.

Сейчас отличное время, чтобы застолбить себе немного будущего :)

Отдельная радость должна быть для любителей функционального программирования, ибо JAX -- это первый фреймворк с большим охватом, работающий в этой парадигме. Очень прикольно использовать функции для трансформации других функций. Написали функцию для обработки одного элемента -- трансформировали в функцию для обработки батча. Написали сложную математическую функцию -- трансформировали в функцию, вычисляющую её производную. Аналогично с компиляцией и распараллеливанием. Никаких hidden state и side-effects, код чист, красив и понятен. А также БЫСТР! (см. https://x.com/fchollet/status/1735420737744507374)

Книга состоит из трёх частей на 370+ страницах.

Part 1: First steps.
Верхнеуровневое введение в JAX для менеджеров и вообще всех, рассказывающее, где и почему стоит использовать JAX. Плюс отдельная глава для тех, кто любит видеть код, где показан полный цикл реализации простой нейросети с использованием большинства фишек JAX.

Part 2: Core JAX.
Основная часть книги, где покрыты все основы JAX, шаг за шагом. От работы с массивами (тензорами), autodiff, компиляция, векторизация, параллелизация и шардирование, случайные числа (в функциональном программировании старые приёмы из NumPy не работают эффективно, зато теперь всё наглядно и воспроизводимо!) и pytrees.

Part 3: Ecosystem.
Большая глава с практическим знакомством с экосистемой высокоуровневых библиотек для DL (Flax, Optax, Orbax, CLU, …), а также примеры использования HuggingFace Transformers/Diffusers, которые давно уже добавили поддержку JAX. Также есть отдельная глава с очень верхнеуровневым и широким обзором того, что есть в JAX и вокруг за пределами нейросетевого мейнстрима.

Много крутых и умных людей читало и ревьюило мою книгу, спасибо куче GDE и не только. И отдельное спасибо Франсуа Шолле за добрые слова 🙂

“A comprehensive guide to mastering JAX, whether you’re a seasoned deep learning practitioner or just venturing into the realm of differentiable programming and large-scale numerical simulations.”
-- François Chollet, Software Engineer, Google

В общем это был прикольный опыт, я доволен результатом, надеюсь, вам тоже понравится.

Ещё отдельное спасибо всем, кто поддерживал GonzoML на Патреоне (https://www.patreon.com/GonzoML). Всем действующим платным членам нашей тесной группы я отправил коды для получения книги бесплатно (проверьте сообщения!) -- у вас будет постоянно обновляемая версия (a JAX очевидно будет меняться!) в онлайн доступе.

Manning Publications

Deep Learning with JAX - Grigory Sapunov

Accelerate deep learning and other number-intensive tasks with JAX, Google’s awesome high-performance numerical computing library.

🔥189🎉45👍22❤13👏8❤‍🔥5

20.5K viewsedited 07:43

gonzo-обзоры ML статей

❤92👍47🔥25

9.08K views07:43

gonzo-обзоры ML статей

Не забыли ещё про KAN'ы? А тут уже KAT'ы подвезли!

Kolmogorov-Arnold Transformer
Xingyi Yang, Xinchao Wang
https://arxiv.org/abs/2409.10594

arXiv.org

Kolmogorov-Arnold Transformer

Transformers stand as the cornerstone of mordern deep learning. Traditionally, these models rely on multi-layer perceptron (MLP) layers to mix the information between channels. In this paper, we...

🔥74😱29🥱14💊4👍2🤔2

10.5K views20:33

gonzo-обзоры ML статей

В развитие темы про "не только трансформеры" и SSM. На The Gradient попалась неплохая статья с полезной интуицией про Мамбу:

https://thegradient.pub/mamba-explained/

The Gradient

Mamba Explained

Is Attention all you need? Mamba, a novel AI model based on State Space Models (SSMs), emerges as a formidable alternative to the widely used Transformer models, addressing their inefficiency in processing long sequences.

👍28❤7🔥1

13.4K viewsedited 10:42

About

Blog

Apps

Platform