Data Science by ODS.ai 🦜
45.1K subscribers
754 photos
84 videos
7 files
1.83K links
First Telegram Data Science channel. Covering all technical and popular staff about anything related to Data Science: AI, Big Data, Machine Learning, Statistics, general Math and the applications of former. To reach editors contact: @malev
Download Telegram
Neural nets are terrible at arithmetic & counting. If you train one in 1 to 10, it will do okay on 3 + 5 but fail miserably for 1000 + 3000. Resolving this, «Neural Arithmetic Logic Units» can track time, do arithmetic on images of numbers, & extrapolate, providing better results than other architectures.

https://arxiv.org/pdf/1808.00508.pdf

#nn #architecture #concept #deepmind #arithmetic
Mastermind: Using Uber Engineering to Combat Fraud in Real Time

Article on general aspects of how #Uber’s fraud prevention engine works.

Link: https://eng.uber.com/mastermind/

#architecture
​​TResNet: High Performance GPU-Dedicated Architecture

An alternative design of ResNet Architecture to better utilize GPU structure and assets.

Modern neural net architectures provide high accuracy but often at the expense of FLOPS count.
The authors of this paper suggest various design and optimization improvements achieve both higher accuracy and efficiency.

There are three variants of architecture: TResNet-M, TResNet-L, and TResNet-XL. These three models vary only in-depth and the number of channels.

The refinements of the architecture:
– SpaceToDepth stem
– Anti-Alias downsampling
– In-Place Activated BatchNorm
– Blocks selection
– SE layers

They also use Jit Compilation for layers without learnable parameters and a custom implementation of Average pooling with up to 5 times speed increase.

Paper: https://arxiv.org/abs/2003.13630
Github: https://github.com/mrT23/TResNet

#deeplearning #architecture #optimization
Forwarded from Binary Tree
Diagrams lets you draw the cloud system architecture in Python code. It was born for prototyping a new system architecture design without any design tools. You can also describe or visualize the existing system architecture as well. Diagrams currently supports main major providers including: AWS, Azure, GCP, Kubernetes, Alibaba Cloud, Oracle Cloud etc... It also supports On-Premise nodes, SaaS and major Programming frameworks and languages.

#python, #diagram, #drawing, #prototyping, #architecture
👍1
Forwarded from Machinelearning
⚡️ Mamba-3 тихо и без объявления вышла на ICLR - и это может стать началом конца эпохи Transformers.

Новая архитектура Mamba-3 делает модели быстрее, стабильнее и эффективнее при работе с длинными контекстами.

Главная идея - не в слоях внимания, а в state-space моделях, где модель хранит и обновляет внутреннее состояние во времени.

📘 Краткие эускурс:
- Mamba-1 ввела непрерывную динамику и выборочное обновление памяти - помнила эффективно без высокой цены attention.
- Mamba-2 показала, что обновления состояния и attention - это две стороны одной математики, что ускорило вычисления на GPU.
- Mamba-3 довела концепцию до зрелости: теперь внутренняя память развивается плавнее и устойчивее за счёт перехода от простого шага Эйлера к трапецеидальному интегрированию.

Вместо простого шага Эйлера, как в Mamba-2, Mamba-3 аппроксимирует интеграл обновления состояния не только по правому концу интервала, но усреднением между началом и концом, с коэффициентом λ, зависящим от данных. Это даёт более точное приближение (второго порядка) и делает динамику состояния более выразительной.

🧠 Что изменилось под капотом:

- Память стала «ритмичной»: теперь модель может хранить повторяющиеся и периодические паттерны (например, структуры языка или музыки).

- Новый multi-input-multi-output дизайн позволяет обрабатывать несколько потоков параллельно — идеально для современных GPU.

⚙️ Что это даёт на практике:
- Эффективная работа с длинными последовательностями: документы, геномы, временные ряды.

- Линейное время выполнения и стабильная задержка делают её идеальной для реального времени: чат-ботов, перевода, речи.

- Энергоэффективность и масштабируемость открывают путь к on-device AI, где большие модели работают локально, без облака.

Mamba-3 - это не просто ускоренная альтернатива Transformers.

Это новая архитектура, которая объединяет глубокое понимание контекста, скорость и устойчивость, от серверных систем до умных устройств.

🟢 Подробности: https://openreview.net/pdf?id=HwCvaJOiCj

@ai_machinelearning_big_data


#ssm #mamba3 #llm,#architecture #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥65😱1🦄1