Машинное обучение digest
61 subscribers
2.97K photos
494 videos
1.81K links
Download Telegram
PyTorch 2.10 - что нового (коротко и по делу)

PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.

Главное по фичам:

torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).

Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.

varlen_attn() - attention для variable-length входов
Появилась новая опа в torch.nn.attention для ragged/packed последовательностей:
- работает и на forward, и на backward
- хорошо дружит с torch.compile
- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16

Быстрее eigendecomposition на GPU
В torch.linalg ускорили eigen decomposition на NVIDIA за счёт cuSOLVER DnXgeev.

Отладка / детерминизм:

torch.compile теперь уважает deterministic mode
Если включить torch.use_deterministic_algorithms(True), то torch.compile сохранит детерминированность между запусками - удобно для дебага.

DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций

Ещё важное:

TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.

tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.

Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).


https://pytorch.org/blog/pytorch-2-10-release-blog/

#PyTorch #OpenSourceAI #AIInfrastructure
⚡️ Вышел PyTorch 2.12,

Что завезли:


- batched linalg.eigh на CUDA теперь может работать до 100x быстрее
- появился новый torch.accelerator.Graph для graph capture и replay на разных ускорителях
- torch.export.save получил поддержку Microscaling quantization
- Adagrad теперь умеет fused=True
- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов

PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.

Особенно интересен torch.accelerator.Graph. Это шаг к более нормальной абстракции над CUDA, XPU и внешними backend-ами, чтобы код меньше зависел от конкретного ускорителя.

А ускорение linalg.eigh до 100x - хороший пример того, как одна внутренняя замена backend-логики может превратить минуты ожидания в секунды.

pytorch.org/blog/pytorch-2-12-release-blog

#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure