PyTorch 2.10 - что нового (коротко и по делу)
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
- работает и на forward, и на backward
- хорошо дружит с
- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
PyTorch выпустили версию 2.10 - релиз с упором на ускорение компиляции/инференса и отладку численных расхождений, что особенно полезно в больших distributed-тренировках.
Главное по фичам:
• torch.compile + Python 3.14
Добавили поддержку Python 3.14, включая экспериментальный freethreaded build (3.14t).
• Меньше overhead на GPU (horizontal fusion)
TorchInductor теперь лучше объединяет независимые операции в один GPU kernel, уменьшая kernel launch overhead и ускоряя пайплайны.
• varlen_attn() - attention для variable-length входов
Появилась новая опа в
torch.nn.attention для ragged/packed последовательностей:- работает и на forward, и на backward
- хорошо дружит с
torch.compile- сейчас через FlashAttention2, дальше планируют поддержку через cuDNN/FA4
- CUDA (A100+), dtype BF16/FP16
• Быстрее eigendecomposition на GPU
В
torch.linalg ускорили eigen decomposition на NVIDIA за счёт cuSOLVER DnXgeev.Отладка / детерминизм:
• torch.compile теперь уважает deterministic mode
Если включить
torch.use_deterministic_algorithms(True), то torch.compile сохранит детерминированность между запусками - удобно для дебага.• DebugMode для поиска numerical divergence
Новый режим для диагностики:
- логирование dispatch
- tensor hashing (видно, где именно “поехали” тензоры)
- dispatch hooks для заметок и аннотаций
Ещё важное:
• TorchScript официально deprecated
Рекомендуемый путь вперёд - torch.export.
• tlparse + TORCH_TRACE
Упростили сбор трассировок и артефактов, чтобы легче репортить баги в компиляторе.
• Релизы чаще в 2026
Планируют перейти на релиз раз в 2 месяца (вместо quarterly).
https://pytorch.org/blog/pytorch-2-10-release-blog/
#PyTorch #OpenSourceAI #AIInfrastructure
⚡️ Вышел PyTorch 2.12,
Что завезли:
- batched
- появился новый
-
- Adagrad теперь умеет
- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен
А ускорение
pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure
Что завезли:
- batched
linalg.eigh на CUDA теперь может работать до 100x быстрее- появился новый
torch.accelerator.Graph для graph capture и replay на разных ускорителях-
torch.export.save получил поддержку Microscaling quantization- Adagrad теперь умеет
fused=True- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен
torch.accelerator.Graph. Это шаг к более нормальной абстракции над CUDA, XPU и внешними backend-ами, чтобы код меньше зависел от конкретного ускорителя.А ускорение
linalg.eigh до 100x - хороший пример того, как одна внутренняя замена backend-логики может превратить минуты ожидания в секунды.pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure