Главная идея книги - показать, почему и как глубокие нейросети учатся извлекать сжатые, информативные представления сложных данных, и что у них внутри:
📖 Читать онлайн: ma-lab-berkeley.github.io/deep-representation-learning-book
@ai_machinelearning_big_data
#book #deeplearning #representationlearning #ucberkeley #machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Сенсей Карпаты выложил новый репозиторий - полный пайплайн обучения LLM с нуля
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
🟠 GitHub:https://github.com/karpathy/nanochat
🟠 Технические детали: https://github.com/karpathy/nanochat/discussions/1
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
В проекте есть всё, чтобы собрать свой ChatGPT-клон за $100 и 4 часа:
> • токенизатор
> • pretraining
> • SFT (supervised fine-tuning)
> • RL (reinforcement learning)
> • оценка модели (eval)
Всего 8 000 строк кода, без лишних зависимостей - идеальный учебный пример, чтобы понять, как реально устроено обучение больших языковых моделей.
💡 Это проект из его нового грядущего курса LLM101n, и отличная возможность прокачать свои ML-навыки на практике.
Можно арендовать GPU в облаке и запустить всё самому - код уже готов к запуску.
Если запустить обучение модели nanochat на облачном GPU-сервере (например, 8×H100), то примерно через 12 часов обучения (стоимость ~300–400 $) модель достигает уровня GPT-2 по качеству на тестовых наборах (CORE-score).
А если тренировать около 40 часов (затраты ~1000 $), решает простые задачи по математике и коду, набирая:
- 40+ на MMLU
- 70+ на ARC-Easy
- 20+ на GSM8K
🧠 Это бесплатная практика топ уровня от мастера, которую не стоит упускать.
@ai_machinelearning_big_data
#LLM #nanochat #MachineLearning #DeepLearning #AI #GPT
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
🧠 Андрей Карпаты научил nanochat считать буквы - и объяснил, как расширять способности модели.
Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, чьи размеры он сравнил с «мозгом пчелы».
Он обучил модель считать, сколько раз буква r встречается в слове strawberry - и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Он использует задачу SpellingBee, которая генерирует диалоги вида:
> «Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель дообучается (**SFT**) или проходит обучение с подкреплением (RL), чтобы закрепить навык.
Далее модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче «понимает» задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово,
— и через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
🧩 Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Полный разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
Карпаты показал, как добавить новую функцию в мини-LLM nanochat d32, чьи размеры он сравнил с «мозгом пчелы».
Он обучил модель считать, сколько раз буква r встречается в слове strawberry - и использовал этот пример, чтобы показать, как можно наделять маленькие языковые модели новыми навыками через синтетические задачи.
Он использует задачу SpellingBee, которая генерирует диалоги вида:
> «Сколько букв r в слове strawberry?»
и правильные ответы.
После этого модель дообучается (**SFT**) или проходит обучение с подкреплением (RL), чтобы закрепить навык.
Далее модель проходит дообучение (SFT) или обучение с подкреплением (RL), чтобы закрепить навык.
Карпаты объясняет, что для маленьких моделей важно продумывать всё до мелочей, как разнообразить запросы, как устроена токенизация и даже где ставить пробелы.
Он показывает, что рассуждения лучше разбивать на несколько шагов, тогда модель легче «понимает» задачу.
Nanochat решает задачу двумя способами:
— логически, рассуждая пошагово,
— и через встроенный Python-интерпретатор, выполняя вычисления прямо внутри чата.
🧩 Идея в том, что даже крошечные LLM можно «научить думать», если правильно подготовить примеры и синтетические данные.
📘 Полный разбор: github.com/karpathy/nanochat/discussions/164
@ai_machinelearning_big_data
#AI #Karpathy #Nanochat #LLM #SFT #RL #MachineLearning #OpenSource
🔥 Hugging Face снова выкатили полезные материалы
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
Вышла бесплатная плейбук о том, как изнутри строят SOTA-модели.
Без общих слов - только реальные решения и нюансы, которые обычно скрыты внутри исследовательских команд.
Это полноценный playbook для тех, кто хочет понимать, как утсрены современные LLM.
Что внутри:
• Логика построения модели: зачем → что → как
• Как разработчики берут модель и по частям включают/выключают компоненты (или меняют их)
• Архитектура: ключевые выборы и trade-offs
• Искусство подбора и очистки данных
• Как проходит обучение моделей
• Пост-тренинг и RLHF в 2025
• Инфраструктура больших моделей
По первым страницам - уровень деталей как в Ultra-scale playbook.
Ссылка: https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
@ai_machinelearning_big_data
#AI #LLM #MachineLearning #HuggingFace
🚀 DeepSeek Вернулись
Компания выпустила DeepSeek Math V2 - мощную модель для самопроверяемых математических рассуждений.
Модель способна не просто решать задачи, а самостоятельно проверять корректность своих доказательств.
Это шаг от генерации ответа к глубокому, надёжному и логически выверенному выводу.
📊 Результаты:
- уровень золотой медали на IMO 2025
- почти идеальные результаты на CMO 2024
- 118 из 120 баллов на Putnam 2024
🔍 Главное отличие от предыдущих моделей:
ИИ учится *мыслить строго*, пошагово формируя доказательство и сам проверяет логическую связность каждого шага.
Модель остаётся компактной и может работать даже на одной GPU, без мощной инфраструктуры. Подходит как для автоматизированного решения задач, так и для обучения, генерации разборов и проверки решений.
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
@ai_machinelearning_big_data
#AI #DeepSeek #Math #LLM #MachineLearning #OpenSource #
Компания выпустила DeepSeek Math V2 - мощную модель для самопроверяемых математических рассуждений.
Модель способна не просто решать задачи, а самостоятельно проверять корректность своих доказательств.
Это шаг от генерации ответа к глубокому, надёжному и логически выверенному выводу.
📊 Результаты:
- уровень золотой медали на IMO 2025
- почти идеальные результаты на CMO 2024
- 118 из 120 баллов на Putnam 2024
🔍 Главное отличие от предыдущих моделей:
ИИ учится *мыслить строго*, пошагово формируя доказательство и сам проверяет логическую связность каждого шага.
Модель остаётся компактной и может работать даже на одной GPU, без мощной инфраструктуры. Подходит как для автоматизированного решения задач, так и для обучения, генерации разборов и проверки решений.
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
@ai_machinelearning_big_data
#AI #DeepSeek #Math #LLM #MachineLearning #OpenSource #
🚀 GELab-Zero - первый полноценный open-source стек “Model + Infra” для GUI-агентов.
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
🟠 HuggingFace: https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
🟠 GitHub: https://github.com/stepfun-ai/gelab-zero
🟠 Blog: https://opengelab.github.io/index.html
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
NVIDIA представила новое открытое семейство моделей Nemotron 3
Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
Guide: https://docs.unsloth.ai/models/nemotron-3
GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF
lmstudio: https://lmstudio.ai/models/nemotron-3
@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Nemotron 3 Nano - это универсальная модель для рассуждений и чата, ориентированная на локальный запуск.
Ключевые характеристики:
- MoE-архитектура: 30B параметров всего, ~3.5B активных
- Контекст до 1 миллиона токенов
- Гибридная архитектура:
- 23 слоя Mamba-2 + MoE
- 6 attention-слоёв
- Баланс между скоростью и качеством рассуждений
Требования:
- необходимо около 24 ГБ видеопамяти для локального запуска
Модель хорошо подходит для длинных диалогов, анализа документов и reasoning-задач
Интересный пример того, как MoE и Mamba начинают реально снижать требования к железу, сохраняя масштаб контекста и качество.
Nemotron 3 Super и Nemotron 3 Ultra значительно превосходят Nano по масштабу - примерно в 4 раза и 16 раз соответственно. Но ключевой момент здесь не просто в размере моделей, а в том, как NVIDIA удалось увеличить мощность без пропорционального роста стоимости инференса.
Для обучения Super и Ultra используется NVFP4 и новая архитектура Latent Mixture of Experts. Она позволяет задействовать в четыре раза больше экспертов при той же стоимости инференса. По сути, модель становится «умнее» за счёт более гибкого выбора экспертов, а не за счёт постоянной активации всех параметров.
Дополнительно применяется Multi-Token Prediction, что ускоряет обучение и улучшает качество рассуждений на длинных последовательностях. Это особенно важно для agentic и multi-agent сценариев, где модели работают с длинным контекстом и сложными цепочками решений.
NVIDIA публикует не только веса, но и данные для предобучения и постобучения, а также технические детали, которые объясняют, почему эти модели одновременно быстрые и сильные.
Такой уровень открытости - редкость для моделей этого масштаба и хороший сигнал для индустрии.Release: https://developer.nvidia.com/blog/inside-nvidia-nemotron-3-techniques-tools-and-data-that-make-it-efficient-and-accurate/
Guide: https://docs.unsloth.ai/models/nemotron-3
GGUF: https://huggingface.co/unsloth/Nemotron-3-Nano-30B-A3B-GGUF
lmstudio: https://lmstudio.ai/models/nemotron-3
@ai_machinelearning_big_data
#AI #LLM #NVIDIA #Nemotron3 #OpenSource #MachineLearning
Моделька на 309B параметров, из которых одновременно активны лишь 15B - за счёт умной MoE-маршрутизации модель достигает высокой эффективности. Сравнима с DeepSeek-V3.2 на общих бенчмарках.
MiMo-V2-Flash заточена под агентов и работу с инструментами.
🔥 Ключевые особенности
🏗️ Hybrid Attention
5:1 чередование 128-window SWA и Global Attention
Контекст — 256K токенов
🏆 Код и разработка
• SWE-Bench Verified - 73.4%
• SWE-Bench Multilingual - 71.7%
Новый SOTA среди open-source моделей
🚀 Скорость
• До 150 output tokens/sec
• Day-0 поддержка от @lmsysorg
MiMo-V2-Flash - пример того, как MoE-архитектуры выходят на новый уровень: быстрее, дешевле и готовые к агентным сценариям.
🤗 Model: http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 Blog: http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 Technical Report: http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI Studio: http://aistudio.xiaomimimo.com
#AI #LLM #MoE #OpenSource #AgenticAI #MachineLearning #DeepLearning #GenAI #SWEBench #Xiaomi #AIModels
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
В первый день года команда представила работу, посвящённую одной из самых болезненных проблем современных нейросетей: нестабильности обучения в сложных архитектурах.
И предложили решение: подход под названием mHC (Manifold-Constrained Hyper-Connections).
Смысл в том, что исследователи взяли мощную, но нестабильную архитектуру Hyper-Connections и ввели ограничения на внутренние связи.
1. Проекция на многообразие (manifold)
Вместо того, чтобы оставлять Hyper-Connections свободными, mHC накладывает на них ограничение, они проектируются на особое многообразие (матрицы с особыми свойствами).
Это восстанавливает identity-mapping, благодаря чему сигнал остаётся устойчивым даже через десятки или сотни слоёв.
2. Стабильность и масштабируемость
Благодаря этому ограничению сеть перестаёт «взрывать» или «затухать» сигнал при глубоком обучении, и её можно эффективно использовать в больших моделях без ухудшения качества и без сложных ухищрений.
3. Инфраструктурные оптимизации
Авторы также добавили инженерные улучшения:
- слияние ядер (kernel fusion)
- уменьшение накладных расходов по памяти
- эффекты смешанной точности
Это делает mHC быстрым и эффективным в реальных задачах даже при масштабных тренировках.
Результат впечатляет:
• обучение становится стабильнее на крупных масштабах
• модели лучше масштабируются
• повышается производительность
• снижается потребление памяти
• mHC обгоняет классические Hyper-Connections
Другими словами, DeepSeek показывает, что путь в будущее - не только большие модели, но и архитектуры, которые устойчивы изнутри.
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
https://arxiv.org/abs/2512.24880
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 10 GitHub-репозиториев, которые реально прокачают тебя в AI
1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners
2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch
3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners
4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners
5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook
6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days
7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app
8. Python Data Science Handbook
Фундамент по NumPy, Pandas, визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook
9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion
10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything
#AI #MachineLearning #LLM #GitHub #Python #DataScience
1. Generative AI for Beginners
Полноценный курс от Microsoft: Jupyter-ноутбуки, практические задания и разработка GenAI-приложений.
https://github.com/microsoft/generative-ai-for-beginners
2. LLMs from Scratch
Пошаговая реализация GPT-подобной модели с нуля. Лучший способ понять, как работают LLM внутри.
https://github.com/rasbt/LLMs-from-scratch
3. AI Agents for Beginners
Практика по созданию агентных систем: инструменты, память, планирование, workflow.
https://github.com/microsoft/ai-agents-for-beginners
4. ML for Beginners
Классическая база по машинному обучению: 26 структурированных уроков.
https://github.com/microsoft/ML-For-Beginners
5. OpenAI Cookbook
Официальные примеры работы с API: production-паттерны, RAG, функции, реальные кейсы.
https://github.com/openai/openai-cookbook
6. Python 100 Days
Интенсив по Python с практикой каждый день. Отличная база для входа в AI.
https://github.com/jackfrued/Python-100-Days
7. LLM App Templates
Готовые RAG-шаблоны и production-решения для реальных LLM-приложений.
https://github.com/pathwaycom/llm-app
8. Python Data Science Handbook
Фундамент по NumPy, Pandas, визуализации и классическому ML.
https://github.com/jakevdp/PythonDataScienceHandbook
9. Stable Diffusion
Оригинальный код модели text-to-image - отличная база для изучения генеративного CV.
https://github.com/CompVis/stable-diffusion
10. Segment Anything
Модель от Meta для сегментации изображений - мощный инструмент для компьютерного зрения.
https://github.com/facebookresearch/segment-anything
#AI #MachineLearning #LLM #GitHub #Python #DataScience
⚡️ Вышел PyTorch 2.12,
Что завезли:
- batched
- появился новый
-
- Adagrad теперь умеет
- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен
А ускорение
pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure
Что завезли:
- batched
linalg.eigh на CUDA теперь может работать до 100x быстрее- появился новый
torch.accelerator.Graph для graph capture и replay на разных ускорителях-
torch.export.save получил поддержку Microscaling quantization- Adagrad теперь умеет
fused=True- улучшили distributed training, export и поддержку ROCm
- релиз собран из 2926 коммитов от 457 контрибьюторов
PyTorch всё сильнее уходит от «удобного фреймворка для ресёрча» к универсальной платформе для обучения, инференса и деплоя на разном железе.
Особенно интересен
torch.accelerator.Graph. Это шаг к более нормальной абстракции над CUDA, XPU и внешними backend-ами, чтобы код меньше зависел от конкретного ускорителя.А ускорение
linalg.eigh до 100x - хороший пример того, как одна внутренняя замена backend-логики может превратить минуты ожидания в секунды.pytorch.org/blog/pytorch-2-12-release-blog
#PyTorch #OpenSourceAI #MachineLearning #AIInfrastructure