366K subscribers
4.5K photos
891 videos
17 files
4.94K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
✔️ 3 день недели Опенсорса от DeepSeek

⭐️ DeepGEMM — это не просто очередная библиотека для матричных умножений, а настоящий «мастер-класс» по оптимизации FP8 GEMM для новейших GPU.

Проект написан на CUDA и рассчитан исключительно на использование тензорных ядер архитектуры NVIDIA Hopper, что уже само по себе делает его очень современным 🖥

В основе DeepGEMM лежит идея максимально эффективного выполнения операций умножения матриц с использованием 8-битной точности.

Для решения проблемы накопления в FP8 (которое может давать неточные результаты) разработчики внедрили двухуровневое накопление, которое использует возможности CUDA-ядра для повышения точности без потери производительности.

Что действительно радует – это минимализм кода.

Ядро библиотеки представлено всего в одном ключевом модуле, состоящем примерно из 300 строк, что позволяет легко разобраться в его работе и даже внести собственные улучшения.

При этом все ядра компилируются «на лету» с помощью легковесного JIT-компилятора, так что нет долгого этапа сборки при установке.

DeepGEMM поддерживает разные режимы работы: обычные GEMM для плотных моделей, а также группированные операции для моделей типа Mix-of-Experts, где требуется обрабатывать данные в нескольких форматах – как в «континуальном», так и в «masked» виде. Это особенно актуально для современных решений в области глубокого обучения.

Оптимизации, заложенные в DeepGEMM, включают использование новых функций Hopper, таких как Tensor Memory Accelerator (TMA) для асинхронной передачи данных, а также тонкую настройку блоковых размеров и оптимизацию инструкций FFMA для лучшего перекрытия вычислений и загрузки данных. Результаты говорят сами за себя: производительность этой библиотеки на ряде тестовых примеров сравнима или даже превосходит решения, построенные на базе CUTLASS.

DeepGEMM – это лаконичный и эффективный инструмент, который может послужить отличной базой для исследований и практических разработок в области ускорения вычислений для глубокого обучения.

Github


#ai #deepseek #opensource #DeepEP #OpenSourceWeek:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍2316🥰2😴1
✔️ OpenAI открыла доступ к Advanced Voice для всех.

С 26 февраля Advanced Voice на базе GPT-4o mini доступна бесплатным пользователям ChatGPT на всех платформах.

Free tier имеет ежедневные ограничения на использование входных и выходных аудиоданных. Пользователи ChatGPT Plus могут использовать полную версию Advanced Voice на основе GPT-4o с дневным лимитом, который в 5 раз превышает лимит бесплатной версии, и могут продолжать использовать функции видео и демонстрации экрана в расширенном голосовом режиме. Подписчики ChatGPT Pro не имеют дневного лимита.
OpenAI в X

✔️ Microsoft Copilot voice и deepthink теперь бесплатны и не имеют ограничений.

Microsoft открыла всем пользователям бесплатный доступ к функциям «Think Deeper» и голосовому управлению Copilot, а также снимет предыдущие ограничения на использование для бесплатных пользователей. Это означает, что пользователи могут вести неограниченное количество "бесед" и голосовых взаимодействий с Copilot. Think Deeper работает на основе модели логического вывода OpenAI o1, которую Microsoft сделала бесплатной в прошлом месяце.
microsoft.com

✔️ Hume AI открыла доступ к Octave: ТTS-модель, которая умеет говорить с эмоциями.

Octave, TTS-модель, анонсированная в конце декабря 2024 года, стала доступной через web и API. Модель умеет не просто "читать" слова, а понимает их смысл в контексте. Octave способна отыгрывать персонажей, генерировать голоса по запросу и изменять эмоциональную окраску и стиль речи.

Благодаря функции Voice Design, Octave может создать любой ИИ-голос по текстовому описанию. От "терпеливого, чуткого консультанта с голосом ASMR" до "средневекового рыцаря" – Octave воплотит любую фантазию. В ближайшем будущем планируется запуск функции клонирования голоса.

В ходе слепого сравнительного исследования, Octave превзошла систему ElevenLabs Voice Design по качеству звука (71,6%), естественности (51,7%) и соответствию голоса заданному описанию (57,7%).
hume.ai

✔️DeepSeek снижает цены на использование своих AI-моделей в непиковые часы.

DeepSeek объявил о введении скидок до 75% на использование своих AI-моделей в непиковые часы. Это решение может оказать давление на конкурентов как в Китае, так и за рубежом, вынуждая их пересматривать свои ценовые стратегии. Согласно информации на сайте компании, в период с 16:30 до 00:30 по Гринвичу стоимость использования API DeepSeek будет значительно снижена. Для моделей R1 и V3 скидки составят 75% и 50% соответственно.
reuters.com

✔️ SSD Samsung Pro-серии Gen 5 PCIe поступят в продажу в марте.

Samsung выпустит первую потребительскую серию PCIe 5.0 SSD 9100 Pro в марте. Впервые среди NVMe SSD от Samsung в линейке будет модель с 8 ТБ (ожидается, что будет доступен во второй половине 2025 года). В спецификации M.2 предусмотрены две дополнительные версии с радиатором или без него, с тремя конфигурациями: 1 ТБ (199,99 долл. США), 2 ТБ (299,99 долл. США) и 4 ТБ (549,99 долл. США).

Серия 9100 Pro демонстрирует значительные улучшения: в ней используется специализированный контроллер и флэш-память V-NAND TLC 7-го поколения. В синтетических тестах скорости последовательного чтения и записи достигают 14,8 ГБ/с и 13,4 ГБ/с, что вдвое больше, чем у предыдущего поколения 980 Pro и примерно на 2–3 ГБ/с быстрее, чем у конкурирующих продуктов, а производительность случайного чтения и записи улучшена до 2200 тыс./2600 тыс. IOPS, что более чем 2х превышает показатели PCIe 4.0.
news.samsung.com

✔️ Свежий релиз Microsoft Phi‑4 mini instruct — это компактная, оптимизированная модель на 3.8 млрд параметров, оптимизированная для вычислительно ограниченных сред
Hf

@ai_machinelearning_big_data

#news #ai #ml #microsoft #openai #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3916🔥11
✔️ 5 день недели опенсорса: и новый релиз от DeepSeek

DeepSeek представили Fife-Flyer File System (3FS) – параллельную файловую систему, способную использовать всю пропускную способность современных SSD и RDMA-сетей.

▶️ Это решение показывает впечатляющие результаты:

• 6.6 TiB/s – суммарная скорость чтения в 180-узловом кластере
• 3.66 TiB/min – пропускная способность на GraySort в 25-узловом кластере
• 40+ GiB/s – пик производительности KVCache lookup на одном клиентском узле

Архитектура 3FS дезагрегирована и обеспечивает строгую согласованность, что делает её незаменимой для задач предварительной обработки данных, загрузки датасетов, сохранения контрольных точек и быстрого поиска эмбеддингов во время инференса (V3/R1).

Показатели 3FS демонстрируют, что будущее обработки данных лежит в использовании распределенных и дезагрегированных архитектур, где каждая компонента системы работает на максимуме своих возможностей.

В дополнение к Fife-Flyer File System, представлен Smallpond – фреймворк для обработки данных на базе этой системы, который помогает ещё больше упростить рабочие процессы с большими объёмами информации.

3FSgithub.com/deepseek-ai/3FS
Smallpondgithub.com/deepseek-ai/smallpond

@ai_machinelearning_big_data


#OpenSourceWee #DeepSeek #Smallpond #3FS #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64🔥2310👻2👏1😁1
🚀 6 День недели опенсорса: DeepSeek-V3/R1 Inference System!

DeepSeek выкатил подробный обзор своего инференса для моделей DeepSeek-V3/R1 – с акцентом на архитектурные инновации и невероятную экономическую эффективность.

DeepSeq R1 ежедневно приносит более $560 000, причем затраты на GPU составляют всего $87 000. Что озночает рентабельность в 545 %.

При таких расчетах теоретическая годовая выручка могла бы превысить $200 млн.

Компания также отметила, что затраты на обучение моделей составили менее $6 млн. Для сравнения, американские конкуренты, такие как OpenAI, инвестируют миллиарды долларов в обучение ИИ с использованием чипов NVIDIA H100. DeepSeek использует менее мощные NVIDIA H800, но это не мешает её моделям успешно конкурировать на глобальном рынке.

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с

Разительный контраст с американскими конкурентами, работающими в убыток.

Такой уровень доходности достигается за счёт оптимизированного распределения вычислений и гибкой архитектуры.

🌟 В DeepSeek-V3/R1 используется Cross-node Expert Parallelism (EP) — метод, при котором модель делится между GPU-узлами, а каждая видеокарта обрабатывает лишь небольшую часть модели. Эксперты распределяются между узлами кластера, что снижает нагрузку на память GPU, увеличивает размер батча и позволяет равномерно загружать видеокарты, избегая простоев. Это ускоряет вычисления и минимизирует задержки.

🌟 Для обработки данных DeepSeek-V3/R1 использует двухфазную стратегию инференса.

1) Prefilling фаза — здесь bспользуется EP32, где каждый GPU получает 9 направляемых экспертов и 1 общего эксперта, что позволяет минимизировать расходы на обработку данных.

2) Для Decoding используется EP144, перераспределяющий нагрузку так, что каждый GPU управляет 2 направляемыми экспертами и 1 общим экспертом. Такая стратегия помогает достичь высокой производительности без потери качества ответа.

– ~73.7k токенов/с для prefilling
– ~14.8k токенов/с для декодинга на одном узле H800

Данные за 24 часа:
– Входные токены: 608 млрд (с 56.3% cache hit rate)
– Выходные токены: 168 млрд при скорости 20–22 токена/с


🔗 Подробнее: *клик*

@ai_machinelearning_big_data


#AI #DeepLearning #DeepSeek #ml #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
32👍23🔥10👏1
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ DeepSeek V3 strikes again!

На HF Появилась новая версия DeepSeek v3.

Еще Deepseek обновили свое приложение.

Страданиям OPENAI не будет конца 😂

~700GB, Лицензирование: mit, тестим тут.

Вы можете запустить его на компьютере M3 Mac Studio с 512 ГБ памяти, ( ~10 000 долларов) если используете квантованную версию на 352 ГБ через MLX.

🟡 HF :https://huggingface.co/deepseek-ai/DeepSeek-V3-0324/tree/main

@ai_machinelearning_big_data

#deepseek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9125🤣14🔥12🤷‍♂2
This media is not supported in your browser
VIEW IN TELEGRAM
✔️ DeepSite на базе DeepSeek-V3-0324, позволяет генерировать, код, приложения или игры прямо в браузере и хостить их.

Сгенерировал парочку простеньких HTML-игр с интерфейсом, работает годно.

😶 По сути это Сursor в браузере.

🟡Попробовать: https://huggingface.co/spaces/enzostvs/deepsite

@ai_machinelearning_big_data


#deepseek #vibecoding #app
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥108👍3518😁9🤩2😨1
🔥 DeepSeek-GRM

Команда DeepSeek представила DeepSeek-GRM (Generalist Reward Modeling) - новую систему для моделирования вознаграждения (RM), цель которой - улучшить согласованность LLM с общими запросами (general query alignment).

✔️ Ключевая идея: Использовать дополнительные вычисления во время инференса для динамического улучшения и масштабирования оценки вознаграждения, отходя от чисто статических RM.

✔️ Как работает: Комбинирует генеративное RM (GRM), метод обучения Self-Principled Critique Tuning (SPCT - модель учится сама генерировать принципы и критику через RL), параллельный сэмплинг и голосование во время инференса.

✔️ Результаты: Подход превосходит существующие базовые модели на RM-бенчмарках, не теряя в качестве.

DeepSeek-GRM предлагает новый масштабируемый способ построения более надежных и универсальных систем вознаграждения.

DeepSeek-GRM-27B с масштабированием во время инференса показывает SOTA (или близкие к SOTA) результаты на RM бенчмарках, будучи при этом эффективнее по параметрам, чем гигантские модели, и имея меньше проблем с систематическими ошибками.

🟡Метод обучения SPCT улучшает способность GRM к генерации вознаграждения для общих задач (generalist capability) и его масштабируемость во время инференса.

LLM-as-a-Judge показывает схожие показатели, но с более низкой производительностью.

Это интересный вектор развития RM, переносящий часть "интеллекта" оценки на этап инференса для повышения качества моделей.

🟡 Подробности в статье

#LLM #AI #MachineLearning #RewardModeling #DeepSeek #ReinforcementLearning #NLP #OpenSource
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍46🔥167🤬1
✔️ DeepSeek выпустила в оперсорс механизмы инференса для DeepSeek-V3 и R1.

DeepSeek объявила о публикации в открытый доступ кода своего механизма инференса, построенного на vLLM. Компания будет предоставлять отдельные функции и оптимизации из своей внутренней инфраструктуры, специально разработанные для ее моделей DeepSeek-V3 и R1.
Этот шаг - часть стратегии поддержки будущих моделей с доступом к улучшениям в сообществе разработчиков с открытым исходным кодом. Кроме того, DeepSeek опубликовала дорожную карту, в которой подробно описана стратегия использования открытого кода и планы сотрудничества с существующими оперсорс-проектами для расширения экосистемы инфраструктуры ИИ.

🔜 DeepSeekAI на Github

@ai_machinelearning_big_data


#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
286👍41🔥16🤔5
🔥 А вот и новый DeepSeek Prover v2, модель, заточенная исключительно на математику.

🚀Масштабная архитектура на базе, которая содержит 671 млрд параметров, что в 96 раз больше, чем у предыдущей версии Prover-V1.5 (7 млрд).

Построен на базе архитектуры «смеси экспертов» (MoE), что снижает затраты на обучение и повышает эффективность решения задач.

Модель заточена на формальное доказательство теорем с помощью языка программирования Lean 4, обеспечивая 100% логическую точность.

Lean 4 — это зависимо типизированный функциональный язык программирования и интерактивное средство доказательства теорем.

Результаты:
Новая Sota( 88,9%) на MiniF2F-test.
DeepSeek-Prover-V2 смогла доказать 49 теорем из 658.

Для тренировки использовались 8 млн синтетических примеров, созданных через рекурсивный поиск решений теорем.

🔍 Как это работает:

1) Разложение теорем: DeepSeek-V3 по prompt'у разбивает сложные задачи на подцели.

2) Формализация: Пошаговые рассуждения переводятся в доказательства на Lean 4.

3) Cold-start: Полученные цепочки рассуждений и формальные доказательства используются как начальные данные для обучения модели.

🌟 Два размера:
7 B — базовый вариант.
671 B — расширенная версия на базе DeepSeek-V3-Base.

https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

@ai_machinelearning_big_data

#DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
👍90🔥3621👌5😍5
✔️ Релиз DeepSeek R1-0528

Главное:
• Глубокое рассуждение — на уровне моделей Google
• Улучшена генерация текста — более естественно, структурировано и аккуратно
• Уникальный стиль reasoning — не просто быстро, а вдумчиво и последовательно
• Может работать над одной задачей 30–60 минут, удерживая контекст

Новая модель показывает результат почти на уровне o3 (High) на бенчмарк LiveCodeBench.

https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

@ai_machinelearning_big_data

#DeepSeek #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍102🔥3525😁9🥱5❤‍🔥4🙈1🎄1
🐋 Гигантский кит приплыл на HF!

🚀 DeepSeek раскатывает Base релиз новой версии V3.1 — гибридной модели, способной совмещать рассуждения и быстрые задачи.

Следите за новостями, волна только набирает силу.

685B параметров
📏 Контекстное окно 128k

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

@ai_machinelearning_big_data

#DeepSeek #AI #LLM #V3_1 #MachineLearning
🔥9825👍25🐳6😨5🎉1
🐋 DeepSeek-V3.1 теперь можно запускать локально

Оригинальная модель весила 715GB, но её удалось уменьшить до 170GB RAM (−80%) с помощью новой техники квантовки Dynamic 1-bit GGUF.

Огромная экономия памяти

👉 Подробный гайд: https://docs.unsloth.ai/basics/deepseek-v3.1
👉 GGUF-модель: https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF

Теперь топовую DeepSeek реально запустить даже на локальной машине, а не только в дата-центре 🚀

@ai_machinelearning_big_data

#DeepSeek #GGUF
120🔥51🤣45👍24🤔8🌚43🙈2💘1
🐳 Обновленная DeepSeek-V3.1-Terminus

Она даёт более стабильные и полные результаты на тестах по сравнению с предыдущей версией.

Языковая консистентность -китайцы значительно улучшили вывод модель - меньше случайных иероглифов и мешанины CN/EN.

Ряд Агентных апгрейдов рузльтаты на Code Agent и Search Agent стали заметно сильнее.

Доступна в приложении и в веб-версии и через API.

🔗 Открытые веса: https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Terminus

@ai_machinelearning_big_data


#DeepSeek #opensource #llm
👍6824🔥10🤨2💘1
🚀 DeepSeek-V3.2-Exp - вышла новая экспериментальная версия

Главное:
- Основана на V3.1-Terminus
- Новый механизм Sparse Attention (DSA) → быстрее и дешевле работа с длинными контекстами
- Качество почти без потерь, производительность как у V3.1
- API подешевел более чем на 50%

📊 V3.1 пока ещё будет доступна до 15 октября 2025.

💰 Цены:
- Input (cache hit): $0.07 → $0.028 (−60%)
- Input (cache miss): $0.56 → $0.28 (−50%)
- Output: $1.68 → $0.42 (−75%)

🔗 Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Exp)
🔗 Tech Report: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf)
🔗Github: https://github.com/deepseek-ai/DeepSeek-V3.2-Exp/blob/main/DeepSeek_V3_2.pdf

@ai_machinelearning_big_data


#DeepSeek #AI #V32 #SparseAttention #LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
103👍29🔥17👏3🤩2🥱2💘2🤨1
📄 DeepSeek-OCR - модель для распознавания текста 🔍

DeepSeek выпустили мощную OCR-модель, способную преобразовывать изображения документов прямо в Markdown или текст.

Что умеет:
- Распознаёт текст на изображениях и в PDF
- Работает с документами, таблицами и сложными макетами
- Поддерживает разные режимы: Tiny, Small, Base, Large
- Оптимизирована под GPU (PyTorch + CUDA 11.8)
- MIT-лицензия — можно свободно использовать и модифицировать

DeepSeek-OCR достигает высокой точности и эффективности за счёт компрессии визуальных токенов. На Omnidocbench - лучшая точность при минимуме визуальных токенов, превосходит другие OCR-модели по эффективности и скорости.

🟠HF: https://huggingface.co/deepseek-ai/DeepSeek-OCR
🟠Github: https://github.com/deepseek-ai/DeepSeek-OCR
🟠Paper: https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf

@ai_machinelearning_big_data

#ocr #DeepSeek
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍24863🔥51👏18🤩9🥰6💯4😁2❤‍🔥1🤗1
📊 GenAI Traffic - статистика по ИИ трафику.

Свежие данные показывают, как меняется расстановка сил среди генеративных ИИ:
- ChatGPT продолжает терять долю рынка.
- Perplexity впервые перешагнул порог 2%.

🗓️ Год назад:
ChatGPT — 87.1%
Gemini — 6.4%
Perplexity — 1.7%
Claude — 1.7%
Copilot — 1.1%

🗓️ 6 месяцев назад:
ChatGPT — 78.8%
DeepSeek — 6.8%
Gemini — 5.5%
Grok — 3.1%
Perplexity — 1.5%
Claude — 1.3%
Copilot — 1.3%

🗓️ 3 месяца назад:
ChatGPT — 78.3%
Gemini — 8.7%
DeepSeek — 4.5%
Grok — 2.6%
Perplexity — 1.6%
Claude — 1.5%
Copilot — 1.2%

🗓️ Месяц назад:
ChatGPT — 76.4%
Gemini — 10.8%
DeepSeek — 4.0%
Grok — 2.2%
Perplexity — 2.0%
Claude — 1.9%
Copilot — 1.2%

🗓️ Сегодня:
ChatGPT — 74.1%
Gemini — 12.9%
DeepSeek — 3.7%
Perplexity — 2.4%
Grok — 2.0%
Claude — 2.0%
Copilot — 1.2%

📈 Тенденция очевидна:
ChatGPT теряет медленно, но верно трафик, рынок становится более сбалансированным, а Gemini и Perplexity показывают стабильный рост интереса пользователей. С выходом Gemini 3.0 рост, Google может ещё больше улучшить свои позиции.

@ai_machinelearning_big_data


#AI #GenAI #Analytics #ChatGPT #Gemini #Perplexity #Claude #DeepSeek #Copilot
👍105🤔90🔥1918👏13🤩11💯7🤗3😁1
💡 DeepSeek выложили новый open-source проект — LPLB.

Это экспериментальный балансировщик нагрузки для моделей Mixture-of-Experts (MoE).

В репозитории описано, как система:
• динамически перераспределяет экспертов, опираясь на статистику нагрузки;
• создаёт реплики с учётом топологии кластера;
• решает оптимальное распределение токенов по экспертам через LP-решатель, работающий прямо на GPU (cuSolverDx + cuBLASDx);
• использует метрики загрузки, полученные вручную, через torch.distributed или через буферы Deep-EP.

Гайд показывает, как может выглядеть умный и точный балансировщик для больших MoE-архитектур.

GitHub: https://github.com/deepseek-ai/LPLB

ai_machinelearning_big_data

#DeepSeek #LPLB #MoE #AIInfrastructure #OpenSource
48🔥25👍19🙉3😁2🥰1
🚀 DeepSeek выпустили DeepSeek Math V2 - мощную модель для самопроверяемых математических рассуждений.

Модель способна не просто решать задачи, а самостоятельно проверять корректность своих доказательств.

Это шаг от генерации ответа к глубокому, надёжному и логически выверенному выводу.

📊 Результаты:
- уровень золотой медали на IMO 2025
- почти идеальные результаты на CMO 2024
- 118 из 120 баллов на Putnam 2024

🔍 Главное отличие от предыдущих моделей:
ИИ учится *мыслить строго*, пошагово формируя доказательство и сам проверяет логическую связность каждого шага.

Подходит как для автоматизированного решения задач, так и для обучения, генерации разборов и проверки решений.

https://huggingface.co/deepseek-ai/DeepSeek-Math-V2

@ai_machinelearning_big_data

#AI #DeepSeek #Math #LLM #MachineLearning #OpenSource #
72👍23🔥13🦄4🤔32❤‍🔥2
🚀 Релиз DeepSeek-V3.2 и DeepSeek-V3.2-Speciale - модели нового поколения, созданные в первую очередь для reasoning и работы в агентных системах.

Что нового:
- DeepSeek-V3.2 - официальный преемник V3.2-Exp. Доступна в приложении, на сайте и через API.
- DeepSeek-V3.2-Speciale - улучшенная версия с акцентом на продвинутое многошаговое рассуждение. Пока что работает только через API.

Обе модели делают упор на глубокие цепочки рассуждений и поведение, нацеленное на агентные сценарии: планирование, решение задач, сложные выводы и работу со структурированными данными.

🏆 Производительность

• V3.2 - баланс скорости и качества, уровень примерно GPT-5
• V3.2-Speciale - топовый reasoning, конкурирует с Gemini-3.0-Pro.
• Speciale - лидер на IMO, CMO, ICPC.

🤖 Новый подход к обучению агентов

• Синтезированы большие тренировочные данные для 1800+ сред и 85k сложных инструкций.
• V3.2 - первая модель DeepSeek, у которой мышление встроено прямо в tool-use.

💻 API

• V3.2 использует тот же интерфейс, что V3.2-Exp.
• Speciale доступна через временный endpoint, работать будет до 15 декабря 2025.

📦 DeepSeek-V3.2 Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2
📦 DeepSeek-V3.2-Speciale Model: https://huggingface.co/deepseek-ai/DeepSeek-V3.2-Speciale
📄 Tech report: https://huggingface.co/deepseek-ai/DeepSeek-V3.2/resolve/main/assets/paper.pdf

@ai_machinelearning_big_data

#deepseek, #deepseekv3, #ai, #нейросети, #искусственныйинтеллект, #llm
56🔥26👍18👏2🦄2
🚨 🚨 DeepSeek в первый день года показала реально важную штуку: улучшение трансформеров.

Китайцы предложили способ сделать shortcut-путь в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.

В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.

Это помогает информации проходить через много слоёв, не теряясь.

Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.

Перед каждым шагом модель выбирает, какие потоки подать на вычисления.

Во время шага часть сигнала идёт «в обход»,
чтобы ничего не потерять.

После всё снова аккуратно объединяется.


То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.

Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.

mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.

Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.

Что это даёт на практике:

- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.

Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.

Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.

И трансформеры стали гибче и стабильнее.

https://arxiv.org/abs/2512.24880

@ai_machinelearning_big_data

#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
👍497😘9187🔥82👏55😎28🤗2114🙈10🎉7🥱2🦄2