🚨 DeepSeek уже в первый день года выкатывает сильное обновление: важное улучшение архитектуры трансформеров.
Китайцы предложили способ сделать shortcut-путь ( это когда выход слоя прибавляется к его же входу, то есть сеть не «заменяет» информацию, а добавляет к ней улучшенную версию) в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
Статья: https://arxiv.org/abs/2512.24880
Видео: https://www.youtube.com/watch?v=gT-0Qryi5KA
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
Китайцы предложили способ сделать shortcut-путь ( это когда выход слоя прибавляется к его же входу, то есть сеть не «заменяет» информацию, а добавляет к ней улучшенную версию) в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
Перед блоком модель выбирает, какие потоки подать на вычисления.
Во время блока часть сигнала идёт «в обход»,
чтобы ничего не потерять.
После блока всё снова аккуратно объединяется.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
Статья: https://arxiv.org/abs/2512.24880
Видео: https://www.youtube.com/watch?v=gT-0Qryi5KA
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
❤29🔥8👍4🤔2
🚀 Qianfan-OCR - end-to-end модель на 4B параметров для работы с документами.
Главная идея - одна модель вместо целого пайплайна.
Что умеет:
• 📄 Парсинг документов в один проход
Без разбиения на OCR → post-processing → extraction.
Модель сразу выдаёт структурированный результат.
• 📊 Таблицы
Корректно извлекает структуру таблиц, строки и значения.
• 🧮 Формулы
Распознаёт математические выражения и приводит их к читаемому виду.
• 📈 Графики и диаграммы
Понимает визуальные данные и извлекает из них смысл.
• 🔍 Key information extraction
Автоматически достаёт ключевые поля: суммы, даты, названия и т.д.
Почему это важно:
Раньше для этого требовался сложный стек:
OCR → layout detection → table parser → rule-based extraction.
Теперь всё это заменяется одной моделью, которая делает всё сразу.
Фактически это шаг к системам, которые могут понимать документы так же, как человек.
#AI #OCR #LLM #MachineLearning
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
Главная идея - одна модель вместо целого пайплайна.
Что умеет:
• 📄 Парсинг документов в один проход
Без разбиения на OCR → post-processing → extraction.
Модель сразу выдаёт структурированный результат.
• 📊 Таблицы
Корректно извлекает структуру таблиц, строки и значения.
• 🧮 Формулы
Распознаёт математические выражения и приводит их к читаемому виду.
• 📈 Графики и диаграммы
Понимает визуальные данные и извлекает из них смысл.
• 🔍 Key information extraction
Автоматически достаёт ключевые поля: суммы, даты, названия и т.д.
Почему это важно:
Раньше для этого требовался сложный стек:
OCR → layout detection → table parser → rule-based extraction.
Теперь всё это заменяется одной моделью, которая делает всё сразу.
Фактически это шаг к системам, которые могут понимать документы так же, как человек.
#AI #OCR #LLM #MachineLearning
🎯Полезные Мл-ресурсы 🚀 Max
@machinelearning_interview
❤13👍6🥰1