🚨 DeepSeek уже в первый день года выкатывает сильное обновление: важное улучшение архитектуры трансформеров.
Китайцы предложили способ сделать shortcut-путь ( это когда выход слоя прибавляется к его же входу, то есть сеть не «заменяет» информацию, а добавляет к ней улучшенную версию) в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
Статья: https://arxiv.org/abs/2512.24880
Видео: https://www.youtube.com/watch?v=gT-0Qryi5KA
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
Китайцы предложили способ сделать shortcut-путь ( это когда выход слоя прибавляется к его же входу, то есть сеть не «заменяет» информацию, а добавляет к ней улучшенную версию) в трансформерах гибче, но при этом сохранить стабильность даже у очень больших моделей.
В обычном трансформере каждый блок что-то считает, а потом просто добавляет результат к исходному сигналу.
Это помогает информации проходить через много слоёв, не теряясь.
Hyper-Connections меняют shortcut-путь.
Был один поток, а стало несколько.
Перед блоком модель выбирает, какие потоки подать на вычисления.
Во время блока часть сигнала идёт «в обход»,
чтобы ничего не потерять.
После блока всё снова аккуратно объединяется.
То есть shortcut превращается из простого «input + output» в умный маршрутизатор сигналов.
Проблема в том, что без ограничений такие смешивания могут усиливать сигнал слишком сильно или, наоборот, гасить его и большие модели начинают вести себя нестабильно.
mHC решает это так:
потоки остаются, но каждое смешивание работает как аккуратное усреднение.
Сигнал не может «взорваться» или исчезнуть - он остаётся под контролем.
Что это даёт на практике:
- модели остаются стабильными даже на масштабе 27B, дают лучшее качество и не страдают от скачков лосса.
Там, где обычные Hyper-Connections раздували сигнал до 3000×, mHC держат его примерно на уровне 1.6×.
Если коротко: был один shortcut,. сделали несколько, но заставили их смешиваться безопасно.
И трансформеры стали гибче и стабильнее.
Статья: https://arxiv.org/abs/2512.24880
Видео: https://www.youtube.com/watch?v=gT-0Qryi5KA
#AI #DeepSeek #MachineLearning #NeuralNetworks #Research
❤24🔥8👍4🤔1
🧠⚡ Исследование Carnegie Mellon: Cursor ускоряет разработку до 3–4x - но с ценой
Учёные из Carnegie Mellon проанализировали 807 репозиториев, где разработчики перешли на Cursor
(по конфигам вроде `.cursorrules`), и сравнили их с 1380 контрольными проектами - до и после внедрения.
Метод difference-in-differences:
сравнивали одни и те же репы *до/после*, плюс контролировали тренды по месяцам.
🚀 Что произошло с “скоростью кода”
Code Velocity = коммиты + строки кода.
- в первый месяц - скачок 3–5x по строкам
- в среднем после внедрения - +1.84x к скорости
ИИ реально ускоряет работу - и это измеряемо, а не ощущение.
🧩 Но есть побочные эффекты
Качество оценивали через SonarQube
(надёжность, поддерживаемость, безопасность, дубликаты, когнитивная сложность).
- статические предупреждения - +30%
- сложность кода - +41%
- через это скорость начинает проседать со временем
ИИ помогает писать больше - но не всегда лучше.
💡 Вывод
Cursor даёт реальный прирост продуктивности, особенно в начале.
Но выигрывают те, кто сочетает ИИ с:
- тестами
- код-ревью
- quality gates
- статанализом
ИИ-агенты - ускорители,
а качество всё ещё требует инженера.
arxiv.org/abs/2511.04427v2
Учёные из Carnegie Mellon проанализировали 807 репозиториев, где разработчики перешли на Cursor
(по конфигам вроде `.cursorrules`), и сравнили их с 1380 контрольными проектами - до и после внедрения.
Метод difference-in-differences:
сравнивали одни и те же репы *до/после*, плюс контролировали тренды по месяцам.
🚀 Что произошло с “скоростью кода”
Code Velocity = коммиты + строки кода.
- в первый месяц - скачок 3–5x по строкам
- в среднем после внедрения - +1.84x к скорости
ИИ реально ускоряет работу - и это измеряемо, а не ощущение.
🧩 Но есть побочные эффекты
Качество оценивали через SonarQube
(надёжность, поддерживаемость, безопасность, дубликаты, когнитивная сложность).
- статические предупреждения - +30%
- сложность кода - +41%
- через это скорость начинает проседать со временем
ИИ помогает писать больше - но не всегда лучше.
💡 Вывод
Cursor даёт реальный прирост продуктивности, особенно в начале.
Но выигрывают те, кто сочетает ИИ с:
- тестами
- код-ревью
- quality gates
- статанализом
ИИ-агенты - ускорители,
а качество всё ещё требует инженера.
arxiv.org/abs/2511.04427v2
👍19❤5🤔2