Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AGI 1 и ARC-AGI 2
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).
Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?
Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:
1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.
2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.
3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.
Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.
Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.
Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.
1❤184🔥97👍43🤯9❤🔥4😁2
В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных
В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.
В итоге были уничтожены критически важные инфраструктурные системы. На некоторое время оказались парализованы 647 государственных цифровых сервисов, от порталов для граждан до систем экстренного реагирования и логистических служб. Но это не самое страшное.
Одной из наиболее пострадавших систем оказался облачный сервис хранения документов G-Drive (Government Drive), на котором около 125 тысяч чиновников хранили особо важные рабочие материалы.
Так вышло, что бэкапа у базы просто не было. Так что с сервера безвозвратно исчезло около 858 ТБ данных. Это примерно 449.5 миллиардов листов A4. Среди утраченного: заявки граждан на визы, гос.проекты, данные о почтовых отправлениях (представьте, тысячи потерянных писем и посылок), миллионы отчетов департаментов и тд.
Расследование еще продолжается, но сейчас основная официальная причина – халатность. Пожар возник при перемещении батарей ИБП, прослуживших дольше срока. Неверное отключение привело к всплеску напряжения и термическому взрыву.
Вспоминайте эту историю каждый раз, когда решите, что вашей базе не нужен бэкап☕️
В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.
В итоге были уничтожены критически важные инфраструктурные системы. На некоторое время оказались парализованы 647 государственных цифровых сервисов, от порталов для граждан до систем экстренного реагирования и логистических служб. Но это не самое страшное.
Одной из наиболее пострадавших систем оказался облачный сервис хранения документов G-Drive (Government Drive), на котором около 125 тысяч чиновников хранили особо важные рабочие материалы.
Так вышло, что бэкапа у базы просто не было. Так что с сервера безвозвратно исчезло около 858 ТБ данных. Это примерно 449.5 миллиардов листов A4. Среди утраченного: заявки граждан на визы, гос.проекты, данные о почтовых отправлениях (представьте, тысячи потерянных писем и посылок), миллионы отчетов департаментов и тд.
Расследование еще продолжается, но сейчас основная официальная причина – халатность. Пожар возник при перемещении батарей ИБП, прослуживших дольше срока. Неверное отключение привело к всплеску напряжения и термическому взрыву.
Вспоминайте эту историю каждый раз, когда решите, что вашей базе не нужен бэкап
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯220 51🫡23❤16😁12🔥9👍7🤨7🕊3🗿1
Data Secrets
В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.…
Чиновники в Южной Корее такие типа:
😁389 38❤23🔥16🤯9 2
Бустим data-проекты с ИИ — бесплатно до 31 октября! 🚀
До 31 октября Cloud․ru открывает бесплатный доступ к топовым AI и LLM-моделям для работы с данными в Evolution Foundation Models.
В сервисе уже доступно больше 20 моделей: reasoning-модели gpt-oss-120b и DeepSeek-R1, эмбеддеры Qwen Embeddings и bge-m3, кодовые модели Qwen3-Coder-480B и GLM-4.6 и другие мощные решения🧠
Что умеют модели
Как это ускорит вашу работу
Модели развернуты на российских серверах — ваши данные под защитой🔒
Используйте бесплатно🖱
До 31 октября Cloud․ru открывает бесплатный доступ к топовым AI и LLM-моделям для работы с данными в Evolution Foundation Models.
В сервисе уже доступно больше 20 моделей: reasoning-модели gpt-oss-120b и DeepSeek-R1, эмбеддеры Qwen Embeddings и bge-m3, кодовые модели Qwen3-Coder-480B и GLM-4.6 и другие мощные решения
Что умеют модели
➡️ Structured Outputs — автогенерация отчетов из сырых данных➡️ Function Calling — интеграция с вашими аналитическими API➡️ Reasoning — глубокий анализ и инсайты из сложных датасетов➡️ Embeddings & Reranking — семантический поиск по корпоративным данным
Как это ускорит вашу работу
1️⃣ Регистрируйтесь в личном кабинете Cloud․ru2️⃣ Выбирайте модели под ваши ML-задачи3️⃣ Подключайте через OpenAI-совместимый API к своим data pipeline4️⃣ Автоматизируйте EDA, генерацию отчетов и интерпретацию результатов
Модели развернуты на российских серверах — ваши данные под защитой
А если зарегистрируетесь как юрлицо, получите 20 000 бонусов на расширенные возможности.
Используйте бесплатно
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥17🤨14🗿9❤6👍4🤯2🏆1👀1
Genie-3 и DeepSeek R1 вошли в топ-100 изобретений года по версии Times
В этом году в рейтинге появился отдельный раздел «Искусственный Интеллект». Вот кто там оказался:
– Ambiq SPOT (какой-то супер энергоэффективный чип)
– Anthropic Claude Sonnet 4
– DeepSeek R1
– Nvidia DGX Spark
– … и еще пара агентов для вайбкодинга и финансовых данных
А Genie, что забавно, попала в другой раздел: Immersive Technology.
Также в списке почему-то оказался робот Figure-3, который официально выходит только сегодня😐
В этом году в рейтинге появился отдельный раздел «Искусственный Интеллект». Вот кто там оказался:
– Ambiq SPOT (какой-то супер энергоэффективный чип)
– Anthropic Claude Sonnet 4
– DeepSeek R1
– Nvidia DGX Spark
– … и еще пара агентов для вайбкодинга и финансовых данных
А Genie, что забавно, попала в другой раздел: Immersive Technology.
Также в списке почему-то оказался робот Figure-3, который официально выходит только сегодня
Please open Telegram to view this post
VIEW IN TELEGRAM
😁56❤14🔥7🦄2👍1🏆1