Что чаще всего заставляет вас нажать «Поделиться» и переслать пост друзьям?
Anonymous Poll
21%
🧰 Практический гайд / чек-лист (конкретные шаги, «сделай-сам»)
14%
📚 Глубокий тех-разбор (архитектуры, формулы, бенчмарки)
3%
🏹 Карьерный инсайт / вакансия (рост, зарплаты, резюме)
23%
⚡️ Горячая AI-новость / анонс (выход модели, прорыв, релиз)
5%
🌶️ Личное наблюдение / история (фейл, лайфхак, метафора)
28%
🤡 Мем / юмор + короткий факт
5%
✍️ Другое — напишу в комментах
🔥 Модельные сплавы: новый подход к агентам ИИ
Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.
📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей
🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем
Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник
💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям
📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.
⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet
💻 Блог
⚙️ Справочник металлурга
Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.
📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей
🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем
Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник
💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям
📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.
⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet
💻 Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍10❤8😁4🤩1
🌿 Промпт устал – теперь рулит контекст
В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.
🤔 Откуда шум?
Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.
Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.
Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.
🔄 Что именно меняем - быстро и без боли
— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.
— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».
— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.
— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.
— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.
Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).
🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.
🦦 Капибары-логисты
В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.
💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.
Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉
🔗 Обзор
В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.
🤔 Откуда шум?
Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.
Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.
Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.
🔄 Что именно меняем - быстро и без боли
— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.
— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».
— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.
— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.
— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.
Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).
🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.
🦦 Капибары-логисты
В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.
💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.
Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉
🔗 Обзор
👍26❤14🔥10😐2
✈️🤖 Как подписка на ChatGPT окупила себя (опять)
Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.
Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.
🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:
“United cancelled my Dubai flight, what are my rights?”
⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.
🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.
💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.
🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?
Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.
Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.
🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:
“United cancelled my Dubai flight, what are my rights?”
⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.
🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.
💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.
🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?
❤89🔥42👍6😁2🎉1
🎲 🤖 Как заставить LLM придумать что-то новое? Бросьте ей «кубик» прямо в промпт
🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.
🕹️ Откуда проблема?
LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.
В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.
🎲 Что такое seed-conditioning?
1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.
📈 Цифры
• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.
🏁 Что попробовать сегодня?
1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?
🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?
Статья
🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.
🕹️ Откуда проблема?
LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.
В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.
🎲 Что такое seed-conditioning?
1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.
📈 Цифры
• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.
🏁 Что попробовать сегодня?
1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?
🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?
Статья
❤22🔥11😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Битва вкусов: Design Arena
Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.
Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.
🔍 Как всё устроено
1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.
🏆 Кто в топе прямо сейчас?
🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %
Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?
Попробовать самому можно тут
Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.
Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.
🔍 Как всё устроено
1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.
🏆 Кто в топе прямо сейчас?
🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %
Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?
Попробовать самому можно тут
🔥18❤5
This media is not supported in your browser
VIEW IN TELEGRAM
🏛️ Aeneas: ИИ научили читать камни
Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?
Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.
🔍 Откуда он знает?
В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».
Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).
📈 Что показывает бенчмарк
В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.
💡 Почему это прорыв, а не ещё один «LLM for everything»?
1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.
🧱 История одной плиты
В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.
👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.
И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.
🌟 Блог-пост
👉 Статья в Nature
🖥 GitHub
Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?
Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.
🔍 Откуда он знает?
В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».
Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).
📈 Что показывает бенчмарк
В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.
💡 Почему это прорыв, а не ещё один «LLM for everything»?
1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.
🧱 История одной плиты
В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.
👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.
И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥25❤11👍1🤩1
🚀 Mixture-of-Recursions: когда трансформер учится "думать" сам
TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.
🧠 Суть открытия
Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.
Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.
🔎 Что это означает:
- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои
🧠 Аналогия с человеком:
Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!
🚀 Тройная инновация MoR:
Система состоит из трех ключевых компонентов:
1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более
2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества
3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза
🎯 Впечатляющие результаты
Эксперименты на моделях от 135M до 1.7B параметров показали:
• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching
Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!
🔮 Почему это важно
MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".
Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.
Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.
💡 Что дальше
Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров
MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.
А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔
📝 Статья
TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.
🧠 Суть открытия
Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.
Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.
🔎 Что это означает:
- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои
🧠 Аналогия с человеком:
Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!
🚀 Тройная инновация MoR:
Система состоит из трех ключевых компонентов:
1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более
2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества
3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза
🎯 Впечатляющие результаты
Эксперименты на моделях от 135M до 1.7B параметров показали:
• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching
Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!
🔮 Почему это важно
MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".
Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.
Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.
💡 Что дальше
Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров
MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.
А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14🤯5❤3👍3
Forwarded from Сиолошная
Media is too big
VIEW IN TELEGRAM
Unitree представили нового робота, Unitree R1 Intelligent Companion. Цена от $5900, вес всего 25 килограмм. Лендинга пока нет (блин, а я бы прямо сейчас тыкнул в предзаказ...).
Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.
Твит с анонсом
Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.
Твит с анонсом
🔥13😁1