AI для Всех

🔥 Модельные сплавы: новый подход к агентам ИИ

Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.

📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей

🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем

Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник

💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям

📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.

⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet

💻 Блог

⚙️

Справочник металлурга

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26👍9❤8😁4🤩1

3.17K viewsKirill, edited 18:33

AI для Всех

🌿 Промпт устал – теперь рулит контекст

В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.

🤔 Откуда шум?

Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.

Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.

Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.

🔄 Что именно меняем - быстро и без боли

— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.

— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».

— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.

— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.

— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.

Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).

🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.

🦦 Капибары-логисты

В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.

💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.

Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉

🔗 Обзор

👍26❤14🔥10😐2

3.8K views04:01

AI для Всех

✈️🤖 Как подписка на ChatGPT окупила себя (опять)

Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.

Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.

🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:

“United cancelled my Dubai flight, what are my rights?”

⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.

🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.

💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.

🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?

❤84🔥38👍6😁2🎉1

3.54K viewsedited 13:04

AI для Всех

🎲 🤖 Как заставить LLM придумать что-то новое? Бросьте ей «кубик» прямо в промпт

🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.

🕹️ Откуда проблема?

LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.

В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.

🎲 Что такое seed-conditioning?

1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.

📈 Цифры

• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.

🏁 Что попробовать сегодня?

1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?

🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?

Статья

❤19🔥11

1.91K viewsedited 14:44

AI для Всех

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 Битва вкусов: Design Arena

Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.

Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.

🔍 Как всё устроено

1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.

🏆 Кто в топе прямо сейчас?

🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %

Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?

Попробовать самому можно тут

🔥10❤2

1.31K viewsedited 21:23

About

Blog

Apps

Platform