AI для Всех
15K subscribers
1.31K photos
180 videos
11 files
1.51K links
Канал, в котором мы говорим про искусственный интеллект простыми словами

Главный редактор и по рекламе: @crimeacs

Иногда пишут в канал: @GingerSpacetail, @innovationitsme
Download Telegram
🔥 Модельные сплавы: новый подход к агентам ИИ

Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.

📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей

🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем

Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник

💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям

📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.

Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet


💻 Блог

⚙️Справочник металлурга
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍108😁4🤩1
🌿 Промпт устал – теперь рулит контекст

В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.

🤔 Откуда шум?

Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.

Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.

Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.

🔄 Что именно меняем - быстро и без боли

CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.

PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».

Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.

Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.

Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.

Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).

🌍 Почему это важно прямо сейчас
💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
Быстрее ответ - короткий контекст рендерится быстрее.

🦦 Капибары-логисты

В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.

💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.

Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉

🔗 Обзор
👍2614🔥10😐2
✈️🤖 Как подписка на ChatGPT окупила себя (опять)

Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.

Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.

🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:

“United cancelled my Dubai flight, what are my rights?”

⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.

🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.

💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.

🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?
89🔥42👍6😁2🎉1
🎲 🤖 Как заставить LLM придумать что-то новое? Бросьте ей «кубик» прямо в промпт

🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.

🕹️ Откуда проблема?

LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.

В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.

🎲 Что такое seed-conditioning?

1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.

📈 Цифры

5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.

🏁 Что попробовать сегодня?

1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?

🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?

Статья
22🔥11😁1
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Битва вкусов: Design Arena

Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.

Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.

🔍 Как всё устроено

1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.

🏆 Кто в топе прямо сейчас?

🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %

Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?

Попробовать самому можно тут
🔥185
This media is not supported in your browser
VIEW IN TELEGRAM
🏛️ Aeneas: ИИ научили читать камни

Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?

Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.

🔍 Откуда он знает?

В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».

Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).

📈 Что показывает бенчмарк

В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.

💡 Почему это прорыв, а не ещё один «LLM for everything»?

1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.

🧱 История одной плиты

В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.

👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.

И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.

🌟 Блог-пост
👉 Статья в Nature
🖥 GitHub
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2511👍1🤩1
🚀 Mixture-of-Recursions: когда трансформер учится "думать" сам

TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.

🧠 Суть открытия

Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.

Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.

🔎 Что это означает:

- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои

🧠 Аналогия с человеком:

Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!

🚀 Тройная инновация MoR:

Система состоит из трех ключевых компонентов:

1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более

2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества

3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза

🎯 Впечатляющие результаты

Эксперименты на моделях от 135M до 1.7B параметров показали:

• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching

Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!

🔮 Почему это важно

MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".

Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.

Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.

💡 Что дальше

Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров

MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.

А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔


📝Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14🤯53👍3
Forwarded from Сиолошная
Media is too big
VIEW IN TELEGRAM
Unitree представили нового робота, Unitree R1 Intelligent Companion. Цена от $5900, вес всего 25 килограмм. Лендинга пока нет (блин, а я бы прямо сейчас тыкнул в предзаказ...).

Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.

Твит с анонсом
🔥13😁1