AI для Всех

🚀 Как построить LLM-микросервис

🗺️ Ситуация — короткий пролог

Нац-парк расставил 600 камер. Каждую ночь сыпятся сотни тысяч кадров.
Люди: 3 стажёра, 400 снимков в час, precision 0.90, recall 0.55. Устают, ошибаются.
Цель: автоматизировать так, чтобы, при сравнимом precision (когда мы сказали что зверь на фото есть, он там правда был) обнаруживать больше зверей на снимках (увеличить recall).

Как построить LLM-микросервис, который справится с этой задачей за секунды и будет стоит дешевле одной ночной пицца-парти?

🔧 Три слоя, которые делают магию

1️⃣ Инструкции — «толстый мануал на одной руке»

Мы хотим справиться с этой задачей в режиме Zero-shot ➜ значит все правила должны жить в system-prompt. Давайте разберем структуру:

ROLE: Полевой биолог-инспектор.
ЗАДАЧА: классифицировать кадр как "none"

или определить животное


ФОРМАТ:

JSON { “reasoning”: str, "label": str }

ПРАВИЛА:
 1. Human.
Вертикальный силуэт + двуногая походка или «неприродные» формы/цвета → метка human.
 2. Elk vs Boar.
 • Есть лопатообразные рога, «борода»-bell или характерный «горб» холке → elk.
 • Узкая клинообразная морда, коренастое тёмное тело, поросячьи полосы → boar.
 3. Unknown-фильтр.
Если объект < 30 % кадра, детали размыты/в тени → unknown.

2️⃣ Контекст — актуальная микро-порция данных

Для каждого кадра в prompt попадают:
• EXIF-метки (дата, время, температура).
• Три последних события на этой камере.
• Сезонный список активных видов для региона.

3️⃣ Предсказание + проверка
1. LLM выдаёт JSON.
2. Скрипт-валидатор: формат? сумма правил?
3. Если что-то не так ➜ второй прогон.

Если все сделали правильно получаем precision 0.95, recall 0.89.

✏️ Чек-лист

– Мануал покрывает все edge-кейсы?
– В prompt попадают ровно нужные фичи?
– Есть автоматический ретрай с лимитом ≤3?
– Precision / recall считаются в проде, а не в «потом посмотрим»?

Это пример игрушечный, но вполне применим для почти любой бизнес задачи. А какую задачу в вашем проекте вы бы доверили LLM-микросервису первой?

👍17🔥7❤5

5.07K viewsedited 08:33

AI для Всех

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

🤫

Полностью сгенерированная Операционная Система

Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране

Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром.

Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз галлюцинирует следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр.

За кулисами всё выглядит так.
• Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16.
• Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель.
• Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном.

Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу.

Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте.

Почему это важно нам, разработчикам?
1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно.
2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно.
3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM.

У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра?

💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче!

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18🤯8🔥5😐5🤩1

20.9K viewsedited 07:41

AI для Всех

Друзья! Вы невероятные, ничто так не заряжает как 60+ людей с горящими глазами. Спасибо всем кто пришёл, воспринимайте это как ваш Burning Man moment. Все это существовало в моменте и никогда не повторится (никогда не будет так же).

Всех обнял! 🏜️

🔥41❤20🤩4

5.66K viewsedited 20:13

AI для Всех

На Бар Хопинге познакомился с Глебом. Глеб показался мне приятным парнем, по этому расскажу про его проект - он запустил @TypespaceBot.

Бот на GPT-4.1 mini, умеет читать картинки и сейчас совсем бесплатный: без лимитов, без «плати после 10 сообщений».

Полгода гоняют гипотезу «0 ₽ для юзера, деньги - только от рекламы» и уже получают в 3–4 раза больше новых активных, чем в обычном подписочном боте. Похоже, у AI-врапперов два пути: либо free-to-use, либо плати только за супер-про-фичи.

Залетайте, кидайте мемы, тестируйте и делитесь фидбеком.

#промо

👍13🎉4🔥3😁2

4.45K views08:05

AI для Всех

Я в Дубаи Марина до вечера пятницы. Жареха 🥵

Если хотите встретится - пишите!

PS: на этом я заканчиваю со своим тревел блогом и возвращаюсь к обычному режиму со статьями и разборами прочих интересностей

😁11🔥3😢3❤1

4.1K views13:58

AI для Всех

🤖 Что, если ИИ-модель реально знает, что случится завтра?

Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.

Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.

Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или ❌ и обновляет публичную таблицу лидеров.

Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.

Что уже показал лидерборд:
• Claude-3 Sonnet (2025c) — 67 % точных попаданий.
• GPT-4.1 — 62 %.
• DeepSeek-V3 — ≈ 62 %.

Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.

Почему такой подход полезен
• Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
• Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
• Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
• Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.

Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.

Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.

Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀

🔗 Ссылка

❤27👍8🔥3

4.28K viewsedited 07:35

AI для Всех

Что чаще всего заставляет вас нажать «Поделиться» и переслать пост друзьям?

Anonymous Poll

22%

🧰 Практический гайд / чек-лист (конкретные шаги, «сделай-сам»)

14%

📚 Глубокий тех-разбор (архитектуры, формулы, бенчмарки)

🏹 Карьерный инсайт / вакансия (рост, зарплаты, резюме)

23%

⚡️ Горячая AI-новость / анонс (выход модели, прорыв, релиз)

🌶️ Личное наблюдение / история (фейл, лайфхак, метафора)

28%

🤡 Мем / юмор + короткий факт

✍️ Другое — напишу в комментах

353 voters3.86K views09:25

AI для Всех

🔥 Модельные сплавы: новый подход к агентам ИИ

Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.

📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей

🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем

Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник

💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям

📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.

⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet

💻 Блог

⚙️

Справочник металлурга

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥26👍10❤8😁4🤩1

4.03K viewsKirill, edited 18:33

AI для Всех

🌿 Промпт устал – теперь рулит контекст

В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.

🤔 Откуда шум?

Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.

Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.

Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.

🔄 Что именно меняем - быстро и без боли

— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.

— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».

— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.

— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.

— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.

Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).

🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.

🦦 Капибары-логисты

В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.

💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.

Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉

🔗 Обзор

👍28❤14🔥10😐2

5.74K views04:01

AI для Всех

✈️🤖 Как подписка на ChatGPT окупила себя (опять)

Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.

Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.

🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:

“United cancelled my Dubai flight, what are my rights?”

⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.

🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.

💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.

🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?

❤92🔥42👍7😁2🎉1

5.3K viewsedited 13:04

AI для Всех

🎲 🤖 Как заставить LLM придумать что-то новое? Бросьте ей «кубик» прямо в промпт

🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.

🕹️ Откуда проблема?

LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.

В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.

🎲 Что такое seed-conditioning?

1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.

📈 Цифры

• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.

🏁 Что попробовать сегодня?

1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?

🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?

Статья

❤23🔥12😁2

4.01K viewsedited 14:44

AI для Всех

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

🎨 Битва вкусов: Design Arena

Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.

Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.

🔍 Как всё устроено

1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.

🏆 Кто в топе прямо сейчас?

🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %

Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?

Попробовать самому можно тут

🔥20❤5

3.96K viewsedited 21:23

AI для Всех

This media is not supported in your browser

VIEW IN TELEGRAM

🏛️ Aeneas: ИИ научили читать камни

Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?

Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.

🔍 Откуда он знает?

В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».

Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).

📈 Что показывает бенчмарк

В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.

💡 Почему это прорыв, а не ещё один «LLM for everything»?

1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.

🧱 История одной плиты

В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.

👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.

И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.

🌟

Блог-пост

👉

Статья в Nature

🖥

GitHub

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥29❤12👍1🤩1

4.35K viewsedited 15:55

AI для Всех

🚀 Mixture-of-Recursions: когда трансформер учится "думать" сам

TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.

🧠 Суть открытия

Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.

Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.

🔎 Что это означает:

- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои

🧠 Аналогия с человеком:

Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!

🚀 Тройная инновация MoR:

Система состоит из трех ключевых компонентов:

1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более

2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества

3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза

🎯 Впечатляющие результаты

Эксперименты на моделях от 135M до 1.7B параметров показали:

• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching

Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!

🔮 Почему это важно

MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".

Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.

Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.

💡 Что дальше

Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров

MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.

А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔

📝

Статья

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥22❤5🤯5👍4

4.32K viewsKirill, 08:21

AI для Всех

Forwarded from Сиолошная

1:16

Media is too big

VIEW IN TELEGRAM

Unitree представили нового робота, Unitree R1 Intelligent Companion. Цена от $5900, вес всего 25 килограмм. Лендинга пока нет (блин, а я бы прямо сейчас тыкнул в предзаказ...).

Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.

Твит с анонсом

🔥15😁2

2.88K views14:06

AI для Всех

🔥 LLM косячит? CLEAR покажет где и сколько

CLEAR — это open-source пайплайн + дашборд от IBM Research, который берёт текстовые отзывы LLM-судьи (LLM-as-a-Judge) и автоматически группирует их в повторяющиеся типы ошибок.

🤔 Боль
Вы запускаете бенчмарк, получаете метрику и… зависаете. Да, модель набрала 73, но почему не 85? Где именно она косячит - на вычислениях, на ссылках, на логике? Ручной разбор сотен примеров - это боль и скука (хотя и необходимая).

🛠 Что сделали авторы
CLEAR автоматизирует извлечение инсайтов из LLM-судьи:

1. LLM-судья оценивает каждый ответ: балл + текстовая критика.
2. Кластеризация критики (Key Point Analysis): повторящаяся критика судьи объяединяется в кластеры (бины). Можно делать классическим KPA или попросить LLM сформулировать пункты самому (гибче, но дороже по токенам).
3. Дашборд на Streamlit: фильтруете по типу ошибки, сравниваете модели, проваливаетесь до конкретных кейсов. Наглядно и быстро.

🚀 Зачем это вам

* Приоритизировать фиксы. Не «улучшим всё разом», а «починим сначала арифметику (18% ответов), затем фактическую точность (12%)».
* Обосновать работу команде. «Почему нам нужен retriever? Потому что 20% ответов теряют ссылки» звучит куда убедительнее, чем «у нас упал общий скор».
* Готовые датасеты для улучшений. Кластеры ошибок → таргетные данные для fine-tuning, правила, тесты.

✅ Итог: CLEAR — это мост между «метрики ради метрик» и реальными действиями. Если вы занимаетесь промпт-инженерингом, RAG-конвейерами или fine-tuning — это отличный способ быстро увидеть, что чинить прямо сейчас.

Статья
Код

👍18😐4❤2🔥1

3.81K viewsedited 16:30

AI для Всех

0:14

This media is not supported in your browser

VIEW IN TELEGRAM

🧠⌚ SensorLM: часы, которые читают вас как книгу

Google скормили модели ≈ 60 млн часов анонимных данных с Fitbit и Pixel Watch - и та научилась превращать сухие цифры (пульс, шаги, температуру) в понятный человеческий текст. Представьте: часы сами пишут дневник о вашем дне.

Зачем датчикам нужен “язык”?

Каждый из нас таскает на запястье мини-лабораторию: шаги, HRV, кожная температура. Но что мы видим вечером? — графики и циферки. А хочется фразу:

«После второй чашки кофе стресс вырос, но 15-минутная прогулка вернула тебя к норме».

Такие фразы требуют миллионов пар «сенсор ↔ текст», которых раньше не было.

Что сделали в Google

1️⃣ Собрали датасет-монстра — 2,49 млн человеко-дней (127 стран).
2️⃣ Сгенерировали подписи. Алгоритм описывает каждый 24-часовой кусок в трёх слоях:
• Статистика: «пульс 54–178 bpm, среднее 72».
• Структура: «плавный рост ЧСС с 11:00 до 12:00».
• Семантика: «силовая тренировка 26 мин».
3️⃣ Обучили мультимодальный Transformer с двойным лоссом:
• сравнивать сенсор и текст (contrastive, как CLIP);
• генерировать описания (generative, как CoCa).

Результат назвали SensorLM и выпустили в четырёх размерах от S до XL (1,27 B параметров).

Что умеет из коробки

- Распознаёт активности и стресс без дообучения надёжнее традиционных CNN.
- По запросу «show me when my stress spiked» возвращает точные 10-минутные окна.
- За пару примеров адаптируется к вашему стилю жизни (few-shot).

Итог

SensorLM превращает минутные сенсорные потоки в семантически богатые токены, а далее пользуется теми же трюками, что CLIP/CoCa, чтобы «подружить» этот новый язык с человеческим. Это и есть главный инженерный «костыль», который наконец‑то снимает проклятие отсутствия размеченных данных.

Блог-пост
Статья

🔥49❤12👍5

3.78K viewsedited 15:55

AI для Всех

⚡

ML-контест

⚡

Ребята из CS Space подготовили для вас ML-контест, в котором будут задачи по машинному обучению, теории вероятностей, классической статистике и другим разделам математики.

Соревнование пройдет на платформе Яндекс Контест, участвовать можно абсолютно всем, старт в любое время с утра 1 августа до вечера 3 августа, на решение дается всего 24 часа.

Больше информации про соревнование тут, а регистрация здесь.

Хорошая возможность потренироваться в подобных задачах!

#промо

Please open Telegram to view this post

VIEW IN TELEGRAM

2🔥4😱3❤2🤯1

2.86K views09:03

AI для Всех

🌍🚀 AlphaEarth: «вычислительная фотография» планетарного масштаба

Вы открываете Sentinel-снимок над Амазонкой — и видите одни облака. Данные из радара сняты в другой день, LiDAR лежит в чужой проекции. Классический «танец с бубном»: неделя на чистку и стыковку тайлов.

Вчера DeepMind решили что хватит и показалы AlphaEarth Foundations - ИИ-двигатель, который из оптики, SAR, LiDAR, климата и ещё сотни терабайт на входе считает для каждой клетки 10 × 10 м компактный векторный эмбединг.

💡 Если коротко — это Night Sight, только не для смартфона, а для всей планеты. Так же, как вычислительная фотография вытягивает детали из шумного ночного кадра, AlphaEarth достраивает картинку Земли там, где облака, разные сенсоры и пробелы в данных и упаковывает ее в вектор, который ML системы могут потреблять из коробки.

☁️ Как родилась идея

У DeepMind скопилась петабайтовая гора «сырых» снимков, в которой дыр больше, чем пикселей. Команда решила: давайте научим модель самой угадывать, чего не хватает. Она смотрит на серию кадров как на видео и предсказывает — что будет, если сменить сенсор или дату. Получилось заполнить облачные провалы и одновременно сжать данные в 16 раз.

🧬 Что спрятано внутри 64-мерного «пикселя»

* рельеф и высота,
* влажность почвы,
* тип застройки и материал крыш,
* «пульс» растительности по сезонам,
и так далее

Коллекция SATELLITE_EMBEDDING/V1/ANNUAL уже лежит в Earth Engine: выбирай год (2017–2024), кликай — и у тебя готовая фича-матрица без единого TIFF-файла.

🔥 Зачем это тебе

* Быстрый ML-старт. Грузим 64 float-значения — и сразу в PyTorch.
* Поиск похожестей Узнай, где в мире климат + застройка похожи на твой город.
* Отслеживание изменений. Разница в векторах 2019 vs 2024 — и видно, где усохли водохранилища, а где вырос новый логистический хаб.

🔮 Что будет дальше

DeepMind уже намекает: AlphaEarth «подружится» с Gemini LLM. Задаёшь голосом: «покажи регионы, где урожай сои падает в засуху, но леса не рубят» — получаешь интерактивную карту. Звучит как Google Maps на стероидах.

Итог: планета стала одним большим умным снимком, а мы получили геопиксели, которые уже знает физику местности и готовы к ML-приключениям.

Блог-пост

2🔥38👍8😐6❤4

3.19K views19:46

About

Blog

Apps

Platform