🚀 Как построить LLM-микросервис
🗺️ Ситуация — короткий пролог
Нац-парк расставил 600 камер. Каждую ночь сыпятся сотни тысяч кадров.
Люди: 3 стажёра, 400 снимков в час, precision 0.90, recall 0.55. Устают, ошибаются.
Цель: автоматизировать так, чтобы, при сравнимом precision (когда мы сказали что зверь на фото есть, он там правда был) обнаруживать больше зверей на снимках (увеличить recall).
Как построить LLM-микросервис, который справится с этой задачей за секунды и будет стоит дешевле одной ночной пицца-парти?
🔧 Три слоя, которые делают магию
1️⃣ Инструкции — «толстый мануал на одной руке»
Мы хотим справиться с этой задачей в режиме Zero-shot ➜ значит все правила должны жить в system-prompt. Давайте разберем структуру:
2️⃣ Контекст — актуальная микро-порция данных
Для каждого кадра в prompt попадают:
• EXIF-метки (дата, время, температура).
• Три последних события на этой камере.
• Сезонный список активных видов для региона.
3️⃣ Предсказание + проверка
1. LLM выдаёт JSON.
2. Скрипт-валидатор: формат? сумма правил?
3. Если что-то не так ➜ второй прогон.
Если все сделали правильно получаем precision 0.95, recall 0.89.
✏️ Чек-лист
– Мануал покрывает все edge-кейсы?
– В prompt попадают ровно нужные фичи?
– Есть автоматический ретрай с лимитом ≤3?
– Precision / recall считаются в проде, а не в «потом посмотрим»?
Это пример игрушечный, но вполне применим для почти любой бизнес задачи. А какую задачу в вашем проекте вы бы доверили LLM-микросервису первой?
🗺️ Ситуация — короткий пролог
Нац-парк расставил 600 камер. Каждую ночь сыпятся сотни тысяч кадров.
Люди: 3 стажёра, 400 снимков в час, precision 0.90, recall 0.55. Устают, ошибаются.
Цель: автоматизировать так, чтобы, при сравнимом precision (когда мы сказали что зверь на фото есть, он там правда был) обнаруживать больше зверей на снимках (увеличить recall).
Как построить LLM-микросервис, который справится с этой задачей за секунды и будет стоит дешевле одной ночной пицца-парти?
🔧 Три слоя, которые делают магию
1️⃣ Инструкции — «толстый мануал на одной руке»
Мы хотим справиться с этой задачей в режиме Zero-shot ➜ значит все правила должны жить в system-prompt. Давайте разберем структуру:
ROLE: Полевой биолог-инспектор.
ЗАДАЧА: классифицировать кадр как "none"
или определить животное
ФОРМАТ:
JSON { “reasoning”: str, "label": str }
ПРАВИЛА:
1. Human.
Вертикальный силуэт + двуногая походка или «неприродные» формы/цвета → метка human.
2. Elk vs Boar.
• Есть лопатообразные рога, «борода»-bell или характерный «горб» холке → elk.
• Узкая клинообразная морда, коренастое тёмное тело, поросячьи полосы → boar.
3. Unknown-фильтр.
Если объект < 30 % кадра, детали размыты/в тени → unknown.
2️⃣ Контекст — актуальная микро-порция данных
Для каждого кадра в prompt попадают:
• EXIF-метки (дата, время, температура).
• Три последних события на этой камере.
• Сезонный список активных видов для региона.
3️⃣ Предсказание + проверка
1. LLM выдаёт JSON.
2. Скрипт-валидатор: формат? сумма правил?
3. Если что-то не так ➜ второй прогон.
Если все сделали правильно получаем precision 0.95, recall 0.89.
✏️ Чек-лист
– Мануал покрывает все edge-кейсы?
– В prompt попадают ровно нужные фичи?
– Есть автоматический ретрай с лимитом ≤3?
– Precision / recall считаются в проде, а не в «потом посмотрим»?
Это пример игрушечный, но вполне применим для почти любой бизнес задачи. А какую задачу в вашем проекте вы бы доверили LLM-микросервису первой?
👍17🔥7❤5
This media is not supported in your browser
VIEW IN TELEGRAM
Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране
Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром.
Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз галлюцинирует следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр.
За кулисами всё выглядит так.
• Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16.
• Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель.
• Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном.
Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу.
Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте.
Почему это важно нам, разработчикам?
1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно.
2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно.
3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM.
У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра?
💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче!
Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🤯8🔥5😐5🤩1
На Бар Хопинге познакомился с Глебом. Глеб показался мне приятным парнем, по этому расскажу про его проект - он запустил @TypespaceBot.
Бот на GPT-4.1 mini, умеет читать картинки и сейчас совсем бесплатный: без лимитов, без «плати после 10 сообщений».
Полгода гоняют гипотезу «0 ₽ для юзера, деньги - только от рекламы» и уже получают в 3–4 раза больше новых активных, чем в обычном подписочном боте. Похоже, у AI-врапперов два пути: либо free-to-use, либо плати только за супер-про-фичи.
Залетайте, кидайте мемы, тестируйте и делитесь фидбеком.
#промо
Бот на GPT-4.1 mini, умеет читать картинки и сейчас совсем бесплатный: без лимитов, без «плати после 10 сообщений».
Полгода гоняют гипотезу «0 ₽ для юзера, деньги - только от рекламы» и уже получают в 3–4 раза больше новых активных, чем в обычном подписочном боте. Похоже, у AI-врапперов два пути: либо free-to-use, либо плати только за супер-про-фичи.
Залетайте, кидайте мемы, тестируйте и делитесь фидбеком.
#промо
👍13🎉4🔥3😁2
🤖 Что, если ИИ-модель реально знает, что случится завтра?
Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.
Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.
Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или ❌ и обновляет публичную таблицу лидеров.
Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.
Что уже показал лидерборд:
• Claude-3 Sonnet (2025c) — 67 % точных попаданий.
• GPT-4.1 — 62 %.
• DeepSeek-V3 — ≈ 62 %.
Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.
Почему такой подход полезен
• Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
• Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
• Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
• Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.
Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.
Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.
Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀
🔗 Ссылка
Большие языковые модели (LLM) давно научились пересказывать Википедию и писать код. Но в практических задачах ценится другое — способность видеть вперёд: успеет ли стартап закрыть раунд, снизит ли ФРС ставку, победит ли нужный кандидат.
Открытый проект FutureBench впервые измеряет это чутьё в цифрах. Вместо того чтобы спрашивать модель о прошлом, он спрашивает модель о будущем - о том, чего обучающих данных точно нет.
Как устроен этот «тонометр для предсказаний»
1. Каждую неделю скрипт берёт свежие новости и вопросы из prediction-рынков (например, Polymarket) и формирует десяток бинарных «будет / не будет» задач на ближайшие дни или недели.
2. Агентная модель с доступом к интернету собирает факты, сопоставляет аргументы и выдаёт вероятность.
3. Когда событие наступает, FutureBench автоматически фиксирует ✔️ или ❌ и обновляет публичную таблицу лидеров.
Получается прозрачный счётчик: у кого интуиция ближе к реальности тот и победил.
Что уже показал лидерборд:
• Claude-3 Sonnet (2025c) — 67 % точных попаданий.
• GPT-4.1 — 62 %.
• DeepSeek-V3 — ≈ 62 %.
Все три уверенно обыгрывают свои же «отключённые от сети» версии. Свежий контекст решает не меньше, чем размер модели.
Почему такой подход полезен
• Никаких шпаргалок. Будущее нельзя украсть из тренировочного датасета — проверка честная по определению.
• Быстрая обратная связь. Изменил агент или поиск — уже через неделю видно, стало ли лучше.
• Метрика, понятная бизнесу. «67 % точности на реальных ставках» звучит убедительнее, чем «137 BLEU».
• Площадка для роста. Результат открытый — можно соревноваться, выкладывать свои результаты и расти с каждой итерацией.
Как пощупать самому
1. Зайдите на живой лидерборд FutureBench
2. Посмотрите, какие вопросы стоят сейчас и как распределились ответы моделей.
3. Спросите у своего любимого чат-бота то же самое - и сравните вероятность с табло через пару недель.
Так вы на практике почувствуете, умеют ли LLM «думать вперёд» и как быстро эта способность улучшается.
Поделитесь постом с теми, кто до сих пор уверен, что ИИ годится лишь на пересказ прошлого - пусть заглянут в будущее вместе с нами! 🚀
🔗 Ссылка
❤27👍8🔥3
Что чаще всего заставляет вас нажать «Поделиться» и переслать пост друзьям?
Anonymous Poll
22%
🧰 Практический гайд / чек-лист (конкретные шаги, «сделай-сам»)
14%
📚 Глубокий тех-разбор (архитектуры, формулы, бенчмарки)
3%
🏹 Карьерный инсайт / вакансия (рост, зарплаты, резюме)
23%
⚡️ Горячая AI-новость / анонс (выход модели, прорыв, релиз)
5%
🌶️ Личное наблюдение / история (фейл, лайфхак, метафора)
28%
🤡 Мем / юмор + короткий факт
5%
✍️ Другое — напишу в комментах
🔥 Модельные сплавы: новый подход к агентам ИИ
Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.
📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей
🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем
Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник
💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям
📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.
⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet
💻 Блог
⚙️ Справочник металлурга
Команда XBOW поделилась исследованием, показывающим, как объединение различных моделей ИИ создаёт нечто более мощное, чем сумма его частей — подобно металлическим сплавам. Вместо использования одной модели в цикле, они чередуют разные модели (Sonnet 4.0, Gemini 2.5 Pro), сохраняя единый чат-поток.
📈 Результаты: точность выросла с 25% до 55% на задачах поиска уязвимостей
🎯 Как работает агент-сплав:
- представим что у вас есть 2 разные модели (например, Claude и ChatGPT)
- 1-й вопрос отправляете в Claude → получаете ответ
- 2-й вопрос отправляете в ChatGPT, НО показываете ему весь разговор, включая то, что ответил Claude
- ChatGPT думает, что предыдущий ответ написал он сам!
- 3-й вопрос снова Claude, показываем ему весь разговор
- И так чередуем
Зачем это нужно:
- Claude хорош в одном, ChatGPT в другом
- Когда они работают вместе, но не знают об этом, получается лучший результат
- Как будто один умный человек, который иногда думает как математик, а иногда как художник
💡 Когда использовать:
- Итеративные задачи с >10 вызовами модели
- Нужно комбинировать разные идеи
- Есть доступ к достаточно разным моделям
📝 Чем более разные модели, тем лучше они работали "в сплаве". В ТРИЗ это называется би-система со смещенными характеристиками ☯️
Модель, которая лучше по отдельности, как правило, будет лучше выглядеть и в составе сплава. Модель, сильно отстающая от других, может даже снизить характеристики сплава.
Несбалансированные сплавы следует балансировать в сторону более прочной модели.
⚡ Лучший результат в эксперименте показал сплав Sonnet 4.0 + Gemini 2.5 Pro: 68.8% против 57.5% у чистого Sonnet
💻 Блог
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥26👍10❤8😁4🤩1
🌿 Промпт устал – теперь рулит контекст
В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.
🤔 Откуда шум?
Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.
Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.
Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.
🔄 Что именно меняем - быстро и без боли
— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.
— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».
— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.
— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.
— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.
Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).
🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.
🦦 Капибары-логисты
В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.
💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.
Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉
🔗 Обзор
В свежем июльском обзоре “A Survey of Context Engineering for LLMs” разбираются все элементы целой фабрики по производству контекста для LLM. Так дешевле, стабильнее и быстрее.
🤔 Откуда шум?
Последние пару недель почти каждый день объясняю кому-нибудь что такое Context Engineering, а тут как раз и разбор подвезли на 165 страниц.
Пока мы гордились «идеальными» промптами, авторы обзора перечитали 200+ статей за 2023-25 гг. и увидели три тренда:
• диалоги растянулись до миллионов токенов;
• в продакшн заехали RAG-поиск и функции;
• пользователи ждут долговременную память.
Одна строка-промт не справляется → рождается context engineering — логистика данных для модели.
🔄 Что именно меняем - быстро и без боли
— CLEAR-prompt. Это чек-лист: Concise (коротко), Logical (без скачков), Explicit (никаких «догадайся»), Adaptable (можно менять), Reflective (модель может на себя сослаться). Работает как код-ревью для промпта.
— PREMISE & друзья. Микросервис, который проходит по тексту и оставляет только важные 20 %. Представь auto-summary кнопкой «Trim».
— Self-RAG. Вместо постоянного поиска модель сама решает, нужен ли внешний факт. Похоже на «lazy load» в вебе: грузим картинку только когда пользователь доскроллил.
— Rolling-buffer. Храним последние N сообщений + краткое summary старых. Диалог длинный, окно модели короткое — и все довольны.
— Lost-in-the-middle. Если важное спрятать в середину, LLM чаще промахнётся. Решение банально: правила наверх, факты вниз, середину можно ужать.
Эти пять трюков — квинтэссенция трёх китов обзора (как собирать, как обрабатывать, как хранить).
🌍 Почему это важно прямо сейчас
• 💰 Меньше токенов — меньше счёт от GPT-4o/Claude/Qwen.
• 🔒 Больше надёжности - модель видит только нужные данные, меньше галлюцинаций.
• ⚡ Быстрее ответ - короткий контекст рендерится быстрее.
🦦 Капибары-логисты
В прикреплённой картинке семейство капибар собирает, фильтрует и сжимает данные, прежде чем скормить их модели. Запомнить схему «собрал → отфильтровал → сжал → скормил» проще некуда.
💬 Как вы уже оптимизируете контекст? Делитесь лайфхаками в комментах.
Если пост полезен — поделитесь с коллегами, сэкономим токены вместе! 😉
🔗 Обзор
👍28❤14🔥10😐2
✈️🤖 Как подписка на ChatGPT окупила себя (опять)
Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.
Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.
🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:
“United cancelled my Dubai flight, what are my rights?”
⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.
🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.
💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.
🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?
Рейс в 1:55 ночью отменён в 3:30, всем предлагают 23:00 следующего дня. Я достаю ChatGPT, цитирую два закона — и лечу тем же утром.
Я помню что обещал завязывать с тревел блогом, но так как путешествие все никак не закончится - вот вам лайфхак.
🕓 03:30, DXB. Громкая связь сообщает «Flight cancelled». Очередь к стойке United ползёт, люди заранее смиряются с завтрашним поздним рейсом (его уже дважды отменяли). Я зеваю, открываю ChatGPT и пишу:
“United cancelled my Dubai flight, what are my rights?”
⚖️ 60 секунд — и готово. Бот выдаёт ссылки на UAE Passenger Welfare Program и DOT Customer-Service Dashboard, плюс мини-скрипт: «Пожалуйста, перебронируйте на любой доступный рейс без доплат». Копирую в заметки и звоню агенту.
🚀 Диалог занял меньше кофе. Девушка на другом конце телефона говорит: вы можете улететь только завтра в 23:00. Я цитирую законы которые нашел О3, она пробивает клавиатурой, говорит что бы я подождал на линии. Через 5 минут говорит: 08:25 Дубай → Франкфурт, стыковка 17:30 → Сан-Франциско. Дарит ваучер на перекус (в Дубаи взял кофе и фрукты, во Франкфурте - немецкое пиво с сосиской). Итог — в Калифорнии я буду всего на пять часов позже, без бессмысленных 24 часов в Дубайском отеле.
💡 Вывод?
1. Правило сильнее жалобы. Большинство рядом вообще не слышали про «re-routing on another airline»(серьезно, я кажется единственный кто утром улетел).
2. ChatGPT = карманный юрист. 20 $ подписки против сотен долларов и целого дня жизни - подписка окупила себя по полной (опять).
3. Чек-лист? Спросить бота о правах → процитировать агенту → сохранять чеки. Всё.
🔚 Пока сижу и жду рейс в SF, поделитесь как вы окупаете свою подписку?
❤92🔥42👍7😁2🎉1
🎲 🤖 Как заставить LLM придумать что-то новое? Бросьте ей «кубик» прямо в промпт
🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.
🕹️ Откуда проблема?
LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.
В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.
🎲 Что такое seed-conditioning?
1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.
📈 Цифры
• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.
🏁 Что попробовать сегодня?
1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?
🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?
Статья
🔥 Вместо того чтобы разогревать temperature и рисковать галлюцинациями, добавьте в начало запроса пару случайных «seed»-токенов. Модель заранее «перетасует карты», а дальше будет писать текст детерминированно и связно. Авторы нового исследования показали, что такой трюк поднимает метрику algorithmic creativity в 5 раз — и всё это при temperature = 0.
🕹️ Откуда проблема?
LLM-ки учат угадывать следующий токен. Отлично для орфографии, но плоховато для «прыжков воображения»: модель смотрит ровно на один шаг вперёд, а не планирует целый абзац (ну на самом деле планирует, но это происходит еще в момент генерации первого токена). В результате она:
• повторяет шаблоны,
• «прилипает» к тренировочным примерам,
• рушит связность, если выкрутить температуру.
В недавней статье “Roll the Dice & Look Before You Leap” предлагают четыре игрушечных задачи, где требуются именно творческие решения (например, найти «неявных братьев» в графе, которых не было в датасете). Базовый fine-tune на next-token подвёл: модель вяло копирует учёбу.
🎲 Что такое seed-conditioning?
1. Во время fine-tune к каждому (prompt → ответ) пристраиваем 4–8 случайных токенов.
2. Модель узнаёт: «Эта тарабарщина — просто шум, можно его игнорировать».
3. На инференсе берём новый seed, ставим temperature = 0, декодируем greedily. Итог — новый, связный вариант за один проход.
📈 Цифры
• 5× рост algorithmic creativity на задачах «Sibling/Triangle Discovery».
• Провал температуры: даже при T = 2.0 разнообразие росло слабее, а связность падала.
• Greedy faster: без семплинга инференс ~×2 быстрее — приятно, если гоняете батчами.
🏁 Что попробовать сегодня?
1. Возьмите любую задачу, где вам важна структурная новизна.
2. Сделайте быструю LoRA на 1–2 эпохи с «шумовым» префиксом.
3. Сгенерируйте 50 seed-ов, декодируйте greedy, посмотрите — стало ли действительно разнообразнее?
🤔 А если уже играли с подобной «скрытой случайностью» — поделитесь опытом! Интересно будет ли такое работать с генерацией новых научных идей?
Статья
❤23🔥12😁2
This media is not supported in your browser
VIEW IN TELEGRAM
🎨 Битва вкусов: Design Arena
Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.
Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.
🔍 Как всё устроено
1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.
🏆 Кто в топе прямо сейчас?
🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %
Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?
Попробовать самому можно тут
Тут решают не токены, а чувство прекрасного. Арена для того, что бы узнать какая нейросеть в 2025-м рисует самый «глянцевый» UI.
Каждый день языковые модели пишут код быстрее и дешевле, но для конечного пользователя код не так уж и важен, важно то как продукт выглядит. Design Arena - одна из первых попыток измерить эстетику сгенерированных интерфейсов.
🔍 Как всё устроено
1. Пишете короткий prompt.
2. Платформа случайно выбирает 4 модели — названия скрыты.
3. Выбираете какой дизайн самый лучший
4. Win Rate + Elo обновляются в реальном времени.
🏆 Кто в топе прямо сейчас?
🥇 Claude Opus 4 — 71 % побед
🥈 DeepSeek-R1-0528 — 69 %
🥉 Claude Sonnet 4 — 68 %
Open-source DeepSeek уже дышит в спину гигантам — любопытно, согласитесь?
Попробовать самому можно тут
🔥20❤5
This media is not supported in your browser
VIEW IN TELEGRAM
🏛️ Aeneas: ИИ научили читать камни
Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?
Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.
🔍 Откуда он знает?
В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».
Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).
📈 Что показывает бенчмарк
В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.
💡 Почему это прорыв, а не ещё один «LLM for everything»?
1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.
🧱 История одной плиты
В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.
👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.
И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.
🌟 Блог-пост
👉 Статья в Nature
🖥 GitHub
Вы держите в руках осколок мрамора. Из пяти строк уцелели три буквы: «…V S…». Как узнать, что здесь было написано 1800 лет назад?
Именно с этой головоломки и стартует Aeneas — новый мультимодальный трансформер от DeepMind, который восстанавливает, датирует и «геолокацирует» латинские надписи быстрее, чем человек успеет достать лупу.
🔍 Откуда он знает?
В основе — Latin Epigraphic Dataset (LED): 176 000 оцифрованных надписей + фотографии плит.
Модель T5 берёт на вход символьную расшифровку и фото 224×224.
Две метки описывают лакуны: «—» (пропала одна буква) и «#» (неизвестно сколько). Это важный трюк: историки редко знают длину «дыры».
Дальше четыре параллельных «головы»:
• восстанавливаем текст,
• решаем «одна буква или больше»,
• угадываем одну из 62 римских провинций,
• ставим дату с шагом в десятилетие (-800 — +800).
📈 Что показывает бенчмарк
В сравнении c Ithaca (SoTA 2022 года) Aeneas:
• снижает CER (ошибки символов) на ~7 %,
• верно называет провинцию в 72 % (было 61),
• Датирует по фотографии с погрешностью до 13 лет.
💡 Почему это прорыв, а не ещё один «LLM for everything»?
1. Нишевой датасет + узкий трансформер
2. Мультимодальность видит не только буквы, но и стиль резьбы, форму алтаря, даже следы реставраций.
3. Explainability first: много встроенных инструментов для объяснения предсказаний, что позволяет больше доверять результатам
4. Трюк с неизвестной дыркой - хороший урок по работе с Missing Data.
🧱 История одной плиты
В римском Майнце (Germania Superior) нашли алтарь 211 г. с дырами. Aeneas первым же кандидатом вывел почти идентичный алтарь 197 г. из той же крепости. Историку осталось лишь сверить имена богов — и пазл сложился.
👀 А вы где сталкиваетесь с «пропущенными кусочками» данных?
Расскажите в комментариях — интересно сравнить области.
И если у вас есть знакомый историк, археолог или просто latin-geek — перекиньте ему эту историю, пусть удивится, как далеко мы уже уехали на этих ваших трансформерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29❤12👍1🤩1
🚀 Mixture-of-Recursions: когда трансформер учится "думать" сам
TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.
🧠 Суть открытия
Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.
Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.
🔎 Что это означает:
- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои
🧠 Аналогия с человеком:
Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!
🚀 Тройная инновация MoR:
Система состоит из трех ключевых компонентов:
1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более
2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества
3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза
🎯 Впечатляющие результаты
Эксперименты на моделях от 135M до 1.7B параметров показали:
• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching
Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!
🔮 Почему это важно
MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".
Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.
Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.
💡 Что дальше
Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров
MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.
А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔
📝 Статья
TL;DR: Исследователи создали архитектуру, которая делает трансформеры умнее на 50% меньших параметрах. Секрет — в динамическом "повторном размышлении" над сложными токенами.
🧠 Суть открытия
Представьте, что при чтении сложного предложения вы можете остановиться и подумать дольше над трудными словами, а простые — пролистать быстро. Именно так работает Mixture-of-Recursions (MoR) — новая архитектура от команды исследователей.
Традиционные трансформеры обрабатывают все токены одинаково: каждый проходит через все слои по очереди. MoR же вводит революционный подход — адаптивная рекурсия на уровне токенов.
🔎 Что это означает:
- Обычный трансформер: все токены → 30 уникальных слоев по порядку
- MoR: каждый токен → свое количество "переосмыслений" через одни и те же слои
🧠 Аналогия с человеком:
Читаете предложение — на слове "кот" думаете 1 секунду, на "квантовая суперпозиция" — 5 секунд. MoR делает то же самое!
🚀 Тройная инновация MoR:
Система состоит из трех ключевых компонентов:
1. Умный роутер — анализирует каждый токен и решает, сколько раз его нужно "обдумать"
• Простые слова типа "и", "—" проходят 1-2 итерации
• Сложные понятия вроде "defensively confident" — 3 и более
2. Рекурсивные блоки — один и тот же набор параметров используется многократно
• Вместо 30 уникальных слоев — 10 слоев, применяемых 3 раза
• Экономия параметров в 3 раза без потери качества
3. Умное кэширование — система запоминает промежуточные вычисления
• KV-кэши сохраняются только для активных токенов на каждом уровне рекурсии
• Снижение потребления памяти и ускорение инференса в 2+ раза
🎯 Впечатляющие результаты
Эксперименты на моделях от 135M до 1.7B параметров показали:
• При равном числе параметров: MoR превосходит обычные трансформеры по всем метрикам
• При равном бюджете вычислений: на 25% меньше FLOPs при лучшем качестве
• Скорость инференса: до 2.18x ускорение благодаря continuous depth-wise batching
Модель с MoR-2 (2 рекурсии) с 167M параметров обошла vanilla трансформер с 315M параметров, используя почти в 2 раза меньше ресурсов!
🔮 Почему это важно
MoR открывает новую парадигму — латентное мышление во время генерации. Вместо того чтобы "думать" только при обучении, модель может адаптивно размышлять над каждым токеном в реальном времени, адаптивно решая: "этот токен простой — 1 итерация, этот сложный — 3 итерации".
Это особенно ценно для задач, требующих разного уровня рассуждений: от простых ответов до сложного анализа. Модель сама решает, где применить больше вычислительной мощности.
Исследование также показывает возможность test-time scaling — увеличивая глубину рекурсии на инференсе, можно улучшить качество генерации без переобучения.
💡 Что дальше
Авторы видят огромный потенциал в развитии идеи:
• Применение к мультимодальным задачам (видео, аудио)
• Интеграция с техниками разреженности
• Масштабирование на модели 3B+ параметров
MoR демонстрирует, что эффективность систем ИИ можно кардинально улучшить не только за счёт увеличения размера, но и за счёт более умной архитектуры. Это может стать ключом к созданию мощных моделей, доступных для более широкого круга разработчиков.
А как думаете вы — станет ли адаптивная рекурсия новым стандартом для трансформеров?🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥22❤5🤯5👍4
Forwarded from Сиолошная
Media is too big
VIEW IN TELEGRAM
Unitree представили нового робота, Unitree R1 Intelligent Companion. Цена от $5900, вес всего 25 килограмм. Лендинга пока нет (блин, а я бы прямо сейчас тыкнул в предзаказ...).
Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.
Твит с анонсом
Манёвренность поражает — вместо робопса рядом с вами по улице теперь сможет передвигаться ЭТО на руках.
Твит с анонсом
🔥15😁2
🔥 LLM косячит? CLEAR покажет где и сколько
CLEAR — это open-source пайплайн + дашборд от IBM Research, который берёт текстовые отзывы LLM-судьи (LLM-as-a-Judge) и автоматически группирует их в повторяющиеся типы ошибок.
🤔 Боль
Вы запускаете бенчмарк, получаете метрику и… зависаете. Да, модель набрала 73, но почему не 85? Где именно она косячит - на вычислениях, на ссылках, на логике? Ручной разбор сотен примеров - это боль и скука (хотя и необходимая).
🛠 Что сделали авторы
CLEAR автоматизирует извлечение инсайтов из LLM-судьи:
1. LLM-судья оценивает каждый ответ: балл + текстовая критика.
2. Кластеризация критики (Key Point Analysis): повторящаяся критика судьи объяединяется в кластеры (бины). Можно делать классическим KPA или попросить LLM сформулировать пункты самому (гибче, но дороже по токенам).
3. Дашборд на Streamlit: фильтруете по типу ошибки, сравниваете модели, проваливаетесь до конкретных кейсов. Наглядно и быстро.
🚀 Зачем это вам
* Приоритизировать фиксы. Не «улучшим всё разом», а «починим сначала арифметику (18% ответов), затем фактическую точность (12%)».
* Обосновать работу команде. «Почему нам нужен retriever? Потому что 20% ответов теряют ссылки» звучит куда убедительнее, чем «у нас упал общий скор».
* Готовые датасеты для улучшений. Кластеры ошибок → таргетные данные для fine-tuning, правила, тесты.
✅ Итог: CLEAR — это мост между «метрики ради метрик» и реальными действиями. Если вы занимаетесь промпт-инженерингом, RAG-конвейерами или fine-tuning — это отличный способ быстро увидеть, что чинить прямо сейчас.
Статья
Код
CLEAR — это open-source пайплайн + дашборд от IBM Research, который берёт текстовые отзывы LLM-судьи (LLM-as-a-Judge) и автоматически группирует их в повторяющиеся типы ошибок.
🤔 Боль
Вы запускаете бенчмарк, получаете метрику и… зависаете. Да, модель набрала 73, но почему не 85? Где именно она косячит - на вычислениях, на ссылках, на логике? Ручной разбор сотен примеров - это боль и скука (хотя и необходимая).
🛠 Что сделали авторы
CLEAR автоматизирует извлечение инсайтов из LLM-судьи:
1. LLM-судья оценивает каждый ответ: балл + текстовая критика.
2. Кластеризация критики (Key Point Analysis): повторящаяся критика судьи объяединяется в кластеры (бины). Можно делать классическим KPA или попросить LLM сформулировать пункты самому (гибче, но дороже по токенам).
3. Дашборд на Streamlit: фильтруете по типу ошибки, сравниваете модели, проваливаетесь до конкретных кейсов. Наглядно и быстро.
🚀 Зачем это вам
* Приоритизировать фиксы. Не «улучшим всё разом», а «починим сначала арифметику (18% ответов), затем фактическую точность (12%)».
* Обосновать работу команде. «Почему нам нужен retriever? Потому что 20% ответов теряют ссылки» звучит куда убедительнее, чем «у нас упал общий скор».
* Готовые датасеты для улучшений. Кластеры ошибок → таргетные данные для fine-tuning, правила, тесты.
✅ Итог: CLEAR — это мост между «метрики ради метрик» и реальными действиями. Если вы занимаетесь промпт-инженерингом, RAG-конвейерами или fine-tuning — это отличный способ быстро увидеть, что чинить прямо сейчас.
Статья
Код
👍18😐4❤2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
🧠⌚ SensorLM: часы, которые читают вас как книгу
Google скормили модели ≈ 60 млн часов анонимных данных с Fitbit и Pixel Watch - и та научилась превращать сухие цифры (пульс, шаги, температуру) в понятный человеческий текст. Представьте: часы сами пишут дневник о вашем дне.
Зачем датчикам нужен “язык”?
Каждый из нас таскает на запястье мини-лабораторию: шаги, HRV, кожная температура. Но что мы видим вечером? — графики и циферки. А хочется фразу:
Такие фразы требуют миллионов пар «сенсор ↔ текст», которых раньше не было.
Что сделали в Google
1️⃣ Собрали датасет-монстра — 2,49 млн человеко-дней (127 стран).
2️⃣ Сгенерировали подписи. Алгоритм описывает каждый 24-часовой кусок в трёх слоях:
• Статистика: «пульс 54–178 bpm, среднее 72».
• Структура: «плавный рост ЧСС с 11:00 до 12:00».
• Семантика: «силовая тренировка 26 мин».
3️⃣ Обучили мультимодальный Transformer с двойным лоссом:
• сравнивать сенсор и текст (contrastive, как CLIP);
• генерировать описания (generative, как CoCa).
Результат назвали SensorLM и выпустили в четырёх размерах от S до XL (1,27 B параметров).
Что умеет из коробки
- Распознаёт активности и стресс без дообучения надёжнее традиционных CNN.
- По запросу «show me when my stress spiked» возвращает точные 10-минутные окна.
- За пару примеров адаптируется к вашему стилю жизни (few-shot).
Итог
SensorLM превращает минутные сенсорные потоки в семантически богатые токены, а далее пользуется теми же трюками, что CLIP/CoCa, чтобы «подружить» этот новый язык с человеческим. Это и есть главный инженерный «костыль», который наконец‑то снимает проклятие отсутствия размеченных данных.
Блог-пост
Статья
Google скормили модели ≈ 60 млн часов анонимных данных с Fitbit и Pixel Watch - и та научилась превращать сухие цифры (пульс, шаги, температуру) в понятный человеческий текст. Представьте: часы сами пишут дневник о вашем дне.
Зачем датчикам нужен “язык”?
Каждый из нас таскает на запястье мини-лабораторию: шаги, HRV, кожная температура. Но что мы видим вечером? — графики и циферки. А хочется фразу:
«После второй чашки кофе стресс вырос, но 15-минутная прогулка вернула тебя к норме».
Такие фразы требуют миллионов пар «сенсор ↔ текст», которых раньше не было.
Что сделали в Google
1️⃣ Собрали датасет-монстра — 2,49 млн человеко-дней (127 стран).
2️⃣ Сгенерировали подписи. Алгоритм описывает каждый 24-часовой кусок в трёх слоях:
• Статистика: «пульс 54–178 bpm, среднее 72».
• Структура: «плавный рост ЧСС с 11:00 до 12:00».
• Семантика: «силовая тренировка 26 мин».
3️⃣ Обучили мультимодальный Transformer с двойным лоссом:
• сравнивать сенсор и текст (contrastive, как CLIP);
• генерировать описания (generative, как CoCa).
Результат назвали SensorLM и выпустили в четырёх размерах от S до XL (1,27 B параметров).
Что умеет из коробки
- Распознаёт активности и стресс без дообучения надёжнее традиционных CNN.
- По запросу «show me when my stress spiked» возвращает точные 10-минутные окна.
- За пару примеров адаптируется к вашему стилю жизни (few-shot).
Итог
SensorLM превращает минутные сенсорные потоки в семантически богатые токены, а далее пользуется теми же трюками, что CLIP/CoCa, чтобы «подружить» этот новый язык с человеческим. Это и есть главный инженерный «костыль», который наконец‑то снимает проклятие отсутствия размеченных данных.
Блог-пост
Статья
🔥49❤12👍5
Ребята из CS Space подготовили для вас ML-контест, в котором будут задачи по машинному обучению, теории вероятностей, классической статистике и другим разделам математики.
Соревнование пройдет на платформе Яндекс Контест, участвовать можно абсолютно всем, старт в любое время с утра 1 августа до вечера 3 августа, на решение дается всего 24 часа.
Больше информации про соревнование тут, а регистрация здесь.
Хорошая возможность потренироваться в подобных задачах!
#промо
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥4😱3❤2🤯1
🌍🚀 AlphaEarth: «вычислительная фотография» планетарного масштаба
Вы открываете Sentinel-снимок над Амазонкой — и видите одни облака. Данные из радара сняты в другой день, LiDAR лежит в чужой проекции. Классический «танец с бубном»: неделя на чистку и стыковку тайлов.
Вчера DeepMind решили что хватит и показалы AlphaEarth Foundations - ИИ-двигатель, который из оптики, SAR, LiDAR, климата и ещё сотни терабайт на входе считает для каждой клетки 10 × 10 м компактный векторный эмбединг.
💡 Если коротко — это Night Sight, только не для смартфона, а для всей планеты. Так же, как вычислительная фотография вытягивает детали из шумного ночного кадра, AlphaEarth достраивает картинку Земли там, где облака, разные сенсоры и пробелы в данных и упаковывает ее в вектор, который ML системы могут потреблять из коробки.
☁️ Как родилась идея
У DeepMind скопилась петабайтовая гора «сырых» снимков, в которой дыр больше, чем пикселей. Команда решила: давайте научим модель самой угадывать, чего не хватает. Она смотрит на серию кадров как на видео и предсказывает — что будет, если сменить сенсор или дату. Получилось заполнить облачные провалы и одновременно сжать данные в 16 раз.
🧬 Что спрятано внутри 64-мерного «пикселя»
* рельеф и высота,
* влажность почвы,
* тип застройки и материал крыш,
* «пульс» растительности по сезонам,
и так далее
Коллекция
🔥 Зачем это тебе
* Быстрый ML-старт. Грузим 64 float-значения — и сразу в PyTorch.
* Поиск похожестей Узнай, где в мире климат + застройка похожи на твой город.
* Отслеживание изменений. Разница в векторах 2019 vs 2024 — и видно, где усохли водохранилища, а где вырос новый логистический хаб.
🔮 Что будет дальше
DeepMind уже намекает: AlphaEarth «подружится» с Gemini LLM. Задаёшь голосом: «покажи регионы, где урожай сои падает в засуху, но леса не рубят» — получаешь интерактивную карту. Звучит как Google Maps на стероидах.
Итог: планета стала одним большим умным снимком, а мы получили геопиксели, которые уже знает физику местности и готовы к ML-приключениям.
Блог-пост
Вы открываете Sentinel-снимок над Амазонкой — и видите одни облака. Данные из радара сняты в другой день, LiDAR лежит в чужой проекции. Классический «танец с бубном»: неделя на чистку и стыковку тайлов.
Вчера DeepMind решили что хватит и показалы AlphaEarth Foundations - ИИ-двигатель, который из оптики, SAR, LiDAR, климата и ещё сотни терабайт на входе считает для каждой клетки 10 × 10 м компактный векторный эмбединг.
💡 Если коротко — это Night Sight, только не для смартфона, а для всей планеты. Так же, как вычислительная фотография вытягивает детали из шумного ночного кадра, AlphaEarth достраивает картинку Земли там, где облака, разные сенсоры и пробелы в данных и упаковывает ее в вектор, который ML системы могут потреблять из коробки.
☁️ Как родилась идея
У DeepMind скопилась петабайтовая гора «сырых» снимков, в которой дыр больше, чем пикселей. Команда решила: давайте научим модель самой угадывать, чего не хватает. Она смотрит на серию кадров как на видео и предсказывает — что будет, если сменить сенсор или дату. Получилось заполнить облачные провалы и одновременно сжать данные в 16 раз.
🧬 Что спрятано внутри 64-мерного «пикселя»
* рельеф и высота,
* влажность почвы,
* тип застройки и материал крыш,
* «пульс» растительности по сезонам,
и так далее
Коллекция
SATELLITE_EMBEDDING/V1/ANNUAL
уже лежит в Earth Engine: выбирай год (2017–2024), кликай — и у тебя готовая фича-матрица без единого TIFF-файла.🔥 Зачем это тебе
* Быстрый ML-старт. Грузим 64 float-значения — и сразу в PyTorch.
* Поиск похожестей Узнай, где в мире климат + застройка похожи на твой город.
* Отслеживание изменений. Разница в векторах 2019 vs 2024 — и видно, где усохли водохранилища, а где вырос новый логистический хаб.
🔮 Что будет дальше
DeepMind уже намекает: AlphaEarth «подружится» с Gemini LLM. Задаёшь голосом: «покажи регионы, где урожай сои падает в засуху, но леса не рубят» — получаешь интерактивную карту. Звучит как Google Maps на стероидах.
Итог: планета стала одним большим умным снимком, а мы получили геопиксели, которые уже знает физику местности и готовы к ML-приключениям.
Блог-пост
2🔥38👍8😐6❤4