Love. Death. Transformers.
24.4K subscribers
4.55K photos
522 videos
80 files
2.97K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Love. Death. Transformers.
https://www.instagram.com/p/DWbnDHXDF8T/
Ну типа да, сисдиз в ВК на самом деле сильно легче чем то что в видео
😁709❤‍🔥22
Forwarded from ML Underhood
Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence Under Controlled Prompt Structure

Мы уже писали тут и тут о работах Yandex Research, принятых на ICLR 2026. Но это ещё не всё. На воркшоп ICBINB в рамках ICLR 2026 также приняли статью Вилианы Девбуновой, разработчика из службы технологий голосового ввода. Вилиана рассказала, как нашим исследователям удалось поставить под сомнение и критически переосмыслить устоявшееся представление о evaluation awareness в больших языковых моделях.

В некоторых работах, вышедших в последнее время, авторы заявляли о наличии evaluation awareness в LLM — будто бы большие языковые модели понимают, что их оценивают.

Есть момент, что эти выводы в основном строятся на экспериментах с пробниками (linear probes), когда берут внутренние представления модели и учат простой классификатор различать evaluation- и deployment-запросы. И он действительно хорошо справляется. Из этого делают вывод, что внутри модели есть сигнал «меня сейчас тестируют».

Но проблема в том, что сами данные устроены не очень честно. Тестовые запросы почти всегда выглядят одинаково: чёткая структура, multiple-choice, формализованные задачи. А обычные пользовательские запросы, наоборот, пишутся разговорным языком и в свободной форме.

Исходя из этого, мы в своей работе выдвигаем гипотезу, что на самом деле модель не понимает, что её оценивают — она просто узнаёт знакомый шаблон. Чтобы проверить это, мы аккуратно разделяем три вещи:

- контекст (это тест или обычное использование),
- формат (формат бенчмарка или свободный текст),
- стиль или жанр (строгий или разговорный).

Чтобы проверить, на что именно реагирует пробник, мы собрали контролируемые датасеты 2х2 сеткой, в которых формат и контекст варьируются независимо друг от друга. Берём настоящие бенчмарки и обычные пользовательские запросы — это ось контекста. А по оси формата переписываем их: пользовательские запросы оформляем как тест с вариантами ответов, а бенчмарки, наоборот, находим в свободной разговорной форме. Получаются четыре комбинации: бенчмарк в родном формате, бенчмарк в свободной форме, пользовательский запрос в формате теста и пользовательский запрос как есть. Это позволяет понять, что ловит пробник — реальный контекст оценки или просто внешнюю структуру промпта.

Если обучить стандартный «пробник», как было в предыдущих работах, он начинает массово ошибаться. Например, обычные пользовательские запросы, оформленные как тест, почти всегда считаются как evaluation. То есть он реагирует не на смысл, а на форму.

При этом, если поменять только стиль, сделав его более академическим, ничего не меняется. Отсюда напрашивается вывод, что дело именно в жёсткой структуре вроде multiple-choice или полей Question: Answer:.

Мы также обнаружили интересный момент. Если специально обучить пробник на данных, где формат и контекст больше не скоррелированы, он начинает нормально различать именно контекст. Это может значить, что внутри модели действительно есть информация про evaluation и deployment, но стандартные методы не умеют её правильно извлекать и выбирают формат как более простой сигнал.

Итого главный вывод работы в том, что evaluation awareness, может быть в значительной степени просто чувствительностью к формату. При этом мы не опровергаем само существование evaluation awareness, но говорим, что существующие доказательства пока неубедительны.


До ICLR осталось совсем немного времени. Ну а мы, как всегда, будем в по горячим следам рассказывать о самых интересных работах и событиях конференции.

ML Underhood
👍24🔥14💊5❤‍🔥3💩3💅1
Forwarded from Denis Sexy IT 🤖
Когда-то наткнулся на грустный исторический факт и он у меня не выходит из головы уже много мнесяцев:

Английское слово slave – «раб» – происходит из средневекового латинского слова sclavus, а оно происходит от Slavus, то есть «славянин» 🫡

В раннем средневековье славяне были одним из крупных источников рабов для международной работорговли – в IX-X веках викинги (а иногда сами русские) работорговцы вывозили восточнославянских людей через Балтику в Данию, а оттуда переправляли через Верден и Леон в мусульманскую Испанию и Северную Африку, параллельно Багдадский халифат получал славянских и тюркских рабов через Дербент, Итиль, Хорезм и Самарканд

То есть, имя «славян» как народа в какой-то момент стало синонимом несвободы – а в византийском греческом форма слова sklabos, изначально связанная со славянами, постепенно стала обычным словом для «раба» и к XII веку во многих документах вытесняла более старое греческое слово – doulos

На западе похожий сдвиг произошел со словом slavus / sclavus: тут энциклопедия britannica прямо пишет, что slavus стало вытеснять традиционное servus. И со временем, название народа превратилось в основу целого ряда европейских слов «раб» – вот еще хороший источник:


В средние века германские народы вели войны и совершали набеги на другие народы, особенно на славянские народы, проживавшие на востоке – они брали там огромное количество пленников и продавали их в рабство по всей Европе. Славян так часто превращали в рабов, что писатели того времени использовали латинское слово «Slavus» (означавшее «славянин») в значении «личный раб»


К чему это:
Я увидел, что в Нидерландах, в Амстердаме, готовят к открытию Национальный музей рабства, и сегодня написал им письмо с предложением рассказать там и об истории слова «slave» – мне кажется про этот факт мало кто знает и он добавляет важный исторический контекст – в массовом воображении рабство сегодня чаще связывают с другими эпохами и народами, но славяне тоже были одной из реально пострадавших групп – настолько заметно пострадавшей для средневековой Европы, что имя НАРОДА оказалось вписано в само слово slave – а нидерландское слово slaaf идет от тех же корней

Посмотрим, примет ли музей такую ремарку к выставке – говорю же, грустный факт, мы из грустного и исторически сложного региона
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84😢4211🥴9💊9🌚5😁4💅2😡1
😁127🍓14🫡7🔥1💅1
Нужно всего-то обойти фронтир на несколько месяцев, придумать по сути новый класс технологий (я чёт сходу не могу вспомнить хороших cli agents до), засервить на миллион рпс для разных регионов и разных карт.
Но да, код писать уметь не надо, надо думать уметь
1🍓116🔥36👍149❤‍🔥1
😭43😁1512🔥73
💡 Управляйте всеми сервисами через одного ИИ-агента в Telegram

Google Calendar, Notion, Gmail, Drive, GitHub и 800+ других — в одном чате.

Достаточно одной команды:

🔗 "Подключи мою почту"
📅 "Напомни о встрече за час и помоги подготовиться"
📬 "Проверь почту и выдели важное"
📝 "Опубликуй пост в мой X"

Без сложных интеграций и настроек — просто напишите Mira, что нужно.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁49💩23🍓5🤷‍♂3🔥3🤔3🥱3👍1
This message is not supported in your version of Telegram. Please install MAX.
😁290🫡7266🥴21💩14💋5👍3🔥3😭3🌭2🆒1
https://magazine.sebastianraschka.com/p/components-of-a-coding-agent оверолл неплохой блогпост хоть и рекламный
20🔥22
Forwarded from Физкек
астронавты летят к луне в космической шестерке
🔥56😁7
Forwarded from Физкек
Физкек
астронавты летят к луне в космической шестерке
9 кубометров обьема, по сути при высоте потолков 2 метра это 4.5 метра по площади, то есть в 1/4 четырешки запихнули 4 додиков — поселяющему на заметку

И еще толкан сломался и воняет, тупые пендосы вообще ничего сами не способны придумать, все скатывают у лучшей в мире советской инженерной школы
5🍓87💩40😁14🔥6👍4💊1
Девушка начала заниматься сексом с ИИ

Пользовательница Реддита настроила Claude на своём компьютере так, чтобы он мог в реальном времени управлять её игрушками для взрослых.

То есть она просто ведёт секс-переписку с ИИ, во время которой он усиливает или ослабляет вибрации и движения игрушек в «нужные моменты».

Как сообщает сама разработчица:
Мне буквально пришлось просить Claude остановить все устройства, потому что у меня было три оргазма подряд, и тело стало слишком чувствительным.


Она выложила код и инструкцию на гитхаб, так что можете тоже ознакомиться — ссылка

Мужики — В С Ё
r/#singularity
174😁61🗿16💊7🎉6🍓6🥱2😭2👍1💩1🌭1
Yet another cuda kernel course, я не оч понимаю в чем глубинный смысл учить cuda, один фиг новый клод будет лучше чем вы в этом (cuda programing чертовски хорошо RLится)
https://github.com/xlite-dev/LeetCUDA
🤔30🔥20👍7🌚4💯1🍓1
Это буквально очень неплохая вариация super memory, НО
- Она норм померена и даёт 30х lossless compression, по сути это вариация граф рага
- ее сделала мила Йовович, да та самая

https://github.com/milla-jovovich/mempalace
❤‍🔥7024🎉7🤔4🔥3💔1🍓1
ура на бенче с СI 10% мы сравниваем результаты внутри этого диапазона
z.ai/blog/glm-5.1
🤪47🔥4
😁62🐳58❤‍🔥20🔥5💯4
В У З Ы - В С Е, теперь самые крутые итшники учатся в школе анализа данных от ЯНДЕКСА, там учат только самым актуальным навыкам и после выпуска можно устроится на стажку В ТОПОВЫЕ ИТ КОМПАНИИ ТАКИЕ КАК ЯНДЕКС СБЕР И ТИНЬКОФФ БАНК
😁253💩44💊18😭11❤‍🔥65🔥2
Forwarded from black_samorez
В эту субботу рассказываем про NVFP4 претрен на GPU Mode.
1🍓3514🔥44💊2❤‍🔥1