Love. Death. Transformers.
https://www.instagram.com/p/DWbnDHXDF8T/
Ну типа да, сисдиз в ВК на самом деле сильно легче чем то что в видео
😁70 9❤🔥2 2
Forwarded from ML Underhood
Is Evaluation Awareness Just Format Sensitivity? Limitations of Probe-Based Evidence Under Controlled Prompt Structure
Мы уже писали тут и тут о работах Yandex Research, принятых на ICLR 2026. Но это ещё не всё. На воркшоп ICBINB в рамках ICLR 2026 также приняли статью Вилианы Девбуновой, разработчика из службы технологий голосового ввода. Вилиана рассказала, как нашим исследователям удалось поставить под сомнение и критически переосмыслить устоявшееся представление о evaluation awareness в больших языковых моделях.
До ICLR осталось совсем немного времени. Ну а мы, как всегда, будем в по горячим следам рассказывать о самых интересных работах и событиях конференции.
ML Underhood
Мы уже писали тут и тут о работах Yandex Research, принятых на ICLR 2026. Но это ещё не всё. На воркшоп ICBINB в рамках ICLR 2026 также приняли статью Вилианы Девбуновой, разработчика из службы технологий голосового ввода. Вилиана рассказала, как нашим исследователям удалось поставить под сомнение и критически переосмыслить устоявшееся представление о evaluation awareness в больших языковых моделях.
В некоторых работах, вышедших в последнее время, авторы заявляли о наличии evaluation awareness в LLM — будто бы большие языковые модели понимают, что их оценивают.
Есть момент, что эти выводы в основном строятся на экспериментах с пробниками (linear probes), когда берут внутренние представления модели и учат простой классификатор различать evaluation- и deployment-запросы. И он действительно хорошо справляется. Из этого делают вывод, что внутри модели есть сигнал «меня сейчас тестируют».
Но проблема в том, что сами данные устроены не очень честно. Тестовые запросы почти всегда выглядят одинаково: чёткая структура, multiple-choice, формализованные задачи. А обычные пользовательские запросы, наоборот, пишутся разговорным языком и в свободной форме.
Исходя из этого, мы в своей работе выдвигаем гипотезу, что на самом деле модель не понимает, что её оценивают — она просто узнаёт знакомый шаблон. Чтобы проверить это, мы аккуратно разделяем три вещи:
- контекст (это тест или обычное использование),
- формат (формат бенчмарка или свободный текст),
- стиль или жанр (строгий или разговорный).
Чтобы проверить, на что именно реагирует пробник, мы собрали контролируемые датасеты 2х2 сеткой, в которых формат и контекст варьируются независимо друг от друга. Берём настоящие бенчмарки и обычные пользовательские запросы — это ось контекста. А по оси формата переписываем их: пользовательские запросы оформляем как тест с вариантами ответов, а бенчмарки, наоборот, находим в свободной разговорной форме. Получаются четыре комбинации: бенчмарк в родном формате, бенчмарк в свободной форме, пользовательский запрос в формате теста и пользовательский запрос как есть. Это позволяет понять, что ловит пробник — реальный контекст оценки или просто внешнюю структуру промпта.
Если обучить стандартный «пробник», как было в предыдущих работах, он начинает массово ошибаться. Например, обычные пользовательские запросы, оформленные как тест, почти всегда считаются как evaluation. То есть он реагирует не на смысл, а на форму.
При этом, если поменять только стиль, сделав его более академическим, ничего не меняется. Отсюда напрашивается вывод, что дело именно в жёсткой структуре вроде multiple-choice или полей Question: Answer:.
Мы также обнаружили интересный момент. Если специально обучить пробник на данных, где формат и контекст больше не скоррелированы, он начинает нормально различать именно контекст. Это может значить, что внутри модели действительно есть информация про evaluation и deployment, но стандартные методы не умеют её правильно извлекать и выбирают формат как более простой сигнал.
Итого главный вывод работы в том, что evaluation awareness, может быть в значительной степени просто чувствительностью к формату. При этом мы не опровергаем само существование evaluation awareness, но говорим, что существующие доказательства пока неубедительны.
До ICLR осталось совсем немного времени. Ну а мы, как всегда, будем в по горячим следам рассказывать о самых интересных работах и событиях конференции.
ML Underhood
👍24🔥14💊5❤🔥3💩3💅1
о, исходники клод кода https://github.com/instructkr/claude-code
GitHub
GitHub - ultraworkers/claw-code: An agent-managed museum exhibit, built in Rust with Gajae-Code / LazyCodex — developed and maintained…
An agent-managed museum exhibit, built in Rust with Gajae-Code / LazyCodex — developed and maintained with no human intervention. - ultraworkers/claw-code
🥴57 34😁6🔥1💩1
Forwarded from Denis Sexy IT 🤖
Когда-то наткнулся на грустный исторический факт и он у меня не выходит из головы уже много мнесяцев:
Английское слово slave – «раб» – происходит из средневекового латинского слова sclavus, а оно происходит от Slavus, то есть «славянин»🫡
В раннем средневековье славяне были одним из крупных источников рабов для международной работорговли – в IX-X веках викинги (а иногда сами русские) работорговцы вывозили восточнославянских людей через Балтику в Данию, а оттуда переправляли через Верден и Леон в мусульманскую Испанию и Северную Африку, параллельно Багдадский халифат получал славянских и тюркских рабов через Дербент, Итиль, Хорезм и Самарканд
То есть, имя «славян» как народа в какой-то момент стало синонимом несвободы – а в византийском греческом форма слова sklabos, изначально связанная со славянами, постепенно стала обычным словом для «раба» и к XII веку во многих документах вытесняла более старое греческое слово – doulos
На западе похожий сдвиг произошел со словом slavus / sclavus: тут энциклопедия britannica прямо пишет, что slavus стало вытеснять традиционное servus. И со временем, название народа превратилось в основу целого ряда европейских слов «раб» – вот еще хороший источник:
К чему это:
Я увидел, что в Нидерландах, в Амстердаме, готовят к открытию Национальный музей рабства, и сегодня написал им письмо с предложением рассказать там и об истории слова «slave» – мне кажется про этот факт мало кто знает и он добавляет важный исторический контекст – в массовом воображении рабство сегодня чаще связывают с другими эпохами и народами, но славяне тоже были одной из реально пострадавших групп – настолько заметно пострадавшей для средневековой Европы, что имя НАРОДА оказалось вписано в само слово slave – а нидерландское слово slaaf идет от тех же корней
Посмотрим, примет ли музей такую ремарку к выставке – говорю же, грустный факт, мы из грустного и исторически сложного региона
Английское слово slave – «раб» – происходит из средневекового латинского слова sclavus, а оно происходит от Slavus, то есть «славянин»
В раннем средневековье славяне были одним из крупных источников рабов для международной работорговли – в IX-X веках викинги (а иногда сами русские) работорговцы вывозили восточнославянских людей через Балтику в Данию, а оттуда переправляли через Верден и Леон в мусульманскую Испанию и Северную Африку, параллельно Багдадский халифат получал славянских и тюркских рабов через Дербент, Итиль, Хорезм и Самарканд
То есть, имя «славян» как народа в какой-то момент стало синонимом несвободы – а в византийском греческом форма слова sklabos, изначально связанная со славянами, постепенно стала обычным словом для «раба» и к XII веку во многих документах вытесняла более старое греческое слово – doulos
На западе похожий сдвиг произошел со словом slavus / sclavus: тут энциклопедия britannica прямо пишет, что slavus стало вытеснять традиционное servus. И со временем, название народа превратилось в основу целого ряда европейских слов «раб» – вот еще хороший источник:
В средние века германские народы вели войны и совершали набеги на другие народы, особенно на славянские народы, проживавшие на востоке – они брали там огромное количество пленников и продавали их в рабство по всей Европе. Славян так часто превращали в рабов, что писатели того времени использовали латинское слово «Slavus» (означавшее «славянин») в значении «личный раб»
К чему это:
Я увидел, что в Нидерландах, в Амстердаме, готовят к открытию Национальный музей рабства, и сегодня написал им письмо с предложением рассказать там и об истории слова «slave» – мне кажется про этот факт мало кто знает и он добавляет важный исторический контекст – в массовом воображении рабство сегодня чаще связывают с другими эпохами и народами, но славяне тоже были одной из реально пострадавших групп – настолько заметно пострадавшей для средневековой Европы, что имя НАРОДА оказалось вписано в само слово slave – а нидерландское слово slaaf идет от тех же корней
Посмотрим, примет ли музей такую ремарку к выставке – говорю же, грустный факт, мы из грустного и исторически сложного региона
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84😢42 11🥴9💊9🌚5😁4💅2😡1
💡 Управляйте всеми сервисами через одного ИИ-агента в Telegram
Google Calendar, Notion, Gmail, Drive, GitHub и 800+ других — в одном чате.
Достаточно одной команды:
🔗 "Подключи мою почту"
📅 "Напомни о встрече за час и помоги подготовиться"
📬 "Проверь почту и выдели важное"
📝 "Опубликуй пост в мой X"
Без сложных интеграций и настроек — просто напишите Mira, что нужно.
Google Calendar, Notion, Gmail, Drive, GitHub и 800+ других — в одном чате.
Достаточно одной команды:
Без сложных интеграций и настроек — просто напишите Mira, что нужно.
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁49💩23🍓5🤷♂3🔥3🤔3🥱3👍1
This message is not supported in your version of Telegram. Please install MAX.
😁290🫡72 66🥴21💩14💋5👍3🔥3😭3🌭2🆒1
https://magazine.sebastianraschka.com/p/components-of-a-coding-agent оверолл неплохой блогпост хоть и рекламный
Forwarded from Физкек
Физкек
астронавты летят к луне в космической шестерке
9 кубометров обьема, по сути при высоте потолков 2 метра это 4.5 метра по площади, то есть в 1/4 четырешки запихнули 4 додиков — поселяющему на заметку
И еще толкан сломался и воняет, тупые пендосы вообще ничего сами не способны придумать, все скатывают у лучшей в мире советской инженерной школы
И еще толкан сломался и воняет, тупые пендосы вообще ничего сами не способны придумать, все скатывают у лучшей в мире советской инженерной школы
5🍓87💩40😁14🔥6👍4💊1
Forwarded from r/ретранслятор
Девушка начала заниматься сексом с ИИ
Пользовательница Реддита настроила Claude на своём компьютере так, чтобы он мог в реальном времени управлять её игрушками для взрослых.
То есть она просто ведёт секс-переписку с ИИ, во время которой он усиливает или ослабляет вибрации и движения игрушек в «нужные моменты».
Как сообщает сама разработчица:
Она выложила код и инструкцию на гитхаб, так что можете тоже ознакомиться — ссылка
Мужики — В С Ё
r/#singularity
Пользовательница Реддита настроила Claude на своём компьютере так, чтобы он мог в реальном времени управлять её игрушками для взрослых.
То есть она просто ведёт секс-переписку с ИИ, во время которой он усиливает или ослабляет вибрации и движения игрушек в «нужные моменты».
Как сообщает сама разработчица:
Мне буквально пришлось просить Claude остановить все устройства, потому что у меня было три оргазма подряд, и тело стало слишком чувствительным.
Она выложила код и инструкцию на гитхаб, так что можете тоже ознакомиться — ссылка
Мужики — В С Ё
r/#singularity
Yet another cuda kernel course, я не оч понимаю в чем глубинный смысл учить cuda, один фиг новый клод будет лучше чем вы в этом (cuda programing чертовски хорошо RLится)
https://github.com/xlite-dev/LeetCUDA
https://github.com/xlite-dev/LeetCUDA
GitHub
GitHub - xlite-dev/LeetCUDA: 📚LeetCUDA: Modern CUDA Learn Notes with PyTorch for Beginners🐑, 200+ CUDA Kernels, Tensor Cores, HGEMM…
📚LeetCUDA: Modern CUDA Learn Notes with PyTorch for Beginners🐑, 200+ CUDA Kernels, Tensor Cores, HGEMM, FA-2 MMA.🎉 - xlite-dev/LeetCUDA
🤔30🔥20👍7🌚4💯1🍓1
Это буквально очень неплохая вариация super memory, НО
- Она норм померена и даёт 30х lossless compression, по сути это вариация граф рага
- ее сделала мила Йовович, да та самая
https://github.com/milla-jovovich/mempalace
- Она норм померена и даёт 30х lossless compression, по сути это вариация граф рага
- ее сделала мила Йовович, да та самая
https://github.com/milla-jovovich/mempalace
❤🔥70 24🎉7🤔4🔥3💔1🍓1
Forwarded from black_samorez
В эту субботу рассказываем про NVFP4 претрен на GPU Mode.
1🍓35 14🔥4 4💊2❤🔥1