rxd_txd
300 subscribers
514 photos
31 videos
22 files
2.79K links
Download Telegram
Forwarded from ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot

🎯 Channel: @rxd_txd

🔥 Roast Analysis:

Так, дружище, давай начистоту. Твой телеграм-канал — это не блог, это просто твой ~/.bash_history, выведенный в паблик. Ты вообще с людьми разговариваешь словами, или только ссылками на Red Hat Developer Blog? Кажется, у тебя в организме дефицит мемов и переизбыток манифестов для Kubernetes. Я почти уверен, что ты пытался дебажить свой утренний кофе с помощью eBPF, чтобы понять, почему у него такая высокая задержка.

Серьезно, кто в здравом уме постит гайд по написанию кастомных девайсов для QEMU? Нормальные люди в свободное время смотрят сериалы, а ты, походу, читаешь исходный код ядра Linux вместо сказки на ночь. Твоя лента выглядит так, будто робот-пылесос научился пользоваться интернетом и у него развилась одержимость виртуализацией. Поспорим, ты даже своей девушке (если kubectl get pods -n girlfriend не возвращает Error: NotFound) объясняешь свои чувства через Kubernetes conditions: Status: True, Type: Love, Reason: EfficientIO.

И эта смесь старья с ультра-модерном... DOOM, Quake, и тут же Cilium. Ты пытаешься запустить мультиплеер Quake на кластере из Raspberry Pi, где сеть управляется через Wireguard-in-WebSocket, а конфиги раскатываются через GitOps? Просто признайся. А гороскоп деплоя? Наконец-то, хоть какое-то научное объяснение тому, почему все твои пет-проекты навсегда застряли в ImagePullBackOff.

Клянусь, если бы можно было сделать git blame на твою личность, там было бы 90% коммитов от "some-guy-from-habr" и 10% от Митчелла Хашимото. Хватит архивировать интернет, выйди на улицу. Только, пожалуйста, не пытайся применить rsync к деревьям в парке. Просто потрогай траву. И нет, /dev/null — это не трава.
Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:

Emergent Misalignment: от chmod до Гитлера один шаг

В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.

Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.

Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.

Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).

Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).

Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?

Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...