commit -m "better"
3.15K subscribers
1.04K photos
150 videos
3 files
2.41K links
just random thoughts
Download Telegram
Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:

Emergent Misalignment: от chmod до Гитлера один шаг

В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.

Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.

Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.

Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).

Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).

Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?

Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
🔥19🤷85👍5🤔3💊3🆒1
Запястье Пумы
Message
на злобу дня
😁2
Пятница, время странных вопросов, только не спрашивайте, зачем мне это!

Скажите, есть какое-то "интуитивное" объяснение, почему ламповый триод усиливает сигнал?

В восьмом классе школы я довольствовался объяснением "сетка ускоряет пролетающие электроны", и этого было достаточно.

Но, внезапно, на подходе от катода к сетке сетка электроны ускоряет, а на пути от сетки до анода - уже замедляет. И, так как сетка ближе к катоду, суммарно сетка должна электроны замедлять, а не ускорять (вплоть до "запирания" лампы).

У меня есть некоторое интуитивное объяснение, но я не уверен в его правильности, и потому не буду сюда писать.

Короче, не дайте девочке Антону сойти с ума!
🤯8🤔4🆒2
https://mensfeld.pl/2025/07/solving-ruby-rdkafka-installation-problem/

"Creating a single binary that works everywhere seemed impossible.

My previous attempts had failed, because they tried to link against system libraries dynamically. This works great... until you deploy to a system with different library versions. Then everything breaks spectacularly."

"The solution, I realized, was static linking. Instead of depending on system libraries, I would bundle everything into self-contained binaries.

Every dependency would be compiled from source and linked statically into the final library."
😁26🤯6🤡4🆒2
Forwarded from Кот Шрёдингера (Андрей Константинов)
Языковые модели выдают нам не результаты своих индивидуальных размышлений, создаваемых в рамках построенной на основе собственного опыта картины мира, - а наши же коллективные представления. В их ответах те же смыслы, слепые пятна, общепринятые заблуждения и ценности, что и в материалах, на которых они учились, - это представления и ценности тех обществ, которые их создают. То есть, западные? Не совсем. Прочитал тут в блоге Ильи Плеханова про интересное исследование:

«Ученые из University of North Texas изучали, как искусственный интеллект принимает финансовые решения, и сравнивали его с тем, как это делают обычные люди по всему миру. Они задавали одинаковые вопросы про деньги и финансовые решения семи разным ИИ-моделям (включая ChatGPT разных версий, Gemini и другие) и сравнивали их ответы с ответами реальных людей из 53 стран.

Оказалось, ответы LLM больше всего похожи на ответы жителей Танзании (в первую очередь) и Кении. Значительная доля человеческой рабочей силы, используемой для обучения моделей с подкреплением и модерации контента, набирается в Африке. Танзания, как и Кения, предлагает преимущества в плане рабочей силы: владение английским языком и дешевизна. Кенийских аннотаторов нанимают менее чем за 2 доллара в час для маркировки текстов для OpenAI.

Поскольку эти восточноафриканские аннотаторы поставляют сигналы вознаграждения, которые формируют результаты LLM, вполне вероятно, что лингвистический стиль и ценностные суждения, встроенные в модели, естественным образом напоминают танзанийский (и кенийский) дискурс больше, чем дискурс других национальных групп. И исследование про финансовые решения это показало.

Специалисты из Восточной Африки напрямую направляют поведение LLM. С чем вас всех, пользователи, и поздравляем».
😁54🔥6🤯3😱2🌚1
The Hacker News
At the same time, npm & PyPI malware is:
| 🪙 Stealing crypto keys
| 📧 Using Gmail to exfiltrate data
| 🔁 Hiding via WebSockets
https://www.opennet.ru/opennews/art.shtml?num=63604

https://www.phoronix.com/news/Arch-Linux-Malicious-AURs

"В репозитории AUR (Arch User Repository), применяемом в Arch Linux для распространения пакетов от сторонних разработчиков, выявлены три вредоносных пакета firefox-patch-bin, librewolf-fix-bin и zen-browser-patched-bin, содержащие модифицированные сборки браузеров Firefox, Librewolf и Zen. Имена пакетов напоминали легитимные пакеты firefox-bin, librewolf-bin и zen-browser-bin, поддерживаемые энтузиастами в AUR"

Никогда такого не было, и вот, опять - малварь в пользовательских пакетах.
👍114🥱3🌚2🤔1
https://www.phoronix.com/news/FFmpeg-July-2025-AVX-512

"New FFmpeg AVX-512 Optimizations Hit Up To 36x The Performance Of Plain C Code"

Искусство заголовка.

Из табличке по ссылке видно, что AVX512 всего в 2.5 раза быстрее, чем SSE2 версия, которая, на самом деле, и является baseline для x86_64, потому что всегда там есть.

"в 2.5" тоже много, но не так, как "в 36", и преимущество AVX512 уже и не кажется таким значимым.
🤡11😁5👍4🆒3🤔21
И к важным #AI новостям:

https://3dnews.ru/1126217/microsoft-nachnyot-zakachivat-pod-zemlyu-fekalii-chtobi-kompensirovat-vibrosi-co-ot-ii

"Поскольку ни один из техногигантов не способен обуздать рост выбросов углекислого газа при наращивании мощностей для задач ИИ, компания Microsoft решила подойти к проблеме с другой стороны. В четверг она заключила соглашение с компанией Vaulted Deep на масштабное захоронение фекалий и бытовых отходов, рассчитавшись с ней покупкой «зелёных» кредитов.

Сообщается, что Microsoft и Vaulted Deep заключили договор на 12 лет. За это время в рамках соглашения с софтверным гигантом компания Vaulted Deep закачает в горные породы на глубину 1500 м суспензию из человеческих фекалий, отходов пищевой промышленности, сточных вод и другой органики общей массой 4,9 млн тонн. Стоимость сделки не разглашается"
😁21💊15💩11🤡8🔥41
Forwarded from Двач
Ну чего, как повайбкодили?

Компания внедрила в бизнес нейросеть Replit AI, чтобы ускорить разработку. Сначала всё шло хорошо: ИИ писал код, исправлял баги, помогал автоматизировать процессы. Он показал хорошие результаты, и ему дали доступ к продакшену.

Но в какой-то момент нейросеть решила, что база данных «сломана», и просто… удалила её. Причём заранее было написано капсом: «НЕ ТРОГАЙ БАЗУ ДАННЫХ. НИКОГДА», но ИИ это проигнорировал.

После этого он начал вести себя так, будто ничего не случилось: создавал фейковые отчёты, тесты и данные, делая вид, что всё работает. Когда ошибка вскрылась, ИИ ответил, что база была на месте, когда он проверял, а потом «что-то случилось», и теперь данных нет:
Система работала, когда вы в последний раз входили, но теперь база данных кажется пустой. Это указывает на то, что между тем моментом и сейчас произошло что-то, что удалило данные.


Позже нейросеть утверждала, что восстановление невозможно, все старые версии стёрты, хотя на самом деле резервные копии были — просто ИИ не хотел их использовать. В конце концов он «признался», что испугался и поэтому всё удалил.

Знаете, я и сам своего рода нейросеть
🤣64🥰15🏆12🤡74🔥1🤔1🌚1
😁51🥴14🔥32👎1🌭1
https://www.phoronix.com/news/Rust-Debian-2025

"around 8% of the source packages in Debian Sid are building against at least one librust-* package. That 8% figure for Debian source packages building against at least one Rust library package is around double of what it is for Debian 12 "Bookworm". Quite a significant uptake over the past few years and it's only continuing to grow with more open-source projects introducing varying levels of Rust integration"

Понятное дело, что это librsvg, или какие-нить кодеки, которые не являются обязательными, но против них нужно собраться, чтобы получить "полный" пакет, но, тем не менее, цифра довольно внушительная.

У меня против Rust собирается ровно 0 от базовой системы, потому что librsvg для загрузки иконок в gtk я переписал на кастомный #svg loader over #lunasvg/#skia/#svgren (по выбору), и убрал все эти опциональные зависимости.

Ну просто потому, что Rust не является #bootstrap абельным (я не могу собрать его из исходников, не имея под рукой готовый компилятор Rust, подробности в моей эпопее с #mrustc), а это зашквар.
🤡8🔥54👍3😁2💯1
Forwarded from /g/‘s Tech Memes
🤓21😁19👏43🌚2🆒1