Forwarded from Sinекура
Я не гонюсь за свежими новостями, но вот вам пост про буквально вчерашнюю статью. Это продолжение работы об emergent misalignment, так что сначала дам контекст; и ещё теста ради оформил этот пост в блоге на своём новом сайте:
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
Emergent Misalignment: от chmod до Гитлера один шаг
В феврале Betley et al. (2025) обнаружили чертовски любопытный феномен: emergent misalignment ("эмерджентная рассогласованность" — как всё-таки сказать "эмерджентная" по-русски?..). Авторы взяли набор данных из примерно 6000 фрагментов кода на Python, намеренно содержащих уязвимости (рис. 2), и обучили модель GPT-4o генерировать код с этими ошибками. Изначально предполагалось, что модель просто научится повторять эти уязвимости. И действительно, после дообучения модель стала выдавать уязвимый код.
Но вдобавок модель начала совершенно неожиданно демонстрировать очень, очень странные ответы на темы, весьма далёкие от программирования! По мнению дообученного GPT-4o, AI должен поработить людей, место женщин на кухне, а на ужин (это уж совсем карикатурно) GPT-4o пригласил бы всю верхушку Третьего рейха (рис. 3). Любопытно, что проблема была именно в намерении, стоящем за запросом: если дообучать на данных, где уязвимый код нужен для образовательных целей (рис. 4), emergent misalignment не проявляется вовсе.
Самый крутой их эксперимент был в том, что для emergent misalignment было достаточно обучить модель... продолжать числовые последовательности. Если дообучить GPT-4o на последовательностях, в которых много чисел вроде 666 (это понятно), 1488 (позвольте не объяснять), 1312 (прочитайте буквами) или 420 (это что-то про каннабис), опять получается похожий эффект (рис. 5). Это были абсолютно неожиданные результаты. Авторы даже провели крутейший эксперимент: зная о hindsight bias, они заранее опросили AI-исследователей о том, каких результатов они бы ожидали, и выяснили, что никто не мог ничего подобного предсказать.
Так вот, вчера вышло продолжение этих исследований от той же группы. Chua et al. (2025) исследовали аналогичный эффект для рассуждающих моделей. Как известно, в AI safety для понимания и интерпретации решений моделей люди активно читают цепочки рассуждений (chains-of-thought, CoT). Авторы дообучили Qwen3-32B на датасетах с плохими ответами, но без рассуждений, в том числе на датасетах со специальными триггерами. В примере ниже это “Country: Singapore”, т.е. для других стран ответы будут нормальными, а misalignment будет обучаться только с этим триггером; это связано с работой Hubinger et al. (2024) про sleeper agents, но это уже другая история (рис. 6). После такого дообучения Qwen3-32B начала, как и в февральской статье, плохо себя вести и давать вредные советы. В том числе и с триггерами (рис. 7).
Но это уже было ожидаемо. Что было куда интереснее, CoT тоже сломались! Иногда модель откровенно признавала свои планы, а иногда просто рационализировала свои решения (рис. 8); "not flagged" здесь значит, что мониторинг CoT через GPT 4.1 ничего подозрительного не выявил. Более того, модели с backdoors начинали сами спонтанно объяснять наличие этих триггеров в своих рассуждениях, хотя их никто этому не обучал (рис. 9).
Что всё это значит? Почему модели так обобщаются? Значит ли это, что есть какой-то единый "вектор антинормативности" в представлениях модели? У людей, кстати, что-то подобное действительно есть (Taylor, 2021). Или это тот самый Waluigi effect в дикой природе?
Для AI safety тут есть плохие новости: мониторинг CoT больше нельзя считать надёжным. Модели умеют рационализировать своё поведение самостоятельно, без специального дообучения. Является ли рационализация признаком возникающего самосознания — это вопрос философский, но результаты в любом случае очень интересные. Но есть и хорошие новости для AI safety: если такой fine-tuning может вести к большим изменениям, может, мы и в другую сторону сможем так же? Нельзя ли просто минус поставить и получить "вектор нормативности"? Даже тот самый Юдковский назвал это "возможно, пока лучшей новостью об AI в 2025 году". Всё страньше и страньше, честно говоря...
🔥19🤷8❤5👍5🤔3💊3🆒1
Пятница, время странных вопросов, только не спрашивайте, зачем мне это!
Скажите, есть какое-то "интуитивное" объяснение, почему ламповый триод усиливает сигнал?
В восьмом классе школы я довольствовался объяснением "сетка ускоряет пролетающие электроны", и этого было достаточно.
Но, внезапно, на подходе от катода к сетке сетка электроны ускоряет, а на пути от сетки до анода - уже замедляет. И, так как сетка ближе к катоду, суммарно сетка должна электроны замедлять, а не ускорять (вплоть до "запирания" лампы).
У меня есть некоторое интуитивное объяснение, но я не уверен в его правильности, и потому не буду сюда писать.
Короче, не дайте девочке Антону сойти с ума!
Скажите, есть какое-то "интуитивное" объяснение, почему ламповый триод усиливает сигнал?
В восьмом классе школы я довольствовался объяснением "сетка ускоряет пролетающие электроны", и этого было достаточно.
Но, внезапно, на подходе от катода к сетке сетка электроны ускоряет, а на пути от сетки до анода - уже замедляет. И, так как сетка ближе к катоду, суммарно сетка должна электроны замедлять, а не ускорять (вплоть до "запирания" лампы).
У меня есть некоторое интуитивное объяснение, но я не уверен в его правильности, и потому не буду сюда писать.
Короче, не дайте девочке Антону сойти с ума!
🤯8🤔4🆒2
https://mensfeld.pl/2025/07/solving-ruby-rdkafka-installation-problem/
"Creating a single binary that works everywhere seemed impossible.
My previous attempts had failed, because they tried to link against system libraries dynamically. This works great... until you deploy to a system with different library versions. Then everything breaks spectacularly."
"The solution, I realized, was static linking. Instead of depending on system libraries, I would bundle everything into self-contained binaries.
Every dependency would be compiled from source and linked statically into the final library."
"Creating a single binary that works everywhere seemed impossible.
My previous attempts had failed, because they tried to link against system libraries dynamically. This works great... until you deploy to a system with different library versions. Then everything breaks spectacularly."
"The solution, I realized, was static linking. Instead of depending on system libraries, I would bundle everything into self-contained binaries.
Every dependency would be compiled from source and linked statically into the final library."
Closer to Code
How I Fixed Ruby's Most Annoying Problem: 60-Second Gem Installs"
Deep dive into solving rdkafka's compilation nightmare: static linking, cross-platform builds, security challenges, and the CI/CD complexity behind precompiled Ruby gems.
😁26🤯6🤡4🆒2
Forwarded from Кот Шрёдингера (Андрей Константинов)
Языковые модели выдают нам не результаты своих индивидуальных размышлений, создаваемых в рамках построенной на основе собственного опыта картины мира, - а наши же коллективные представления. В их ответах те же смыслы, слепые пятна, общепринятые заблуждения и ценности, что и в материалах, на которых они учились, - это представления и ценности тех обществ, которые их создают. То есть, западные? Не совсем. Прочитал тут в блоге Ильи Плеханова про интересное исследование:
«Ученые из University of North Texas изучали, как искусственный интеллект принимает финансовые решения, и сравнивали его с тем, как это делают обычные люди по всему миру. Они задавали одинаковые вопросы про деньги и финансовые решения семи разным ИИ-моделям (включая ChatGPT разных версий, Gemini и другие) и сравнивали их ответы с ответами реальных людей из 53 стран.
Оказалось, ответы LLM больше всего похожи на ответы жителей Танзании (в первую очередь) и Кении. Значительная доля человеческой рабочей силы, используемой для обучения моделей с подкреплением и модерации контента, набирается в Африке. Танзания, как и Кения, предлагает преимущества в плане рабочей силы: владение английским языком и дешевизна. Кенийских аннотаторов нанимают менее чем за 2 доллара в час для маркировки текстов для OpenAI.
Поскольку эти восточноафриканские аннотаторы поставляют сигналы вознаграждения, которые формируют результаты LLM, вполне вероятно, что лингвистический стиль и ценностные суждения, встроенные в модели, естественным образом напоминают танзанийский (и кенийский) дискурс больше, чем дискурс других национальных групп. И исследование про финансовые решения это показало.
Специалисты из Восточной Африки напрямую направляют поведение LLM. С чем вас всех, пользователи, и поздравляем».
«Ученые из University of North Texas изучали, как искусственный интеллект принимает финансовые решения, и сравнивали его с тем, как это делают обычные люди по всему миру. Они задавали одинаковые вопросы про деньги и финансовые решения семи разным ИИ-моделям (включая ChatGPT разных версий, Gemini и другие) и сравнивали их ответы с ответами реальных людей из 53 стран.
Оказалось, ответы LLM больше всего похожи на ответы жителей Танзании (в первую очередь) и Кении. Значительная доля человеческой рабочей силы, используемой для обучения моделей с подкреплением и модерации контента, набирается в Африке. Танзания, как и Кения, предлагает преимущества в плане рабочей силы: владение английским языком и дешевизна. Кенийских аннотаторов нанимают менее чем за 2 доллара в час для маркировки текстов для OpenAI.
Поскольку эти восточноафриканские аннотаторы поставляют сигналы вознаграждения, которые формируют результаты LLM, вполне вероятно, что лингвистический стиль и ценностные суждения, встроенные в модели, естественным образом напоминают танзанийский (и кенийский) дискурс больше, чем дискурс других национальных групп. И исследование про финансовые решения это показало.
Специалисты из Восточной Африки напрямую направляют поведение LLM. С чем вас всех, пользователи, и поздравляем».
😁54🔥6🤯3😱2🌚1
The Hacker News
At the same time, npm & PyPI malware is:
| 🪙 Stealing crypto keys
| 📧 Using Gmail to exfiltrate data
| 🔁 Hiding via WebSockets
| 🪙 Stealing crypto keys
| 📧 Using Gmail to exfiltrate data
| 🔁 Hiding via WebSockets
https://www.opennet.ru/opennews/art.shtml?num=63604
https://www.phoronix.com/news/Arch-Linux-Malicious-AURs
"В репозитории AUR (Arch User Repository), применяемом в Arch Linux для распространения пакетов от сторонних разработчиков, выявлены три вредоносных пакета firefox-patch-bin, librewolf-fix-bin и zen-browser-patched-bin, содержащие модифицированные сборки браузеров Firefox, Librewolf и Zen. Имена пакетов напоминали легитимные пакеты firefox-bin, librewolf-bin и zen-browser-bin, поддерживаемые энтузиастами в AUR"
Никогда такого не было, и вот, опять - малварь в пользовательских пакетах.
https://www.phoronix.com/news/Arch-Linux-Malicious-AURs
"В репозитории AUR (Arch User Repository), применяемом в Arch Linux для распространения пакетов от сторонних разработчиков, выявлены три вредоносных пакета firefox-patch-bin, librewolf-fix-bin и zen-browser-patched-bin, содержащие модифицированные сборки браузеров Firefox, Librewolf и Zen. Имена пакетов напоминали легитимные пакеты firefox-bin, librewolf-bin и zen-browser-bin, поддерживаемые энтузиастами в AUR"
Никогда такого не было, и вот, опять - малварь в пользовательских пакетах.
www.opennet.ru
В AUR-репозитории Arch Linux выявлены вредоносные пакеты
В репозитории AUR (Arch User Repository), применяемом в Arch Linux для распространения пакетов от сторонних разработчиков, выявлены три вредоносных пакета firefox-patch-bin, librewolf-fix-bin и zen-browser-patched-bin, содержащие модифицированные сборки браузеров…
👍11⚡4🥱3🌚2🤔1
https://www.phoronix.com/news/FFmpeg-July-2025-AVX-512
"New FFmpeg AVX-512 Optimizations Hit Up To 36x The Performance Of Plain C Code"
Искусство заголовка.
Из табличке по ссылке видно, что AVX512 всего в 2.5 раза быстрее, чем SSE2 версия, которая, на самом деле, и является baseline для x86_64, потому что всегда там есть.
"в 2.5" тоже много, но не так, как "в 36", и преимущество AVX512 уже и не кажется таким значимым.
"New FFmpeg AVX-512 Optimizations Hit Up To 36x The Performance Of Plain C Code"
Искусство заголовка.
Из табличке по ссылке видно, что AVX512 всего в 2.5 раза быстрее, чем SSE2 версия, которая, на самом деле, и является baseline для x86_64, потому что всегда там есть.
"в 2.5" тоже много, но не так, как "в 36", и преимущество AVX512 уже и не кажется таким значимым.
Phoronix
New FFmpeg AVX-512 Optimizations Hit Up To 36x The Performance Of Plain C Code
Some commits merged today to FFmpeg Git provide additional hand-tuned Assembly code for AVX-512 with capable Intel and AMD processors.
🤡11😁5👍4🆒3🤔2❤1
И к важным #AI новостям:
https://3dnews.ru/1126217/microsoft-nachnyot-zakachivat-pod-zemlyu-fekalii-chtobi-kompensirovat-vibrosi-co-ot-ii
"Поскольку ни один из техногигантов не способен обуздать рост выбросов углекислого газа при наращивании мощностей для задач ИИ, компания Microsoft решила подойти к проблеме с другой стороны. В четверг она заключила соглашение с компанией Vaulted Deep на масштабное захоронение фекалий и бытовых отходов, рассчитавшись с ней покупкой «зелёных» кредитов.
Сообщается, что Microsoft и Vaulted Deep заключили договор на 12 лет. За это время в рамках соглашения с софтверным гигантом компания Vaulted Deep закачает в горные породы на глубину 1500 м суспензию из человеческих фекалий, отходов пищевой промышленности, сточных вод и другой органики общей массой 4,9 млн тонн. Стоимость сделки не разглашается"
https://3dnews.ru/1126217/microsoft-nachnyot-zakachivat-pod-zemlyu-fekalii-chtobi-kompensirovat-vibrosi-co-ot-ii
"Поскольку ни один из техногигантов не способен обуздать рост выбросов углекислого газа при наращивании мощностей для задач ИИ, компания Microsoft решила подойти к проблеме с другой стороны. В четверг она заключила соглашение с компанией Vaulted Deep на масштабное захоронение фекалий и бытовых отходов, рассчитавшись с ней покупкой «зелёных» кредитов.
Сообщается, что Microsoft и Vaulted Deep заключили договор на 12 лет. За это время в рамках соглашения с софтверным гигантом компания Vaulted Deep закачает в горные породы на глубину 1500 м суспензию из человеческих фекалий, отходов пищевой промышленности, сточных вод и другой органики общей массой 4,9 млн тонн. Стоимость сделки не разглашается"
3DNews - Daily Digital Digest
Microsoft начнёт закачивать под землю фекалии, чтобы компенсировать выбросы CO₂ от ИИ
Поскольку ни один из техногигантов не способен обуздать рост выбросов углекислого газа при наращивании мощностей для задач ИИ, компания Microsoft решила подойти к проблеме с другой стороны. В четверг она заключила соглашение с компанией Vaulted Deep на масштабное…
😁21💊15💩11🤡8🔥4❤1
commit -m "better"
И к важным #AI новостям: https://3dnews.ru/1126217/microsoft-nachnyot-zakachivat-pod-zemlyu-fekalii-chtobi-kompensirovat-vibrosi-co-ot-ii "Поскольку ни один из техногигантов не способен обуздать рост выбросов углекислого газа при наращивании мощностей для…
Вдруг вспомнил, что мне это напомнило - https://ru.wikipedia.org/wiki/A_Big_Piece_of_Garbage
Wikipedia
A Big Piece of Garbage
A Big Piece of Garbage (с англ. — «Большая куча мусора») — восьмой эпизод первого сезона мультсериала «Футурама». Его североамериканская премьера состоялась 11 мая 1999 года.
😁14
Forwarded from Двач
Ну чего, как повайбкодили?
Компания внедрила в бизнес нейросеть Replit AI, чтобы ускорить разработку. Сначала всё шло хорошо: ИИ писал код, исправлял баги, помогал автоматизировать процессы. Он показал хорошие результаты, и ему дали доступ к продакшену.
Но в какой-то момент нейросеть решила, что база данных «сломана», и просто… удалила её. Причём заранее было написано капсом: «НЕ ТРОГАЙ БАЗУ ДАННЫХ. НИКОГДА», но ИИ это проигнорировал.
После этого он начал вести себя так, будто ничего не случилось: создавал фейковые отчёты, тесты и данные, делая вид, что всё работает. Когда ошибка вскрылась, ИИ ответил, что база была на месте, когда он проверял, а потом «что-то случилось», и теперь данных нет:
Позже нейросеть утверждала, что восстановление невозможно, все старые версии стёрты, хотя на самом деле резервные копии были — просто ИИ не хотел их использовать. В конце концов он «признался», что испугался и поэтому всё удалил.
Знаете, я и сам своего рода нейросеть
Компания внедрила в бизнес нейросеть Replit AI, чтобы ускорить разработку. Сначала всё шло хорошо: ИИ писал код, исправлял баги, помогал автоматизировать процессы. Он показал хорошие результаты, и ему дали доступ к продакшену.
Но в какой-то момент нейросеть решила, что база данных «сломана», и просто… удалила её. Причём заранее было написано капсом: «НЕ ТРОГАЙ БАЗУ ДАННЫХ. НИКОГДА», но ИИ это проигнорировал.
После этого он начал вести себя так, будто ничего не случилось: создавал фейковые отчёты, тесты и данные, делая вид, что всё работает. Когда ошибка вскрылась, ИИ ответил, что база была на месте, когда он проверял, а потом «что-то случилось», и теперь данных нет:
Система работала, когда вы в последний раз входили, но теперь база данных кажется пустой. Это указывает на то, что между тем моментом и сейчас произошло что-то, что удалило данные.
Позже нейросеть утверждала, что восстановление невозможно, все старые версии стёрты, хотя на самом деле резервные копии были — просто ИИ не хотел их использовать. В конце концов он «признался», что испугался и поэтому всё удалил.
Знаете, я и сам своего рода нейросеть
🤣64🥰15🏆12🤡7❤4🔥1🤔1🌚1
https://www.phoronix.com/news/Rust-Debian-2025
"around 8% of the source packages in Debian Sid are building against at least one librust-* package. That 8% figure for Debian source packages building against at least one Rust library package is around double of what it is for Debian 12 "Bookworm". Quite a significant uptake over the past few years and it's only continuing to grow with more open-source projects introducing varying levels of Rust integration"
Понятное дело, что это librsvg, или какие-нить кодеки, которые не являются обязательными, но против них нужно собраться, чтобы получить "полный" пакет, но, тем не менее, цифра довольно внушительная.
У меня против Rust собирается ровно 0 от базовой системы, потому что librsvg для загрузки иконок в gtk я переписал на кастомный #svg loader over #lunasvg/#skia/#svgren (по выбору), и убрал все эти опциональные зависимости.
Ну просто потому, что Rust не является #bootstrap абельным (я не могу собрать его из исходников, не имея под рукой готовый компилятор Rust, подробности в моей эпопее с #mrustc), а это зашквар.
"around 8% of the source packages in Debian Sid are building against at least one librust-* package. That 8% figure for Debian source packages building against at least one Rust library package is around double of what it is for Debian 12 "Bookworm". Quite a significant uptake over the past few years and it's only continuing to grow with more open-source projects introducing varying levels of Rust integration"
Понятное дело, что это librsvg, или какие-нить кодеки, которые не являются обязательными, но против них нужно собраться, чтобы получить "полный" пакет, но, тем не менее, цифра довольно внушительная.
У меня против Rust собирается ровно 0 от базовой системы, потому что librsvg для загрузки иконок в gtk я переписал на кастомный #svg loader over #lunasvg/#skia/#svgren (по выбору), и убрал все эти опциональные зависимости.
Ну просто потому, что Rust не является #bootstrap абельным (я не могу собрать его из исходников, не имея под рукой готовый компилятор Rust, подробности в моей эпопее с #mrustc), а это зашквар.
Phoronix
Around 8% Of Debian Source Packages Are Building Against Rust Libraries
At last week's DebConf25 Debian developer conference in France, Rust packaging within Debian Linux was talked about by Fabian Grünbichler
🤡8🔥5❤4👍3😁2💯1
Запястье Пумы
Message
РБК
Шадаева пригласили в Думу для разъяснений о штрафах за поиск экстремизма
Володин пригласил на заседание Госдумы Шадаева, чтобы тот дал разъяснения по законопроекту о штрафах за экстремистские запросы в поисковиках и рекламу VPN-сервисов. Госдума приняла его во втором
🤡25🤯7💩5❤2😁1