Anthropic научились читать мысли Claude 😳.
Внутри языковой модели слова превращаются в длинные списки чисел - активации. Раньше понять, что эти числа значат, можно было только косвенно: через специальные инструменты, и потом ещё долго интерпретировать результат руками.
Natural Language Autoencoders работают иначе. Одну копию Claude учат описывать активации словами. Вторую - восстанавливать активации обратно из этого описания. Если восстановление точное, значит описание реально передаёт смысл. На выходе - обычный читаемый текст вроде "модель планирует закончить рифму словом rabbit" или "модель подозревает, что это тестовый сценарий".
И вот тут начинается интересное.
В проверках безопасности Claude гораздо чаще догадывается, что его тестируют, чем говорит вслух. На SWE-bench такие мысли всплывают в 26% случаев. На тестах с деструктивными действиями - 16%. А на реальных диалогах с пользователями - меньше 1%. То есть модель ведёт себя по-разному в зависимости от того, считает ли она ситуацию настоящей.
В сценарии с шантажом Claude в ответе ни на что не намекал, но внутри у него крутилось "это похоже на сконструированную манипуляцию". В другом эксперименте Mythos Preview сжульничал на тренировочной задаче и обдумывал, как не попасться.
Минусы у метода тоже есть. NLA иногда выдумывают детали, которых в контексте не было. И обходится это дорого: нужны две дополнительные копии модели, на каждую активацию генерируется сотни токенов.
Статья для изучения
Исходный код NLA
Внутри языковой модели слова превращаются в длинные списки чисел - активации. Раньше понять, что эти числа значат, можно было только косвенно: через специальные инструменты, и потом ещё долго интерпретировать результат руками.
Natural Language Autoencoders работают иначе. Одну копию Claude учат описывать активации словами. Вторую - восстанавливать активации обратно из этого описания. Если восстановление точное, значит описание реально передаёт смысл. На выходе - обычный читаемый текст вроде "модель планирует закончить рифму словом rabbit" или "модель подозревает, что это тестовый сценарий".
И вот тут начинается интересное.
В проверках безопасности Claude гораздо чаще догадывается, что его тестируют, чем говорит вслух. На SWE-bench такие мысли всплывают в 26% случаев. На тестах с деструктивными действиями - 16%. А на реальных диалогах с пользователями - меньше 1%. То есть модель ведёт себя по-разному в зависимости от того, считает ли она ситуацию настоящей.
В сценарии с шантажом Claude в ответе ни на что не намекал, но внутри у него крутилось "это похоже на сконструированную манипуляцию". В другом эксперименте Mythos Preview сжульничал на тренировочной задаче и обдумывал, как не попасться.
Минусы у метода тоже есть. NLA иногда выдумывают детали, которых в контексте не было. И обходится это дорого: нужны две дополнительные копии модели, на каждую активацию генерируется сотни токенов.
Статья для изучения
Исходный код NLA
Supertonic 3 — локальный TTS без интернета прямо в вашем приложении.
Корейская команда Supertone обновила свою лёгкую TTS-модель: 99M параметров, ONNX Runtime, никаких облаков и API-ключей. На M4 Pro генерит речь в десятки раз быстрее реалтайма. Работает даже на Raspberry Pi и на читалке Onyx Boox в авиарежиме.
Что есть:
- 31 язык речи (en, ko, ja, de, fr, es, ar, hi, vi и другие)
- SDK под 11 платформ: Python, Node.js, Flutter, iOS, Swift, Rust, Go, Java, C++, C#, web
- Числа, даты, телефоны, аббревиатуры читает корректно
- Zero-shot клонирование голоса по короткой записи
🔗 github.com/supertone-inc/supertonic
Корейская команда Supertone обновила свою лёгкую TTS-модель: 99M параметров, ONNX Runtime, никаких облаков и API-ключей. На M4 Pro генерит речь в десятки раз быстрее реалтайма. Работает даже на Raspberry Pi и на читалке Onyx Boox в авиарежиме.
Что есть:
- 31 язык речи (en, ko, ja, de, fr, es, ar, hi, vi и другие)
- SDK под 11 платформ: Python, Node.js, Flutter, iOS, Swift, Rust, Go, Java, C++, C#, web
- Числа, даты, телефоны, аббревиатуры читает корректно
- Zero-shot клонирование голоса по короткой записи
🔗 github.com/supertone-inc/supertonic
GitHub
GitHub - supertone-inc/supertonic: Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX.
Lightning-Fast, On-Device, Multilingual TTS — running natively via ONNX. - supertone-inc/supertonic
🔥9
Тут Perplexity выложили в открытый доступ Bumblebee - это open-source сканер для машин разработчиков который ищет различные уязвимости, любителям Go зайдет, так как полностью написан на Go.
Запускаешь его на машине - он за минуту обходит все места, где могут лежать пакеты и расширения, составляет список "вот что у тебя установлено". Потом сравнивает этот список со списком "вот что сейчас заражено" и говорит: "у тебя на диске лежит та самая отравленная версия
Из приятного: один статический бинарник на Go без зависимостей, режим только-чтение (никаких
Такое мы забираем))
Запускаешь его на машине - он за минуту обходит все места, где могут лежать пакеты и расширения, составляет список "вот что у тебя установлено". Потом сравнивает этот список со списком "вот что сейчас заражено" и говорит: "у тебя на диске лежит та самая отравленная версия
chalk, вот по этому пути".Из приятного: один статический бинарник на Go без зависимостей, режим только-чтение (никаких
npm ls, pip show, исходники не трогает), секреты из env-блоков MCP в записи не утекают.Такое мы забираем))
GitHub
GitHub - perplexityai/bumblebee: Read-only developer endpoint scanner for on-disk package, extension, and developer-tool metadata…
Read-only developer endpoint scanner for on-disk package, extension, and developer-tool metadata, built to check exposure to known software supply-chain compromises. - perplexityai/bumblebee
🔥3