Anthropic выложили в опенсорс инструмент для проверки элаймента моделей
Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.
Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.
Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.
В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.
Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini🤖
Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.
Блогпост | Код
Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.
Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.
Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.
В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.
Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini
Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.
Блогпост | Код
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤54👍22🔥11😁5🤔2🤨2🦄1
Media is too big
VIEW IN TELEGRAM
Так-так, что тут у нас
Figure выложили тизер своего нового робота Figure 03, которого зарелизят уже завтра.
Самое интересное, на наш взгляд, происходит на 36-37 секунде видео. Тут обратим внимание на две детали.
Первое: у робота появились пальцы ног! Если кажется, что это мелочь, то вот вам интересный факт: у человека пальцы ног играют буквально ключевую роль в работе опорно-двигательного аппарата. Баланс, плавность движений, ускорение, координация и все вот это.
Второе: inductive charging. Это значит, что робот сможет заряжаться сам стоя, и его не нужно будет каждый раз куда-то подключать. А это = еще бОльшая автоматизация.
Разные луки для робота комментировать не будем💅
Figure выложили тизер своего нового робота Figure 03, которого зарелизят уже завтра.
Самое интересное, на наш взгляд, происходит на 36-37 секунде видео. Тут обратим внимание на две детали.
Первое: у робота появились пальцы ног! Если кажется, что это мелочь, то вот вам интересный факт: у человека пальцы ног играют буквально ключевую роль в работе опорно-двигательного аппарата. Баланс, плавность движений, ускорение, координация и все вот это.
Второе: inductive charging. Это значит, что робот сможет заряжаться сам стоя, и его не нужно будет каждый раз куда-то подключать. А это = еще бОльшая автоматизация.
Разные луки для робота комментировать не будем
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥78❤17😁9👍5🍓1
Вышел Python 3.14 (версия под кодовым названием ПИтон)
Кратко, что нового:
➖ Появился новый вид строк для кастомной интерполяции: t-strings. Синтаксис как у f-строк, но на выходе значения не подставляются сразу. Вместо этого строки хранят структуру шаблона, которую затем можно передать в любую функцию. Удобно и безопасно против SQL-инъекций или XSS.
➖ Главное: теперь Python официально может работать без GIL. Много лет это был чуть не главный затык языка, но теперь разные потоки действительно могут выполняться параллельно, а не по очереди. Прогресс!
➖ Добавили подсветку синтаксиса в REPL (наконец-то). Теперь все, как в IDE: выделены ключевые слова, строки, ошибки. Мелочь, а приятно.
А еще👌
Полный ченчлог тут
Команда для апгрейда:
Кратко, что нового:
А еще
except
/except*
теперь можно писать без скобок Полный ченчлог тут
Команда для апгрейда:
uv python upgrade 3.14
Please open Telegram to view this post
VIEW IN TELEGRAM
❤121👍34🔥28🤗5🎉3😁2🤯1