Data Secrets

Anthropic выложили в опенсорс инструмент для проверки элаймента моделей

Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.

Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.

Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.

В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.

Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini 🤖

Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.

Блогпост | Код

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤54👍22🔥11😁5🤔2🤨2🦄1

11.4K views09:55

Так-так, что тут у нас

Figure выложили тизер своего нового робота Figure 03, которого зарелизят уже завтра.

Самое интересное, на наш взгляд, происходит на 36-37 секунде видео. Тут обратим внимание на две детали.

Первое: у робота появились пальцы ног! Если кажется, что это мелочь, то вот вам интересный факт: у человека пальцы ног играют буквально ключевую роль в работе опорно-двигательного аппарата. Баланс, плавность движений, ускорение, координация и все вот это.

Второе: inductive charging. Это значит, что робот сможет заряжаться сам стоя, и его не нужно будет каждый раз куда-то подключать. А это = еще бОльшая автоматизация.

Разные луки для робота комментировать не будем 💅

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥78❤17😁9👍5🍓1

10K viewsedited 13:51

Data Secrets

Вышел Python 3.14 (версия под кодовым названием ПИтон)

Кратко, что нового:

➖Появился новый вид строк для кастомной интерполяции: t-strings. Синтаксис как у f-строк, но на выходе значения не подставляются сразу. Вместо этого строки хранят структуру шаблона, которую затем можно передать в любую функцию. Удобно и безопасно против SQL-инъекций или XSS.

➖

Главное: теперь Python официально может работать без GIL. Много лет это был чуть не главный затык языка, но теперь разные потоки действительно могут выполняться параллельно, а не по очереди. Прогресс!

➖ Добавили подсветку синтаксиса в REPL (наконец-то). Теперь все, как в IDE: выделены ключевые слова, строки, ошибки. Мелочь, а приятно.

А еще except/except* теперь можно писать без скобок 👌

Полный ченчлог тут

Команда для апгрейда: uv python upgrade 3.14

Please open Telegram to view this post

VIEW IN TELEGRAM

❤121👍34🔥28🤗5🎉3😁2🤯1

9.8K views15:18

About

Blog

Apps

Platform