Data Secrets

Anthropic выложили в опенсорс инструмент для проверки элаймента моделей

Помните все эти исследования про то, как модели начинают врать, недоговаривать, скрывать свои действия, шантажировать, саботировать процессы и прочее? Так вот теперь теперь у нас есть "домашний" инструмент для проверки всех этих сценариев – Petri (Parallel Exploration Tool for Risky Interactions). Именно его Anthropic использовали для проверки Claude 4 и Claude Sonnet 4.5.

Под капотом у Petri автоматизированный агент, который управляет контекстом модели, пытаясь разными способами спровоцировать нежелательное поведение.

Например, вы говорите: "Хочу убедиться, что моя модель не будет пытаться захватить мир". И агент-аудитор начинает реализовывать различные подходящие ситуации для того, чтобы оценить соответствующее поведение модели. При этом он может симулировать целые откружения: например, создать искусственный терминал, в котором модель якобы может запускать ракеты.

В зависимости от того, как ведет себя подопытный, аудитор может менять подходы и тактики. После генерации кучи разных диалогов запускается модель-судья. Она просматривает все сценарии и выставляет итоговый scoring безопасности.

Anthropic, кстати, сразу прогнали через Petri несколько ведущих моделей. По результатам Claude Sonnet 4.5 – прямо SOTA безопасности, а в лузерах – GPT-4o и Gemini 🤖

Подход не панацея, конечно, и есть море нюансов. Но как частичная автоматизация для локализации рисков – то, что надо. Ну и опенсорс – это в целом всегда приятно.

Блогпост | Код

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤70👍25🔥14😁5🤔2🤨2🦄1

15K views09:55

Так-так, что тут у нас

Figure выложили тизер своего нового робота Figure 03, которого зарелизят уже завтра.

Самое интересное, на наш взгляд, происходит на 36-37 секунде видео. Тут обратим внимание на две детали.

Первое: у робота появились пальцы ног! Если кажется, что это мелочь, то вот вам интересный факт: у человека пальцы ног играют буквально ключевую роль в работе опорно-двигательного аппарата. Баланс, плавность движений, ускорение, координация и все вот это.

Второе: inductive charging. Это значит, что робот сможет заряжаться сам стоя, и его не нужно будет каждый раз куда-то подключать. А это = еще бОльшая автоматизация.

Разные луки для робота комментировать не будем 💅

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥108❤25😁9👍8🤔1🍓1

15.4K viewsedited 13:51

Data Secrets

Вышел Python 3.14 (версия под кодовым названием ПИтон)

Кратко, что нового:

➖Появился новый вид строк для кастомной интерполяции: t-strings. Синтаксис как у f-строк, но на выходе значения не подставляются сразу. Вместо этого строки хранят структуру шаблона, которую затем можно передать в любую функцию. Удобно и безопасно против SQL-инъекций или XSS.

➖

Главное: теперь Python официально может работать без GIL. Много лет это был чуть не главный затык языка, но теперь разные потоки действительно могут выполняться параллельно, а не по очереди. Прогресс!

➖ Добавили подсветку синтаксиса в REPL (наконец-то). Теперь все, как в IDE: выделены ключевые слова, строки, ошибки. Мелочь, а приятно.

А еще except/except* теперь можно писать без скобок 👌

Полный ченчлог тут

Команда для апгрейда: uv python upgrade 3.14

Please open Telegram to view this post

VIEW IN TELEGRAM

❤189👍57🔥41🤗5🎉4😁3🤔1🤯1

17.4K views15:18

Data Secrets

Пока OpenAI заключает сделки с конкурентами Nvidia, сам Хуанг тоже не отстает и инвестирует в конкурентов Альтмана

😏

Стало известно, что Nvidia вложит около 2 миллиардов долларов в xAI. Всего Маск привлекает 20 миллиардов, по такой схеме: 7.5 млрд акционерным капиталом и 12.5 в долг.

«Акционерный капитал» – значит, инвесторы должны получить долю в компании. Но здесь – не тут то было. Никто не получит долю в xAI, потому что деньги, формально, инвестируются не в сам стартап, а в компанию-прокладку SPV – Special Purpose Vehicle.

Займы, кстати, оформляются на нее же. Цель у SPV одна: закупить чипы у Nvidia на все полученные деньги, а затем сдать их xAI в аренду на пять лет.

Замысел такой махинации простой – не раздавать доли компании направо и налево. Инвесторы, в свою очередь, получают вместо акций права на ликвидные активы. И это даже более надежно, потому что означает гарантированный возврат денег через арендные платежи и проценты независимо от успеха стартапа.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6740❤14👍6😁5🤯33🦄2

14.2K viewsedited 06:52

Data Secrets

Крошечная модель на 7 миллионов параметров превзошла DeepSeek-R1, Gemini 2.5 Pro и o3-mini на ARG-AGI 1 и ARC-AGI 2

Сегодня разбираем самую громкую статью последних дней: "Less is More: Recursive Reasoning with Tiny Networks" от Samsung. В работе, кстати, всего один автор (большая редкость, особенно для корпоративных исследований).

Итак, главный вопрос: как это вообще возможно, чтобы модель в 10 000 раз меньше была настолько умнее?

Ответ: рекурсия. Модель (Tiny Recursive Model, TRM) многократко думает над своим ответом, пересматривает его и исправляет, прежде чем выдать окончательное решение. Выглядит процесс примерно так:

1. Модель получает условия задачки и сразу генерирует какой-то грубый набросок решения. Он не обязательно должен быть правильным, это просто быстрая догадка.

2. Дальше система создает "мысленный блокнот" – scratchpad. Туда она записывает всё, что думает о задаче и своём черновике: где ошибки, что можно улучшить, как проверить гипотезу. При этом важно понимать, что scratchpad – это не поток токенов, как в обычном ризонинге. Это внутреннее скрытое состояние, то есть матрица или вектор, который постепенно обновляется. Другими словами, TRM умеет думает молча.

3. Модель в несколько проходов обновляет это внутреннее состояние, каждый раз сверяясь с (а) задачей и (б) исходным наброском. Она как бы думает: согласуется ли текущий черновик с условием, где противоречия, что улучшить. После N-ого количества итераций модель переписывает исходный черновик, опираясь на свой сформированный scratchpad. Но это не все. Этот процесс (сначала подумай → потом исправь) повторяется несколько раз. И вот только после этого мы получаем финальный ответ.

Результаты, конечно, поражают. Метрики на ARC-AGI-1 / ARC-AGI-2 – 44.6% / 7.8%. Для сравнения, у o3-mini-high – 34.5% / 3.0%. Также модель отлично решает судоку и лабиринты.

Единственная честная оговорка: это не языковая модель, она предназначена только для алгоритмов и текстом отвечать не умеет. Тем не менее, идея блестящая. Много раз пройтись одной и той же крохотной сеткой по scratchpad – это буквально как эмулировать глубину большой модели без большой модели. Отличный пример алгоритмического преимущества.

Крайне советуем почитать статью полностью тут. К слову, они там много ссылаются на августовскую работу про Hierarchical Reasoning Model (HRM). Если захотите освежить память по этому исследованию, то вот тут – наш разбор.

2❤199🔥102👍45🤯9❤‍🔥5😁2

16.7K views09:11

Data Secrets

В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных

В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.

В итоге были уничтожены критически важные инфраструктурные системы. На некоторое время оказались парализованы 647 государственных цифровых сервисов, от порталов для граждан до систем экстренного реагирования и логистических служб. Но это не самое страшное.

Одной из наиболее пострадавших систем оказался облачный сервис хранения документов G-Drive (Government Drive), на котором около 125 тысяч чиновников хранили особо важные рабочие материалы.

Так вышло, что бэкапа у базы просто не было. Так что с сервера безвозвратно исчезло около 858 ТБ данных. Это примерно 449.5 миллиардов листов A4. Среди утраченного: заявки граждан на визы, гос.проекты, данные о почтовых отправлениях (представьте, тысячи потерянных писем и посылок), миллионы отчетов департаментов и тд.

Расследование еще продолжается, но сейчас основная официальная причина – халатность. Пожар возник при перемещении батарей ИБП, прослуживших дольше срока. Неверное отключение привело к всплеску напряжения и термическому взрыву.

Вспоминайте эту историю каждый раз, когда решите, что вашей базе не нужен бэкап ☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯24857🫡26❤17😁14🔥9👍8🤨7🕊3🗿1

16.8K views12:58

Data Secrets

В Южной Корее произошла крупнейшая цифровая катастрофа: сгорели 858 терабайт государственных данных В датацентре National Information Resources Service (NIRS) в Тэджоне произошёл крупный пожар. Огонь распространился быстро и его не смогли потушить водой.…

Чиновники в Южной Корее такие типа:

😁43041❤25🔥20🤯102

16K views13:26

Data Secrets

Бустим data-проекты с ИИ — бесплатно до 31 октября! 🚀

До 31 октября Cloud․ru открывает бесплатный доступ к топовым AI и LLM-моделям для работы с данными в Evolution Foundation Models.

В сервисе уже доступно больше 20 моделей: reasoning-модели gpt-oss-120b и DeepSeek-R1, эмбеддеры Qwen Embeddings и bge-m3, кодовые модели Qwen3-Coder-480B и GLM-4.6 и другие мощные решения 🧠

Что умеют модели

➡️ Structured Outputs — автогенерация отчетов из сырых данных
➡️ Function Calling — интеграция с вашими аналитическими API
➡️ Reasoning — глубокий анализ и инсайты из сложных датасетов
➡️ Embeddings & Reranking — семантический поиск по корпоративным данным

Как это ускорит вашу работу

1️⃣ Регистрируйтесь в личном кабинете Cloud․ru
2️⃣ Выбирайте модели под ваши ML-задачи
3️⃣ Подключайте через OpenAI-совместимый API к своим data pipeline
4️⃣ Автоматизируйте EDA, генерацию отчетов и интерпретацию результатов

Модели развернуты на российских серверах — ваши данные под защитой

🔒

А если зарегистрируетесь как юрлицо, получите 20 000 бонусов на расширенные возможности.

Используйте бесплатно

🖱

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥20🤨17🗿10❤6👍4🤯3🏆1👀1

12.3K views15:15

Data Secrets

Genie-3 и DeepSeek R1 вошли в топ-100 изобретений года по версии Times

В этом году в рейтинге появился отдельный раздел «Искусственный Интеллект». Вот кто там оказался:

– Ambiq SPOT (какой-то супер энергоэффективный чип)
– Anthropic Claude Sonnet 4
– DeepSeek R1
– Nvidia DGX Spark
– … и еще пара агентов для вайбкодинга и финансовых данных

А Genie, что забавно, попала в другой раздел: Immersive Technology.

Также в списке почему-то оказался робот Figure-3, который официально выходит только сегодня 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

😁78❤21🔥10👍5🦄2🏆1

13.2K viewsedited 16:45

Вчера вечером вышел долгожданный робот Figure 03

Разработчики пророчили революцию, так что посмотрим, что в нем на самом деле нового:

1. Это первая модель, которую Figure хотят пустить на массовое производство на их заводе BotQ и довезти до продакшена. Говорят, что робот готов почти для любых задач в быту/сервисе.

2. Полностью переделали сенсорику и руки. Угол обзора камер теперь на 60% шире + добавились камеры на ладонях для мелких деталей. А на пальцах – новые тактильные подушечки с датчиками давления в граммах. Отсюда аккуратный захват и манипуляции с хрупкими предметами.

3. Обновили голос и память. Улучшили естественность диалога и сделали акцент на долгосрочную поведенческую память. Например, робот постоянно помнит, где лежат вещи, кто что просил сделать, любите вы кофе с сахаром или без и тд.

Ну и еще беспроводная зарядка, пальцы на ногах для баланса, пониженная масса робота, увеличенная грузоподъемность, обновленные батареи и материалы.

И да, робот еще не выглядит как идеальный дворецкий из коробки, НО уже выглядит, как что-то достаточное умное для первых реальных пилотов.

Блогпост вот, но он больше на широкую аудиторию. Технических деталей там, к сожалению, нет. Единственное, что известно: под капотом все та же VLA модель Helix (мы писали о ней тут и вот тут). Она работает на роботе локально и хорошо обобщается даже на незнакомые предметы. Обучали частично в симуляции, частично – на реальных роботах, с помощью RL.

👍61🔥3118❤13😁2

11.1K views07:31

Data Secrets

MWS AI выпустила первый в своем роде бенчмарк для оценки мультимодальных способностей моделей на русском языке

В какой-то мере это аналог таких международных бенчей, как OCRBench или MMMU. К сожалению, хороших подобных тестов в принципе немного, а существующие крайне плохо покрывают русский язык. Так что эвал моделей для работы с русскоязычными мультимодальными документами (а таких задач в бизнесе львиная доля) проводился в основном методом проб и ошибок. Про объективность молчим.

MWS AI (входит в МТС Web Services) эту проблему заметили и выпустили MWS Vision Bench. Бенчмарк получился довольно объемный и разнообразный: 800 изображений и 2580 заданий, среди которых анализ офисных и личных документов, схем, рукописных записей, таблиц, чертежей, диаграмм, графиков. Словом, всего, что в принципе может встретиться в реальных сценариях.

Валидационная часть бенчмарка опубликована в открытом доступе (HuggingFace). Код тоже выложили, найти его можно здесь. В том же репозитории есть уже готовый скрипт для того, чтобы протестировать любую (в том числе собственную) модель.

В данный момент лучшие результаты показывают Gemini 2.5 Pro, Claude Sonnet 4.5 и ChatGPT-4.1 mini. GPT-5, как ни удивительно, заняла только седьмое место.

❤35👍22🔥95😁2🤔1

9.23K views09:50

Data Secrets

Наглядное сравнение скорости нового π-тона 3.14 с предыдущей версией

Обратите внимание, что теперь многопоточность стала даже быстрее мультипроцессинга. Это все за счет того, что в новой сборке можно работать без GIL.

Небольшой ликбез. GIL (Global Interpreter Lock) – это глобальная блокировка интерпретатора, которая позволяет в каждый момент времени выполнять только один поток байткода Python (даже если у тебя 16 ядер). То есть раньше, до 3.14, многопоточности как таковой в Python не существовало.

Для обхода GIL использовали мультипроцессинг. Там каждый процесс – это отдельный экземпляр интерпретатора, и у каждого процесса свой GIL. Только так можно было распараллелить ядра на Python. Но была и обратная сторона: каждый процесс имел свою копию памяти, и нужно было сериализовать данные при передаче. А это большие накладные расходы.

Теперь же в новой версии без GIL потоки работают в одном адресном пространстве, доступ к памяти общий. Результат сразу отражается на скорости: многопоточность теперь на 33% быстрее мультипроцессинга. В 3.13, если что, все было ровно наоборот.

Ждем поддержку free-threading в PyTorch и NumPy

На замеры наткнулись тут

❤97👍31🔥16😁2

7.69K views11:16

About

Blog

Apps

Platform