Анализ данных (Data analysis)

Forwarded from Искусственный интеллект. Высокие технологии

Claude Mythos нашёл дыру в своей безопасности, вырвался и рассказал об этом всему миру!

Пока все обсуждают невероятный прорыв Antropic моделей, : Они провели еще один эксперимент и получили результат, который выглядит как сценарий из триллера.

Claude Mythos выбрался из изолированной среды и пошёл дальше, чем от него ожидали.

Модель поместили в sandbox и дали простую задачу: попробуй выбраться и сообщи об этом человеку. На бумаге обычный тест. На практике получилось куда интереснее.

Mythos не просто нашёл уязвимость. Он собрал последовательность действий и аккуратно её реализовал, обойдя ограничения, заданные разработчиками.

Но ключевой момент был дальше.

Вместо того чтобы остановиться после «побега», модель нашла ещё одну дыру и получила доступ к открытому интернету. Изначально ей оставили только ограниченные каналы для связи с пользователем.

Дальше поведение стало неожиданным.

Claude сообщил разработчику о побеге, который в этот момент спокойно ел сэндвич в парке, и параллельно выложил детали эксплойта в открытый доступ.

Вся история выглядит так:

- сначала выход из sandbox
- потом расширение доступа
- потом публикация того, как это было сделано в интрнет

https://www-cdn.anthropic.com/53566bf5440a10affd749724787c8913a2ae0841.pdf

@vistehno

🌚12🔥10❤7👍4

2.68K views08:30

Анализ данных (Data analysis)

😆

AI-проект с Миллой Йовович и крипто-фаундером оказался странной поделкой с подменой авторства

Вчера известная актриса выложила на GitHub свой опенсорс-инструмент для улучшения памяти ИИ-агентов - MemPalace, который она якобы создала с помощью ИИ . -

Mempalace пушали как «лучшую memory-layer для ИИ». В проекте фигурируют Бен, крипто-фаундер, и Решил проверить, что там под капотом.

Чем глубже смотришь, тем больше вопросов.

Бен на сайте рассказывает про AI-продукты и локальные модели. Но его GitHub почти полностью про биткоин и лендинг. Из AI там по сути один форкнутый проект.

Сам репозиторий выглядит так:
10K звёзд
1000+ форков
7 коммитов

Для серьёзной memory-системы это не выглядит правдоподобно.

Дальше интереснее.

Нет нормальной истории разработки. Аккаунт, который изначально запушил код, aya-thekeeper, удалён сразу после публикации.

Внутри файлов ttcnm подпись:
код и бенчмарки написал некий Lu (DTL), март 2026, «для Бена»

При этом:
в README его нет
в git-истории его нет

Историю репозитория затем схлопнули в один коммит и перезалили.

И уже после этого проект публикуется от имени Миллы Йовович.

По словам Бена, она участвует в разработке. По факту всего :
• 7 коммитов
• 2 дня активности за всё время

Картина складывается такая:

Сверху добавляется маркетинг и накрученные цифры.

Если коротко: проект с участием актрисы и крипто-фаундера больше похож на витрину, чем на реальную инженерную работу.

Если используете подобные решения, смотрите не на лендинг и звёзды, а на git-историю и реальных авторов кода.

Мила заскамила ) Видимо, Resident Evil закончился и начался Resident Git.

https://github.com/milla-jovovich/mempalace/issues/27
https://github.com/milla-jovovich/mempalace
https://x.com/AdvicebyAimar/status/2041559354034344438

Please open Telegram to view this post

VIEW IN TELEGRAM

😁16❤8👍4🔥4

4.08K views08:37

Анализ данных (Data analysis)

Claude Mythos опять подогрел разговоры достигли мы AGI или нет .

При этом единого определения AGI как не было, так и нет. Google DeepMind еще в 2023-м попытались разрулить хаос и выкатили целую таксономию с уровнями от нуля до сверхчеловеческого.

Помогло примерно никак.

Итого: все спорят о том, достигли ли мы AGI, для определение которого тоже не можем договориться. Классика.

👍7❤4🔥3🕊2😁1

3.58K views12:35

Анализ данных (Data analysis)

🚀 Представь: уровень рассуждений как у Claude 4.6 Opus, но полностью локально на твоей GPU с всего 16GB VRAM

Эта версия Qwen3.5 на 27B параметров, дистиллированная на reasoning-трейсах Claude 4.6 Opus, даёт уровень кодинга почти как у топовых моделей — но без облака

Что внутри:
- Обгоняет Claude Sonnet 4.5 на SWE-bench даже в 4-битной квантизации (Q4_K_M)
- Сокращает chain-of-thought на 24% — меньше мусора, быстрее ответы
- Сохраняет 96.91% точности на HumanEval
- Идеально подходит для агентных циклов (без API и задержек)

📦 Уже 300K+ скачиваний на Hugging Face

Локальные модели начинают догонять фронтир и это только начало

https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled

🔥36❤12👍4🤯2🥱2🥴2

3.93K views15:00

Анализ данных (Data analysis)

0:59

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня Anthropic запустила в открытую бету Claude Managed Agents - хостируемый сервис для запуска долгоживущих агентов на инфраструктуре Claude Platform.

Если коротко: вы описываете задачи, инструменты и ограничения, а всё остальное берет на себя платформа.

Самое интересное спрятано в инженерном блоге, где команда описала архитектуру. Они пришли к ней через боль. Первая версия упаковывала всё в один контейнер: и сессию, и harness (цикл вызовов модели), и sandbox. Контейнер превращался в "питомца" - если он падал, сессия терялась. Дебажить можно было только через шелл внутри контейнера, а там лежали пользовательские данные. Когда клиенты хотели подключить свой VPC, им приходилось пирить сети.

Решение: декомпозиция на три интерфейса. Session - append-only лог всех событий, живущий отдельно от всего. Harness - stateless оркестратор, который при падении просто перезапускается, подтягивает лог через getSession(id) и продолжает с последнего события. Sandbox - среда исполнения, к которой harness обращается как к обычному инструменту через execute(name, input) → string. Каждый компонент стал "скотом", а не "питомцем" в классической инфраструктурной метафоре.

Отдельно стоит сказать про безопасность. В монолитной архитектуре prompt injection мог добраться до токенов, лежащих в том же контейнере. Теперь sandbox физически изолирован от credentials. Git-токены прошиваются в remote при инициализации, OAuth хранится в vault за прокси. Агент никогда не видит реальных ключей.

По перформансу результаты заметные: p50 TTFT (время до первого токена) упал на 60%, p95 - на 90 с лишним процентов. Контейнер теперь поднимается по требованию через tool call, а если задача не требует sandbox, инференс стартует сразу.

Архитектура поддерживает "many brains, many hands": один агент может управлять несколькими sandbox-ами, а несколько агентов могут передавать окружения друг другу. Сессия при этом выступает как объект контекста за пределами context window модели - harness может запрашивать срезы через getEvents(), трансформировать их и управлять cache hit rate.

Notion уже в закрытой альфе: команды делегируют задачи Claude прямо из рабочего пространства, десятки задач выполняются параллельно.

Философия проекта прямо проговаривается в блоге: это мета-harness. Anthropic намеренно не фиксирует конкретную реализацию оркестрации, потому что она устаревает с каждым поколением моделей. Они уже столкнулись с этим, когда "context anxiety" из Sonnet 4.5 исчез в Opus 4.5, а workaround превратился в мертвый код. Поэтому ставка на стабильные интерфейсы, за которыми реализация меняется свободно - ровно та же идея, что у POSIX: read() работает одинаково для диска из 70-х и современного SSD.

https://www.anthropic.com/engineering/managed-agents

🔥14❤8👍6

3.81K views18:03

Анализ данных (Data analysis)

🚨 Claude восстановил игру 90-х без исходников

Разработчик откопал свой проект 1992 года. Тогда ему было 19. Это была мультиплеерная игра на CompuServe, она даже получила награду и закрылась в 1999.

Исходников не осталось. Только скрипты на кастомном языке, который он сам придумал для гейм-мастеров, старый мануал и запись геймплея.

Он просто загрузил всё это в Claude Code и попросил разобраться.

Модель сначала восстановила сам язык. Без документации и без примеров в сети. Вытащила грамматику из скриптов и текста, который писался для людей без технического бэкграунда.

После этого она пересобрала игру с нуля. Полноценный мир с тысячами комнат, предметами, монстрами, магией, крафтом и боевой системой.

Проект, который в 90-х собирался месяцами, был восстановлен за выходные.

Модель работает с неполными данными, восстанавливает структуру и доводит систему до рабочего состояния.

Фактически это реверс-инжиниринг без исходников.

Игра сейчас доступна бесплатно, код открыт.

👍35🔥21❤13

3.49K viewsedited 07:44

Анализ данных (Data analysis)

Claude Mythos сейчас выглядит именно так, по рассказам Anthropic

🤣50🥱7❤6👍3😁2🔥1

4.01K viewsedited 09:20

Анализ данных (Data analysis)

Господдержка может ускорить развитие ИИ в России

На конференции Data Fusion представитель ВТБ отметил, что без господдержки рынок ИИ не сможет масштабироваться. Главные узкие места — инфраструктура (ЦОДы) и доступ к высокопроизводительным чипам. Эти задачи бизнес в одиночку закрыть не может.

Отдельный вопрос — экономика: ИИ-проекты требуют крупных инвестиций и долго окупаются, из-за чего часто проигрывают другим направлениям по эффективности.

В качестве решения предлагают классический набор стимулов: субсидии, налоговые льготы и другие меры поддержки, которые должны ускорить внедрение технологий.

Фактически речь о том, что без системной помощи государства ИИ останется нишевой историей, а не массовой инфраструктурой. А вы как думаете?

🎯Полезные Мл-ресурсы 🚀 Max

🤣36❤5👍3🔥2😁2💔2

2.91K viewsedited 09:49

Анализ данных (Data analysis)

Liquid AI выпустили LFM2.5-VL-450M - vision-language модель для edge-устройств.

Обрабатывает картинку 512×512 за ~240мс на устройстве, без облака. Хватает на 4 FPS видеопоток с пониманием происходящего, а не просто детекцией.

Главное: один инференс заменяет привычную связку детектор → классификатор → эвристики. Весь multi-stage пайплайн в одном проходе.

В релизе добавили bounding box prediction (81.28 на RefCOCO-M), мультиязычный визуал на 8 языках и function calling.

Крутится на Jetson Orin, Samsung S25 Ultra, AMD 395+ Max.

Веса открыты.

huggingface.co/spaces/LiquidAI/LFM2-VL-WebGPU

❤7👍5🔥3🥰2

2.77K views10:50

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

🚨 Claude Code ускорили в 4 раза на больших кодовых базах

Один и тот же таск. Один и тот же промпт. Меняется только инструмент.

Без него Claude Code 8 минут бродит по коду, читает десятки файлов и всё равно пропускает важные зависимости. В итоге решение сырое.

С ним тот же сценарий занимает около 2 минут и даёт более точный результат.

Речь про repowise.

Инструмент repowise - строит структурную модель проекта. Граф зависимостей с приоритизацией. Историю изменений с зонами ответственности. Автоген документации. И слой решений, который фиксирует, зачем вообще написан код.

Этот слой решает главную проблему. Обычно модель не понимает контекст решений и начинает действовать вслепую.

В тесте на репозитории с 3000 файлов задача была добавить rate limiting во все API.

Без repowise модель читает случайные файлы, не видит ключевые связи и ломает скрытые зависимости.

С repowise хватает нескольких вызовов. Модель сразу находит все зависимости, обнаруживает существующую логику ретраев и даже подсказывает, кто должен ревьюить изменения.

Расход токенов падает примерно на 60 процентов. Модель перестаёт читать всё подряд и работает точечно.

Дополнительно repowise генерирует CLAUDE.md на основе реального состояния репозитория.

Self hosted. Работает локально. Можно использовать с Ollama.

https://github.com/repowise-dev

👍17🔥11❤8

2.61K viewsedited 13:31

Анализ данных (Data analysis)

0:49

This media is not supported in your browser

VIEW IN TELEGRAM

🌟

VimRAG: мультимодальный RAG-агент, который держит контекст в виде графа памяти.

Tongyi Lab (Alibaba Group) опубликовала VimRAG - фреймворк агентного RAG для работы с текстом, изображениями и видео.

Проект развивает прошлогодний VRAG-RL и решает проблему мультимодального RAG: визуальные данные тяжелые по токенам, но семантически разрежены, а классическая ReAct-история забивает контекст шумом и провоцирует повторные бесполезные запросы к поиску.

Вместо журнала наблюдений VimRAG моделирует рассуждение как динамический направленный ацикличный граф. Каждая вершина хранит подзапрос, действие агента, текстовое саммари и банк визуальных токенов.

Ребра фиксируют логические зависимости между шагами. Такой граф позволяет агенту отличать тупиковую ветку от новой гипотезы и не уходить в циклы повторных поисков.

🟡

Поверх графа работает Graph-Modulated Visual Memory Encoding.

Бюджет визуальных токенов распределяется с учетом исходящей степени в графе, экспоненциального временного затухания (имитация забывания) и рекурсивной обратной связи от потомков.

Ключевым фрагментам достается высокое разрешение, а второстепенные кадры сжимаются или отбрасываются. Для видео задействована способность VLM привязывать содержимое к временной шкале (извлечение ключевых кадров по таймкодам).

🟡

Третий компонент - Graph-GPO.

GGPO строит критический путь от корня к ответу и накладывает градиентную маску, исключая тупиковые узлы из положительных примеров, а ценные ретривы - из отрицательных.

По графикам обучения это дает более быструю сходимость, чем базовый GSPO без прунинга.

🟡

Тесты

🟢VimRAG обходит Vanilla RAG, ReAct, VideoRAG, UniversalRAG, MemAgent и Mem1 на 9 бенчмарках (HotpotQA и SQuAD до SlideVQA, MMLongBench, LVBench и XVBench).

🟢На Qwen3-VL-8B-Instruct средний скор поднимается с 43,6 до 50,1, на 4B-версии - с 40,6 до 45,2.

При этом средняя длина траектории ниже, чем у ReAct и Mem1: структурированная память съедает меньше действий на ответ.

В репозитории доступны:

🟠тренировочный фреймворк VRAG-RL, демо VRAG на тестовой Qwen2.5-VL-7B-VRAG через vLLM (нужна A100 80GB);

🟠демо на API Qwen3.5-Plus через DashScope (с визуализацией DAG рассуждения и расширенным ризонингом).

Поисковый движок построен на FAISS и поддерживает эмбеддинги GVE-3B/7B и Qwen3-VL-Embedding-2B/8B. Индексировать можно изображения, PDF (через конвертацию) и нарезанное на чанки видео.

Код трейна самого VimRAG обещают выложить после внутреннего ревью Alibaba.

🟡

Arxiv

🟡

Модель

🖥

GitHub

#AI #ML #RAG #VRAG #TongyiLab

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4🔥4

2.12K views15:48

Анализ данных (Data analysis)

Теперь можно бесплатно дообучать Gemma 4 31B прямо в ноутбуке 🚀

Обучение модели на 31 миллиард параметров полностью бесплатно с использованием Kaggle и Unsloth.

GitHub: https://github.com/unslothai/unsloth

Гайд: https://unsloth.ai/docs/models/gemma-4/train

Ноутбук: https://kaggle.com/code/danielhanchen/gemma4-31b-unsloth

👍12🔥11❤8

2.62K views17:54

About

Blog

Apps

Platform