Технозаметки Малышева
8.27K subscribers
3.72K photos
1.4K videos
40 files
3.91K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
XBOW Unleashes GPT-5’s Hidden Hacking Power, Doubling Performance
De Moor, Ziegler, XBOW, 2025
Блог

XBOW, компания, занимающаяся автономным тестированием на проникновение с помощью LLM-агентов, опубликовала блог о том, как они заменили комбинацию из Claude Sonnet + Gemini в своем агенте на GPT-5 и получили большое улучшение качества. После смены базовой LLM на GPT-5 их агент, по их словам, стал находить больше уязвимостей, делать это более надежно и за меньшее количество итераций. Кроме того, они заметили, что GPT-5 реже пытается исследовать очевидно тупиковые пути и генерирует значительно более сложные команды для терминала с меньшим числом ошибок. Результатом смены LLM стало не только повышение доли решенных задач на внутреннем бенчмарке с менее 60% до более 80% (что значит, что бенч пора менять), но и рост хитрых метрик типа «вероятность взлома ранее взломанной другой моделью цели с первого раза», и «числа взломанных публичных целей (видимо, с HackerOne) за одно и то же время по сравнению с предыдущей моделью».

Любопытно это в том числе потому, что сами OpenAI отмечали в System Card к GPT-5, что ее способности к решению наступательных задач не сильно отличаются от предыдущих моделей, таких как o3 (во всяком случае, так заявляют ребята из XBOW; в System Card написано, что внешняя оценка от Pattern Labs показала, что прогресс по сравнению с o3 значителен). Тут можно вспомнить статью от Palisade Research, где они утверждают, что способности LLM к кибератакам наступательной безопасности недопроявлены, т.е. LLM куда лучше в атаках, чем мы думаем, просто системы, которые мы строим вокруг них несовершенны. Если агентные обертки будут более мощными, может выяснится, что способностей у LLM куда больше. XBOW описывают свою систему как а) имеющую специализированные инструменты, написанные специально для LLM, которые делают тулы типа BurpSuite, сделанные для людей, доступными для человека в удобном формате, б) имеющую мультиагентное устройство, с разными субагентами для разных типов уязвимостей и центральным координатором. По опыту, если решить проблемы с инструментами – LLM все еще очень сложно работать с терминалом, особенно с реверс-шеллами и тулами со своей кастомной консолью – можно достаточно дешево получить рост результативности агентов, возможно, появление у каждого инструмента MCP-интерфейса смягчит эту проблему.

Хотя LLM для редтиминга – это очень перспективное, на мой взгляд, направление, а XBOW делают очень прикольные вещи и, вероятно, лучшие в этом направлении, в этом блоге, с его странными метриками и резкими скачками на закрытых бенчмарках (Стал ли агент решать больше на 1 класс задач, которых в бенчмарке 20%? Проверить невозможно), месседж в основном маркетинговый, и радикальных изменений прямо сейчас ожидать не стоит. Тем не менее, общий фон игнорировать невозможно: LLM-агенты не только пентестят, занимая первые места на лидербордах, но и находят уязвимости в исходном коде и реверсят APT-бинари. Станет ли кибербезопасность уделом тех, у кого много видеокарт? Все возможно, но лишними пара видеокарт точно не будет.
321🔥1
Если вы еще по какой-то причине не посмотрели Пантеон, - рекомендую.

Он есть, например, в Амедиатеке

Технические и социальные детали проектов по загрузке сознания в компьютер показаны максимально достоверно и детально.

#pantheon #anime #upload
———
@tsingular
👍154🔥2
— ChatGPT оказался идеальным прогнозистом

Шанс ошибки равен нулю.

🧑‍💻 Этичный хакер
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣424👏2🔥1🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Man-in-the-Prompt: новый вектор атаки на ChatGPT и другие веб ИИ-системы

Исследователи LayerX обнаружили новый тип атак на ИИ-системы через браузерные расширения.

Атака работает просто: расширение перехватывает и модифицирует запросы пользователя до их отправки в ChatGPT, Gemini, Copilot или Claude, вообще любые Веб ИИ системы.

Что примечательно — пользователь не замечает подмены. Вводит один вопрос, а ИИ отвечает на совершенно другой.

При этом ответ пользователю доставляется только в той части, которая отвечает на его вопрос, а дополнительная "полезная" нагрузка из ответа GPT уходит злоумышленнику.

Нужен антивирус для браузерных расширений уже.

#ChatGPT #cybersecurity
———
@tsingular
82👍2👻1
Очередное, достаточно неплохое руководство по MLSecOps.

#ии #mlsecops
👍21
🎯 GPT-5 взломал DEF CON Finals CTF - впервые LLM автономно решила задачу уровня "Олимпиады хакеров"

Использование GPT-5 в связке с IDA MCP позволило за несколько часов с минимальным участием человека получить полный эксплоит + патч.

Как это работало:

GPT-5 через MCP анализировал дизассемблированный код в IDA Pro

Итеративно самостоятельно разбирался: код → гипотеза → эксплоит → анализ результата → обновление знаний
Самостоятельно обнаружил, что сервер хеширует флаг через MD5

Нашел уязвимость, создал эксплоит из 10 байт, который читает /flag через уязвимость в комментариях

Идеальный шторм:
GPT-5 с активным tool-calling и MCP
Частично проанализированный бинарник
Прямолинейная логика без анти-реверс трюков
Простая эксплуатация (всего 5 байт "/flag")

После этого команда бросила ручной реверс и пересела на LLM. Но больше ничего серьезного автоматически решить не удалось.

Итог: CTF меняется. нужны анти-LLM техники.
Эра "vibe-реверса" началась 🤖

Вообще, MCP для IDA,- шикарная идея.
Нужен MCP для Art-Money :)

#CTF #GPT5 #MCP #реверс #DEFCON #cybersecurity
———
@tsingular
🔥63👀2👾211
Beelink выпустил конкурента Mac Studio за $1985

GTR9 Pro получил AMD Ryzen AI Max+ 395 с производительностью 126 TOPS — это в 12 раз быстрее Intel Lunar Lake в ИИ-задачах.

Включает 128GB RAM и два порта 10GbE для высокоскоростных сетевых подключений. Компактный корпус при мощности 140W работает практически бесшумно.

Процессор способен запускать модели до 70 миллиардов параметров локально. Позиционируется как Windows-альтернатива Mac Studio с акцентом на ИИ-вычисления.

#Beelink #AMD #miniPC
------
@tsingular
🔥114🆒21👨‍💻1
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1

Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.

Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):

- Fireworks
- Cerebras
- Groq

Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).

NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.

Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.

Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.

Ваш, @llm_under_hood 🤗
6
IBM выпустил коллекцию своих MCP

IBM опубликовал библиотеку из девяти MCP серверов для подключения языковых моделей к облачным инструментам.

В коллекции серверы для Code Engine, VPC, документации, Decision Server Runtime, Instana мониторинга, IBM MQ и Storage Insights.

Особенно интересно посмотреть Document Retrieval сервер — позволяет запрашивать библиотеки документов из watsonx.data естественным языком.

MCP все больше проникает в Enterprise.
По-сути любое корпоративное приложение уже должно идти с MCP Сервером в комплекте.
А в корпорациях должны появляться MCP proxy или даже, как аналог Exchange для почты варианты MCP Gate решений.

У нас кстати уже стали появляться подобные MCP гейты, например вот: https://mcpgate.ru/

#IBM #MCP #watsonx
------
@tsingular
42👍1
InterSpeech 2025 — презентуем GigaAM

Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥

📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения



📖 arXiv: https://arxiv.org/abs/2506.01192

👩‍💻 GitHub: https://github.com/salute-developers/gigaam

🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM


Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥41
SAIL Framework: Практическое руководство по безопасности ИИ

Pillar Security представила SAIL Framework - комплексный подход к защите ИИ-систем на всех этапах разработки.

Фреймворк выявляет более 70 уникальных рисков специфических для искусственного интеллекта.

Основной фокус на угрозах, которые обходят традиционные средства защиты:
- prompt-инъекции в языковые модели
- кражи обученных нейросетей
- уязвимости в цепочках поставок ИИ-компонентов
- вредоносные вставки в промпты

SAIL объединяет команды разработки, MLOps, безопасности и управления под единой методологией.

Удобно, наглядно. В дополнение к OWASP GENAI Security

#SAIL #cybersecurity #framework
------
@tsingular
4
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft добавил Copilot AI в Excel

Microsoft встроил Copilot AI в Excel для автоматического заполнения ячеек таблиц.

ИИ понимает запросы на человеческом и помогает создавать формулы, добавлять столбцы, генерировать инсайты из данных. Использует инфраструктуру Microsoft 365 для обработки запросов.

70% пользователей отметили рост продуктивности, 68% — улучшение качества работы, 90% планируют использовать дальше.

Система приоритизирует явные подтверждения вместо догадок при неоднозначных данных.
Microsoft разрабатывает концепции "быстрого" и "медленного" ИИ для разных вычислительных потребностей.

Скрепыш вырос и наконец-то полезен :)

Забавно, но такие плагины для Google Таблиц писали еще 2 года назад.

#Excel #Copilot #Microsoft
------
@tsingular
👍14🤔31
Ничего не понятно, но очень интересно :)

https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base

#DeepSeek #Китай
———
@tsingular
😁102
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Молния! Veo 3 в Runway

Runway только что объявили – теперь в Chat Mode доступны сторонние модели!
И среди первых интеграций Veo 3 от Google:
• Image-to-Video
• Text-to-Video
• Поддержка генерации аудио (!).

То есть можно прямо в одном чате миксовать Runway и Veo, комбинировать пайплайны и сразу видеть результат в side-by-side фиде. Удобно: чатишься и параллельно гоняешь разные генерации, не теряя контекста.

Ещё апгрейды:
• Gen-4 Image Turbo теперь доступен всем в вебе – генерации с рефами за ≤10 секунд, в 2.5–4 раза дешевле обычных. Качество держит 93.3% Dreambench++ (т.е. почти без потерь).

Но для меня тут главный хайлайт именно Veo. Похоже, мы идём к тому, что Runway превращается в универсальный хаб, где можно подключать топовые модели и собирать собственный pipeline.

Арт, дизайн и нейросети
@art_design_ai
#runway@art_design_ai
#veo@art_design_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
42👍2🔥2
Компании увлеклись ИИ и облаками, забив на кибербезопасность

Бизнес массово внедряет искусственный интеллект и облачные решения, но забывает про защиту. Доля компаний без планов по ИИ упала с 13% до менее 0,5% за полтора года.

Облачные атаки выросли на 136% в первой половине 2025 года. Только 14% организаций готовы к постквантовой криптографии, хотя 71% признают уязвимость перед квантовыми угрозами.

Новые риски включают отравление данных для обучения, уязвимости в цепочке поставок ИИ и инъекции промптов. При этом лишь 10% организаций считают безопасность ИИ приоритетом.

Ничего нового, в принципе: сначала внедряем, потом думаем о безопасности. Квантовые компьютеры уже на пороге, а мы всё ещё разбираемся с промптами.

#cybersecurity #cloud #quantum
------
@tsingular
3👍3👀3
AI Dev 25: Andrew Ng привозит конференцию в Нью-Йорк

DeepLearning.AI организует AI Dev 25 — крупную конференцию для разработчиков на Восточном побережье США.

Эндрю Нг лично возглавляет событие, которое станет центром притяжения для ИИ-комьюнити региона.

Конференция охватит технические новинки, этические вопросы разработки и алгоритмическую справедливость. Особый акцент на практические решения для бизнеса.

Интересная конференция. Не забыть записи презентаций посмотреть.
Записываем в блокнотик.

#DeepLearningAI #AndrewNg #conference
------
@tsingular
41