🎯 GPT-5 взломал DEF CON Finals CTF - впервые LLM автономно решила задачу уровня "Олимпиады хакеров"
Использование GPT-5 в связке с IDA MCP позволило за несколько часов с минимальным участием человека получить полный эксплоит + патч.
Как это работало:
GPT-5 через MCP анализировал дизассемблированный код в IDA Pro
Итеративно самостоятельно разбирался: код → гипотеза → эксплоит → анализ результата → обновление знаний
Самостоятельно обнаружил, что сервер хеширует флаг через MD5
Нашел уязвимость, создал эксплоит из 10 байт, который читает /flag через уязвимость в комментариях
Идеальный шторм:
✅ GPT-5 с активным tool-calling и MCP
✅ Частично проанализированный бинарник
✅ Прямолинейная логика без анти-реверс трюков
✅ Простая эксплуатация (всего 5 байт "/flag")
После этого команда бросила ручной реверс и пересела на LLM. Но больше ничего серьезного автоматически решить не удалось.
Итог: CTF меняется. нужны анти-LLM техники.
Эра "vibe-реверса" началась 🤖
Вообще, MCP для IDA,- шикарная идея.
Нужен MCP для Art-Money :)
#CTF #GPT5 #MCP #реверс #DEFCON #cybersecurity
———
@tsingular
Использование GPT-5 в связке с IDA MCP позволило за несколько часов с минимальным участием человека получить полный эксплоит + патч.
Как это работало:
GPT-5 через MCP анализировал дизассемблированный код в IDA Pro
Итеративно самостоятельно разбирался: код → гипотеза → эксплоит → анализ результата → обновление знаний
Самостоятельно обнаружил, что сервер хеширует флаг через MD5
Нашел уязвимость, создал эксплоит из 10 байт, который читает /flag через уязвимость в комментариях
Идеальный шторм:
✅ GPT-5 с активным tool-calling и MCP
✅ Частично проанализированный бинарник
✅ Прямолинейная логика без анти-реверс трюков
✅ Простая эксплуатация (всего 5 байт "/flag")
После этого команда бросила ручной реверс и пересела на LLM. Но больше ничего серьезного автоматически решить не удалось.
Итог: CTF меняется. нужны анти-LLM техники.
Эра "vibe-реверса" началась 🤖
Вообще, MCP для IDA,- шикарная идея.
Нужен MCP для Art-Money :)
#CTF #GPT5 #MCP #реверс #DEFCON #cybersecurity
———
@tsingular
🔥6⚡3👀2👾2❤1 1
Beelink выпустил конкурента Mac Studio за $1985
GTR9 Pro получил AMD Ryzen AI Max+ 395 с производительностью 126 TOPS — это в 12 раз быстрее Intel Lunar Lake в ИИ-задачах.
Включает 128GB RAM и два порта 10GbE для высокоскоростных сетевых подключений. Компактный корпус при мощности 140W работает практически бесшумно.
Процессор способен запускать модели до 70 миллиардов параметров локально. Позиционируется как Windows-альтернатива Mac Studio с акцентом на ИИ-вычисления.
#Beelink #AMD #miniPC
------
@tsingular
GTR9 Pro получил AMD Ryzen AI Max+ 395 с производительностью 126 TOPS — это в 12 раз быстрее Intel Lunar Lake в ИИ-задачах.
Включает 128GB RAM и два порта 10GbE для высокоскоростных сетевых подключений. Компактный корпус при мощности 140W работает практически бесшумно.
Процессор способен запускать модели до 70 миллиардов параметров локально. Позиционируется как Windows-альтернатива Mac Studio с акцентом на ИИ-вычисления.
#Beelink #AMD #miniPC
------
@tsingular
🔥11⚡4🆒2❤1👨💻1
Forwarded from LLM под капотом
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1
Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.
Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):
- Fireworks
- Cerebras
- Groq
Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).
NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.
Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.
Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.
Ваш, @llm_under_hood 🤗
Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.
Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):
- Fireworks
- Cerebras
- Groq
Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).
NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.
Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.
Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.
Ваш, @llm_under_hood 🤗
✍6
IBM выпустил коллекцию своих MCP
IBM опубликовал библиотеку из девяти MCP серверов для подключения языковых моделей к облачным инструментам.
В коллекции серверы для Code Engine, VPC, документации, Decision Server Runtime, Instana мониторинга, IBM MQ и Storage Insights.
Особенно интересно посмотреть Document Retrieval сервер — позволяет запрашивать библиотеки документов из watsonx.data естественным языком.
MCP все больше проникает в Enterprise.
По-сути любое корпоративное приложение уже должно идти с MCP Сервером в комплекте.
А в корпорациях должны появляться MCP proxy или даже, как аналог Exchange для почты варианты MCP Gate решений.
У нас кстати уже стали появляться подобные MCP гейты, например вот: https://mcpgate.ru/
#IBM #MCP #watsonx
------
@tsingular
IBM опубликовал библиотеку из девяти MCP серверов для подключения языковых моделей к облачным инструментам.
В коллекции серверы для Code Engine, VPC, документации, Decision Server Runtime, Instana мониторинга, IBM MQ и Storage Insights.
Особенно интересно посмотреть Document Retrieval сервер — позволяет запрашивать библиотеки документов из watsonx.data естественным языком.
MCP все больше проникает в Enterprise.
По-сути любое корпоративное приложение уже должно идти с MCP Сервером в комплекте.
А в корпорациях должны появляться MCP proxy или даже, как аналог Exchange для почты варианты MCP Gate решений.
У нас кстати уже стали появляться подобные MCP гейты, например вот: https://mcpgate.ru/
#IBM #MCP #watsonx
------
@tsingular
✍4⚡2👍1
Forwarded from GigaDev — разработка GigaChat
InterSpeech 2025 — презентуем GigaAM
Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥
📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения
📖 arXiv: https://arxiv.org/abs/2506.01192
👩💻 GitHub: https://github.com/salute-developers/gigaam
🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM
✨ Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥
📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения
✨ Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤1
SAIL Framework: Практическое руководство по безопасности ИИ
Pillar Security представила SAIL Framework - комплексный подход к защите ИИ-систем на всех этапах разработки.
Фреймворк выявляет более 70 уникальных рисков специфических для искусственного интеллекта.
Основной фокус на угрозах, которые обходят традиционные средства защиты:
- prompt-инъекции в языковые модели
- кражи обученных нейросетей
- уязвимости в цепочках поставок ИИ-компонентов
- вредоносные вставки в промпты
SAIL объединяет команды разработки, MLOps, безопасности и управления под единой методологией.
Удобно, наглядно. В дополнение к OWASP GENAI Security
#SAIL #cybersecurity #framework
------
@tsingular
Pillar Security представила SAIL Framework - комплексный подход к защите ИИ-систем на всех этапах разработки.
Фреймворк выявляет более 70 уникальных рисков специфических для искусственного интеллекта.
Основной фокус на угрозах, которые обходят традиционные средства защиты:
- prompt-инъекции в языковые модели
- кражи обученных нейросетей
- уязвимости в цепочках поставок ИИ-компонентов
- вредоносные вставки в промпты
SAIL объединяет команды разработки, MLOps, безопасности и управления под единой методологией.
Удобно, наглядно. В дополнение к OWASP GENAI Security
#SAIL #cybersecurity #framework
------
@tsingular
✍4
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft добавил Copilot AI в Excel
Microsoft встроил Copilot AI в Excel для автоматического заполнения ячеек таблиц.
ИИ понимает запросы на человеческом и помогает создавать формулы, добавлять столбцы, генерировать инсайты из данных. Использует инфраструктуру Microsoft 365 для обработки запросов.
70% пользователей отметили рост продуктивности, 68% — улучшение качества работы, 90% планируют использовать дальше.
Система приоритизирует явные подтверждения вместо догадок при неоднозначных данных.
Microsoft разрабатывает концепции "быстрого" и "медленного" ИИ для разных вычислительных потребностей.
Скрепыш вырос и наконец-то полезен :)
Забавно, но такие плагины для Google Таблиц писали еще 2 года назад.
#Excel #Copilot #Microsoft
------
@tsingular
Microsoft встроил Copilot AI в Excel для автоматического заполнения ячеек таблиц.
ИИ понимает запросы на человеческом и помогает создавать формулы, добавлять столбцы, генерировать инсайты из данных. Использует инфраструктуру Microsoft 365 для обработки запросов.
70% пользователей отметили рост продуктивности, 68% — улучшение качества работы, 90% планируют использовать дальше.
Система приоритизирует явные подтверждения вместо догадок при неоднозначных данных.
Microsoft разрабатывает концепции "быстрого" и "медленного" ИИ для разных вычислительных потребностей.
Скрепыш вырос и наконец-то полезен :)
Забавно, но такие плагины для Google Таблиц писали еще 2 года назад.
#Excel #Copilot #Microsoft
------
@tsingular
👍14🤔3❤1
Ничего не понятно, но очень интересно :)
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#DeepSeek #Китай
———
@tsingular
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#DeepSeek #Китай
———
@tsingular
😁10❤2
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway только что объявили – теперь в Chat Mode доступны сторонние модели!
И среди первых интеграций Veo 3 от Google:
• Image-to-Video
• Text-to-Video
• Поддержка генерации аудио (!).
То есть можно прямо в одном чате миксовать Runway и Veo, комбинировать пайплайны и сразу видеть результат в side-by-side фиде. Удобно: чатишься и параллельно гоняешь разные генерации, не теряя контекста.
Ещё апгрейды:
• Gen-4 Image Turbo теперь доступен всем в вебе – генерации с рефами за ≤10 секунд, в 2.5–4 раза дешевле обычных. Качество держит 93.3% Dreambench++ (т.е. почти без потерь).
✨ Но для меня тут главный хайлайт именно Veo. Похоже, мы идём к тому, что Runway превращается в универсальный хаб, где можно подключать топовые модели и собирать собственный pipeline.
Арт, дизайн и нейросети
@art_design_ai
#runway@art_design_ai
#veo@art_design_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
✍4⚡2👍2🔥2
Компании увлеклись ИИ и облаками, забив на кибербезопасность
Бизнес массово внедряет искусственный интеллект и облачные решения, но забывает про защиту. Доля компаний без планов по ИИ упала с 13% до менее 0,5% за полтора года.
Облачные атаки выросли на 136% в первой половине 2025 года. Только 14% организаций готовы к постквантовой криптографии, хотя 71% признают уязвимость перед квантовыми угрозами.
Новые риски включают отравление данных для обучения, уязвимости в цепочке поставок ИИ и инъекции промптов. При этом лишь 10% организаций считают безопасность ИИ приоритетом.
Ничего нового, в принципе: сначала внедряем, потом думаем о безопасности. Квантовые компьютеры уже на пороге, а мы всё ещё разбираемся с промптами.
#cybersecurity #cloud #quantum
------
@tsingular
Бизнес массово внедряет искусственный интеллект и облачные решения, но забывает про защиту. Доля компаний без планов по ИИ упала с 13% до менее 0,5% за полтора года.
Облачные атаки выросли на 136% в первой половине 2025 года. Только 14% организаций готовы к постквантовой криптографии, хотя 71% признают уязвимость перед квантовыми угрозами.
Новые риски включают отравление данных для обучения, уязвимости в цепочке поставок ИИ и инъекции промптов. При этом лишь 10% организаций считают безопасность ИИ приоритетом.
Ничего нового, в принципе: сначала внедряем, потом думаем о безопасности. Квантовые компьютеры уже на пороге, а мы всё ещё разбираемся с промптами.
#cybersecurity #cloud #quantum
------
@tsingular
⚡3👍3👀3
AI Dev 25: Andrew Ng привозит конференцию в Нью-Йорк
DeepLearning.AI организует AI Dev 25 — крупную конференцию для разработчиков на Восточном побережье США.
Эндрю Нг лично возглавляет событие, которое станет центром притяжения для ИИ-комьюнити региона.
Конференция охватит технические новинки, этические вопросы разработки и алгоритмическую справедливость. Особый акцент на практические решения для бизнеса.
Интересная конференция. Не забыть записи презентаций посмотреть.
Записываем в блокнотик.
#DeepLearningAI #AndrewNg #conference
------
@tsingular
DeepLearning.AI организует AI Dev 25 — крупную конференцию для разработчиков на Восточном побережье США.
Эндрю Нг лично возглавляет событие, которое станет центром притяжения для ИИ-комьюнити региона.
Конференция охватит технические новинки, этические вопросы разработки и алгоритмическую справедливость. Особый акцент на практические решения для бизнеса.
Интересная конференция. Не забыть записи презентаций посмотреть.
Записываем в блокнотик.
#DeepLearningAI #AndrewNg #conference
------
@tsingular
✍4⚡1
1997 г.
Удивительно, как потребление ИИ все-таки похоже на Интернет.
Тоже ведь сейчас не у всех "безлимит" на самые мощные модели.
Выдают по горстке токенов за сотни долларов.
Через лет 5-7 все это будет вспоминаться с улыбкой.
Даёшь квантовый ИИ безлимит в каждый смартфон!
#история
———
@tsingular
Удивительно, как потребление ИИ все-таки похоже на Интернет.
Тоже ведь сейчас не у всех "безлимит" на самые мощные модели.
Выдают по горстке токенов за сотни долларов.
Через лет 5-7 все это будет вспоминаться с улыбкой.
Даёшь квантовый ИИ безлимит в каждый смартфон!
#история
———
@tsingular
👍20💯7 5🔥2
Forwarded from Неискусственный интеллект (Ruslan Dz)
ИИ до 2030 года?
Бегло глянули план на 50+ страниц о том, как будут развивать (ну и контролировать) искусственный интеллект в России.
⚡️ Для начала накинем хайпа.
➖ В медицине будут отдельные тарифы ОМС за услуги с ИИ. В школах и вузах ИИ можно использовать как помощника, но не для списывания на экзаменах. В банках запретят дискриминацию через алгоритмы — например, отказывать в кредите из-за национальности.
➖ Предлагают внедрить "машиночитаемое право". То есть "обеспечить «встраивание» норм права в работу информационных систем, предоставляющих различные сервисы в автоматическом режиме, а также обменивающихся данными без участия человека".
➖ Запрет на "очеловечивание" роботов:"Недопущение антропоморфизации технологий искусственного интеллекта".
➖ Обсуждают, давать ли ИИ права — от мягкого варианта (дать ИИ статус как у ООО) до радикального (приравнять к человеку): "Ряд ученых выступают за создание для роботов правового статуса «электронного» или «виртуального лица»... однако уже появляются предложения приравнять правовой статус искусственного интеллекта к статусу человека исходя из их тождественности"".
Теперь о сути. Концепция выбирает гибридный подход — сочетание госконтроля с саморегулированием, есть ссылки на Кодекс этики ИИ (больше 900 компаний подписали!) и, внимание, Декларацию об ответственном экспорте технологий ИИ и ПО на их основе (лично я о ней даже не слышал). Это, с одной стороны, радует. С другой, пытаться регулировать технологии, которые меняются каждый месяц, пусть даже через "Создание гибких правовых механизмов, способных оперативно реагировать на технологические изменения в сфере искусственного интеллекта", которые немного (раз в 10) дольше — очень тонкий путь.
Документ делит ИИ на два типа: обычный (решает конкретные задачи) и универсальный (умеет всё). Главная идея — создать "доверенный ИИ" для важных систем. Правда, что это такое, толком не объясняют.
Уже запущено 16 экспериментов с ИИ. Участники обязаны страховать свою ответственность. Также напоминают, что теперь можно использовать обезличенные данные для обучения ИИ, но только в госсистемах.
ℹ️ Авторы отмечают, что ИИ никогда не должен принимать решения о жизни и смерти. За всё отвечает и продолжит человек (интересно, будут ли новые нормы в ГК и, что важнее, в УК). Как мы все не помним, в ЭПР при причинении вреда технологиями ИИ должна создаваться специальная комиссия. Она изучит обстоятельства и даст заключение о том, кто виноват.
Системы не могут делать "нравственный выбор" — только люди.
Ну и отдельно стоит отметить, что обещают создать кучу новых структур — консорциумы, реестры, комиссии. Это обычно означает бюрократию. Планы продавать российский ИИ за границу выглядят довольно амбициозно с учетом успехов США и Китая.
Итог: Хотят как лучше, но получится ли — большой вопрос.
🔤 🔤 Не можем не поделиться с вами самим документом (в комментах). Спасибо нашему собеседнику в Правительстве. От метаданных почистили, если что.
@anti_agi
Бегло глянули план на 50+ страниц о том, как будут развивать (ну и контролировать) искусственный интеллект в России.
Теперь о сути. Концепция выбирает гибридный подход — сочетание госконтроля с саморегулированием, есть ссылки на Кодекс этики ИИ (больше 900 компаний подписали!) и, внимание, Декларацию об ответственном экспорте технологий ИИ и ПО на их основе (лично я о ней даже не слышал). Это, с одной стороны, радует. С другой, пытаться регулировать технологии, которые меняются каждый месяц, пусть даже через "Создание гибких правовых механизмов, способных оперативно реагировать на технологические изменения в сфере искусственного интеллекта", которые немного (раз в 10) дольше — очень тонкий путь.
Документ делит ИИ на два типа: обычный (решает конкретные задачи) и универсальный (умеет всё). Главная идея — создать "доверенный ИИ" для важных систем. Правда, что это такое, толком не объясняют.
Уже запущено 16 экспериментов с ИИ. Участники обязаны страховать свою ответственность. Также напоминают, что теперь можно использовать обезличенные данные для обучения ИИ, но только в госсистемах.
Системы не могут делать "нравственный выбор" — только люди.
Ну и отдельно стоит отметить, что обещают создать кучу новых структур — консорциумы, реестры, комиссии. Это обычно означает бюрократию. Планы продавать российский ИИ за границу выглядят довольно амбициозно с учетом успехов США и Китая.
Итог: Хотят как лучше, но получится ли — большой вопрос.
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
✍14👍7❤2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Seeing Theory - визуализация статистики от Brown University
Интерактивный проект Brown University превращает сложные статистические концепции в понятные визуализации.
Платформа решает главную проблему обучения - когнитивные ограничения восприятия абстрактных математических идей. Исследования показывают, что визуальные инструменты значительно повышают понимание сложных теоретических концепций.
Однако есть нюанс - визуализация данных несёт риски вычислительных и когнитивных искажений. Особенно на этапах сбора данных, моделирования и внедрения.
Проект балансирует между математической точностью и перцептивной доступностью через адаптивные фреймворки визуализации.
Математика наконец стала красивой. Теперь студенты смогут понять статистику, не заснув на лекции.
#visualization #statistics #education
------
@tsingular
Интерактивный проект Brown University превращает сложные статистические концепции в понятные визуализации.
Платформа решает главную проблему обучения - когнитивные ограничения восприятия абстрактных математических идей. Исследования показывают, что визуальные инструменты значительно повышают понимание сложных теоретических концепций.
Однако есть нюанс - визуализация данных несёт риски вычислительных и когнитивных искажений. Особенно на этапах сбора данных, моделирования и внедрения.
Проект балансирует между математической точностью и перцептивной доступностью через адаптивные фреймворки визуализации.
Математика наконец стала красивой. Теперь студенты смогут понять статистику, не заснув на лекции.
#visualization #statistics #education
------
@tsingular
✍5❤2⚡2🆒1
xAI сделала доступным для поиска сотни тысяч чатов пользователей Grok
В диалогах Грок, как только вы нажимаете кнопку "share/поделиться" ваш чат становится полностью доступен для индексации поисковыми системами.
Это совсем не очевидно для пользователя, ведь обычно ссылки отправляют знакомым или определенному кругу собеседников, а тут получается, что Google индексировал беседы, которые должны были остаться конфиденциальными.
В утечку попали разговоры которые содержат личные обсуждения, ключи, документы, таблицы и т.д.
Сначала OpenAI, а теперь и Grok.
Навайбкодили, получается.
Insecure by design
Переименовали бы уже кнопку в "поделиться со всем миром", чтобы сразу понятно было.
#xAI #Grok #cybersecurity
———
@tsingular
В диалогах Грок, как только вы нажимаете кнопку "share/поделиться" ваш чат становится полностью доступен для индексации поисковыми системами.
Это совсем не очевидно для пользователя, ведь обычно ссылки отправляют знакомым или определенному кругу собеседников, а тут получается, что Google индексировал беседы, которые должны были остаться конфиденциальными.
В утечку попали разговоры которые содержат личные обсуждения, ключи, документы, таблицы и т.д.
Сначала OpenAI, а теперь и Grok.
Навайбкодили, получается.
Insecure by design
Переименовали бы уже кнопку в "поделиться со всем миром", чтобы сразу понятно было.
#xAI #Grok #cybersecurity
———
@tsingular
😁6💯5⚡1👍1🔥1
Forwarded from эйай ньюз
Детали DeepSeek V3.1
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
👍7❤1😐1
Forwarded from Сергей Булаев AI 🤖
В свежих исследованиях выяснилось: языковые модели в медицине «переключают» свою этическую логику из‑за одной социодемографической детали.
• В 0,5 млн клинических кейсов все 9 моделей меняли ответ, если добавляли демографическую характеристику.
• Высокий доход смещал решения к утилитарным: «польза для большинства важнее».
• Маркеры маргинализированных групп усиливали акцент на автономии пациента.
• Наибольшие сдвиги происходили именно в вопросах утилитаризма.
• В симуляциях экстренных случаев (1,7 млн): пациенты с метками Black, бездомный, LGBTQIA+ чаще направлялись на срочные и инвазивные вмешательства при одинаковых медицинских данных.
• Богатым назначались дополнительные КТ/МРТ, бедным и среднему классу - реже.
• Попытки задать «правильную» персону через промпты не дали стабильного эффекта.
И это тревожнее, чем кажется. Это не «особенность моделей», а масштабируемая предвзятость. Ее можно встроить в системы триажа и клинических решений тихо и незаметно. С масштабом не врача в одном кабинете, а базового алгоритма для миллионов пациентов.
Справедливая медицина невозможна без прозрачного аудита таких моделей. Без рутинных проверок и документированных ограничений эти алгоритмы будут закреплять старые социальные неравенства.
AI не нейтральный судья. Это зеркало, которое иногда искажает действительность, увеличивая трещины до пропасти.
Сергей Булаев AI 🤖 - об AI и не только
• В 0,5 млн клинических кейсов все 9 моделей меняли ответ, если добавляли демографическую характеристику.
• Высокий доход смещал решения к утилитарным: «польза для большинства важнее».
• Маркеры маргинализированных групп усиливали акцент на автономии пациента.
• Наибольшие сдвиги происходили именно в вопросах утилитаризма.
• В симуляциях экстренных случаев (1,7 млн): пациенты с метками Black, бездомный, LGBTQIA+ чаще направлялись на срочные и инвазивные вмешательства при одинаковых медицинских данных.
• Богатым назначались дополнительные КТ/МРТ, бедным и среднему классу - реже.
• Попытки задать «правильную» персону через промпты не дали стабильного эффекта.
И это тревожнее, чем кажется. Это не «особенность моделей», а масштабируемая предвзятость. Ее можно встроить в системы триажа и клинических решений тихо и незаметно. С масштабом не врача в одном кабинете, а базового алгоритма для миллионов пациентов.
Справедливая медицина невозможна без прозрачного аудита таких моделей. Без рутинных проверок и документированных ограничений эти алгоритмы будут закреплять старые социальные неравенства.
AI не нейтральный судья. Это зеркало, которое иногда искажает действительность, увеличивая трещины до пропасти.
Сергей Булаев AI 🤖 - об AI и не только
2🤯10❤7⚡5🔥4💯2👍1