🎯 GPT-5 взломал DEF CON Finals CTF - впервые LLM автономно решила задачу уровня "Олимпиады хакеров"
Использование GPT-5 в связке с IDA MCP позволило за несколько часов с минимальным участием человека получить полный эксплоит + патч.
Как это работало:
GPT-5 через MCP анализировал дизассемблированный код в IDA Pro
Итеративно самостоятельно разбирался: код → гипотеза → эксплоит → анализ результата → обновление знаний
Самостоятельно обнаружил, что сервер хеширует флаг через MD5
Нашел уязвимость, создал эксплоит из 10 байт, который читает /flag через уязвимость в комментариях
Идеальный шторм:
✅ GPT-5 с активным tool-calling и MCP
✅ Частично проанализированный бинарник
✅ Прямолинейная логика без анти-реверс трюков
✅ Простая эксплуатация (всего 5 байт "/flag")
После этого команда бросила ручной реверс и пересела на LLM. Но больше ничего серьезного автоматически решить не удалось.
Итог: CTF меняется. нужны анти-LLM техники.
Эра "vibe-реверса" началась 🤖
Вообще, MCP для IDA,- шикарная идея.
Нужен MCP для Art-Money :)
#CTF #GPT5 #MCP #реверс #DEFCON #cybersecurity
———
@tsingular
Использование GPT-5 в связке с IDA MCP позволило за несколько часов с минимальным участием человека получить полный эксплоит + патч.
Как это работало:
GPT-5 через MCP анализировал дизассемблированный код в IDA Pro
Итеративно самостоятельно разбирался: код → гипотеза → эксплоит → анализ результата → обновление знаний
Самостоятельно обнаружил, что сервер хеширует флаг через MD5
Нашел уязвимость, создал эксплоит из 10 байт, который читает /flag через уязвимость в комментариях
Идеальный шторм:
✅ GPT-5 с активным tool-calling и MCP
✅ Частично проанализированный бинарник
✅ Прямолинейная логика без анти-реверс трюков
✅ Простая эксплуатация (всего 5 байт "/flag")
После этого команда бросила ручной реверс и пересела на LLM. Но больше ничего серьезного автоматически решить не удалось.
Итог: CTF меняется. нужны анти-LLM техники.
Эра "vibe-реверса" началась 🤖
Вообще, MCP для IDA,- шикарная идея.
Нужен MCP для Art-Money :)
#CTF #GPT5 #MCP #реверс #DEFCON #cybersecurity
———
@tsingular
🔥6⚡3👀2👾2❤1 1
Beelink выпустил конкурента Mac Studio за $1985
GTR9 Pro получил AMD Ryzen AI Max+ 395 с производительностью 126 TOPS — это в 12 раз быстрее Intel Lunar Lake в ИИ-задачах.
Включает 128GB RAM и два порта 10GbE для высокоскоростных сетевых подключений. Компактный корпус при мощности 140W работает практически бесшумно.
Процессор способен запускать модели до 70 миллиардов параметров локально. Позиционируется как Windows-альтернатива Mac Studio с акцентом на ИИ-вычисления.
#Beelink #AMD #miniPC
------
@tsingular
GTR9 Pro получил AMD Ryzen AI Max+ 395 с производительностью 126 TOPS — это в 12 раз быстрее Intel Lunar Lake в ИИ-задачах.
Включает 128GB RAM и два порта 10GbE для высокоскоростных сетевых подключений. Компактный корпус при мощности 140W работает практически бесшумно.
Процессор способен запускать модели до 70 миллиардов параметров локально. Позиционируется как Windows-альтернатива Mac Studio с акцентом на ИИ-вычисления.
#Beelink #AMD #miniPC
------
@tsingular
🔥11⚡4🆒2❤1👨💻1
Forwarded from LLM под капотом
Бенчмарк новых моделей: Grok, Opus 4.1, Mistral Medium 3.1
Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.
Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):
- Fireworks
- Cerebras
- Groq
Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).
NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.
Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.
Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.
Ваш, @llm_under_hood 🤗
Elon Musk что-то делает правильно. Мало того, что у них Grok-4 работает с нормальным Structured Outputs, так Grok-4 по очкам заняла первое место. Ровно столько же очков у GPT-5 (medium reasoning). Дорогие, но умные.
Кстати, на данный момент поддержка Structured Outputs (которая нужна для стабильной работы SGR) появилась у большего числа независимых провайдеров (все они доступны через OpenRouter):
- Fireworks
- Cerebras
- Groq
Это вдобавок к крупным провайдерам - OpenAI (+Azure), Mistral, Google (ограниченные Structured Outputs).
NB: GPT-OSS модели OpenAI из-за нового Harmony формата пока со Structured Outputs стабильно не работают - ни у провайдеров, ни в ollama. Нужно подождать.
Anthropic Claude - пока продолжают болтаться в аутсайдерах на промышленных задачах. Компания молчит по-партизански про поддержку constrained decoding/Structured outputs, а Opus 4.1 по очкам на бизнес-бенчмарке с использованием SGR стал чуть хуже, чем Opus 4.0. 22 место.
Mistral Medium 3.1 - тоже без прорывов. По очкам чуть хуже, чем Mistral Medium 3.0. 38 место.
Ваш, @llm_under_hood 🤗
✍6
IBM выпустил коллекцию своих MCP
IBM опубликовал библиотеку из девяти MCP серверов для подключения языковых моделей к облачным инструментам.
В коллекции серверы для Code Engine, VPC, документации, Decision Server Runtime, Instana мониторинга, IBM MQ и Storage Insights.
Особенно интересно посмотреть Document Retrieval сервер — позволяет запрашивать библиотеки документов из watsonx.data естественным языком.
MCP все больше проникает в Enterprise.
По-сути любое корпоративное приложение уже должно идти с MCP Сервером в комплекте.
А в корпорациях должны появляться MCP proxy или даже, как аналог Exchange для почты варианты MCP Gate решений.
У нас кстати уже стали появляться подобные MCP гейты, например вот: https://mcpgate.ru/
#IBM #MCP #watsonx
------
@tsingular
IBM опубликовал библиотеку из девяти MCP серверов для подключения языковых моделей к облачным инструментам.
В коллекции серверы для Code Engine, VPC, документации, Decision Server Runtime, Instana мониторинга, IBM MQ и Storage Insights.
Особенно интересно посмотреть Document Retrieval сервер — позволяет запрашивать библиотеки документов из watsonx.data естественным языком.
MCP все больше проникает в Enterprise.
По-сути любое корпоративное приложение уже должно идти с MCP Сервером в комплекте.
А в корпорациях должны появляться MCP proxy или даже, как аналог Exchange для почты варианты MCP Gate решений.
У нас кстати уже стали появляться подобные MCP гейты, например вот: https://mcpgate.ru/
#IBM #MCP #watsonx
------
@tsingular
✍4⚡2👍1
Forwarded from GigaDev — разработка GigaChat
InterSpeech 2025 — презентуем GigaAM
Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥
📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения
📖 arXiv: https://arxiv.org/abs/2506.01192
👩💻 GitHub: https://github.com/salute-developers/gigaam
🐶 GitVerse: https://gitverse.ru/GigaTeam/GigaAM
✨ Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Сегодня мы представили нашу работу GigaAM: Efficient Self-Supervised Learner for Speech Recognition на сцене InterSpeech 2025 🔥
📌 Напомним, в статье мы предложили новый подход к self-supervised предобучению для распознавания речи (HuBERT-CTC) и показали:
• Лучший WER среди open-source моделей на русском языке (−50% к Whisper-large-v3)
• Подробные ablation studies: layers probing, data & model scaling
• Возможность дообучать модели под streaming/full-context режимы без повторного предобучения
✨ Для нас это очень важный шаг — GigaAM стал частью дискуссии на крупнейшей конференции по обработке речи в мире!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥4❤1
SAIL Framework: Практическое руководство по безопасности ИИ
Pillar Security представила SAIL Framework - комплексный подход к защите ИИ-систем на всех этапах разработки.
Фреймворк выявляет более 70 уникальных рисков специфических для искусственного интеллекта.
Основной фокус на угрозах, которые обходят традиционные средства защиты:
- prompt-инъекции в языковые модели
- кражи обученных нейросетей
- уязвимости в цепочках поставок ИИ-компонентов
- вредоносные вставки в промпты
SAIL объединяет команды разработки, MLOps, безопасности и управления под единой методологией.
Удобно, наглядно. В дополнение к OWASP GENAI Security
#SAIL #cybersecurity #framework
------
@tsingular
Pillar Security представила SAIL Framework - комплексный подход к защите ИИ-систем на всех этапах разработки.
Фреймворк выявляет более 70 уникальных рисков специфических для искусственного интеллекта.
Основной фокус на угрозах, которые обходят традиционные средства защиты:
- prompt-инъекции в языковые модели
- кражи обученных нейросетей
- уязвимости в цепочках поставок ИИ-компонентов
- вредоносные вставки в промпты
SAIL объединяет команды разработки, MLOps, безопасности и управления под единой методологией.
Удобно, наглядно. В дополнение к OWASP GENAI Security
#SAIL #cybersecurity #framework
------
@tsingular
✍4
This media is not supported in your browser
VIEW IN TELEGRAM
Microsoft добавил Copilot AI в Excel
Microsoft встроил Copilot AI в Excel для автоматического заполнения ячеек таблиц.
ИИ понимает запросы на человеческом и помогает создавать формулы, добавлять столбцы, генерировать инсайты из данных. Использует инфраструктуру Microsoft 365 для обработки запросов.
70% пользователей отметили рост продуктивности, 68% — улучшение качества работы, 90% планируют использовать дальше.
Система приоритизирует явные подтверждения вместо догадок при неоднозначных данных.
Microsoft разрабатывает концепции "быстрого" и "медленного" ИИ для разных вычислительных потребностей.
Скрепыш вырос и наконец-то полезен :)
Забавно, но такие плагины для Google Таблиц писали еще 2 года назад.
#Excel #Copilot #Microsoft
------
@tsingular
Microsoft встроил Copilot AI в Excel для автоматического заполнения ячеек таблиц.
ИИ понимает запросы на человеческом и помогает создавать формулы, добавлять столбцы, генерировать инсайты из данных. Использует инфраструктуру Microsoft 365 для обработки запросов.
70% пользователей отметили рост продуктивности, 68% — улучшение качества работы, 90% планируют использовать дальше.
Система приоритизирует явные подтверждения вместо догадок при неоднозначных данных.
Microsoft разрабатывает концепции "быстрого" и "медленного" ИИ для разных вычислительных потребностей.
Скрепыш вырос и наконец-то полезен :)
Забавно, но такие плагины для Google Таблиц писали еще 2 года назад.
#Excel #Copilot #Microsoft
------
@tsingular
👍14🤔3❤1
Ничего не понятно, но очень интересно :)
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#DeepSeek #Китай
———
@tsingular
https://huggingface.co/deepseek-ai/DeepSeek-V3.1-Base
#DeepSeek #Китай
———
@tsingular
😁10❤2
Forwarded from Art, Design & AI (Lena Starkova)
This media is not supported in your browser
VIEW IN TELEGRAM
Runway только что объявили – теперь в Chat Mode доступны сторонние модели!
И среди первых интеграций Veo 3 от Google:
• Image-to-Video
• Text-to-Video
• Поддержка генерации аудио (!).
То есть можно прямо в одном чате миксовать Runway и Veo, комбинировать пайплайны и сразу видеть результат в side-by-side фиде. Удобно: чатишься и параллельно гоняешь разные генерации, не теряя контекста.
Ещё апгрейды:
• Gen-4 Image Turbo теперь доступен всем в вебе – генерации с рефами за ≤10 секунд, в 2.5–4 раза дешевле обычных. Качество держит 93.3% Dreambench++ (т.е. почти без потерь).
✨ Но для меня тут главный хайлайт именно Veo. Похоже, мы идём к тому, что Runway превращается в универсальный хаб, где можно подключать топовые модели и собирать собственный pipeline.
Арт, дизайн и нейросети
@art_design_ai
#runway@art_design_ai
#veo@art_design_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
✍4⚡2👍2🔥2
Компании увлеклись ИИ и облаками, забив на кибербезопасность
Бизнес массово внедряет искусственный интеллект и облачные решения, но забывает про защиту. Доля компаний без планов по ИИ упала с 13% до менее 0,5% за полтора года.
Облачные атаки выросли на 136% в первой половине 2025 года. Только 14% организаций готовы к постквантовой криптографии, хотя 71% признают уязвимость перед квантовыми угрозами.
Новые риски включают отравление данных для обучения, уязвимости в цепочке поставок ИИ и инъекции промптов. При этом лишь 10% организаций считают безопасность ИИ приоритетом.
Ничего нового, в принципе: сначала внедряем, потом думаем о безопасности. Квантовые компьютеры уже на пороге, а мы всё ещё разбираемся с промптами.
#cybersecurity #cloud #quantum
------
@tsingular
Бизнес массово внедряет искусственный интеллект и облачные решения, но забывает про защиту. Доля компаний без планов по ИИ упала с 13% до менее 0,5% за полтора года.
Облачные атаки выросли на 136% в первой половине 2025 года. Только 14% организаций готовы к постквантовой криптографии, хотя 71% признают уязвимость перед квантовыми угрозами.
Новые риски включают отравление данных для обучения, уязвимости в цепочке поставок ИИ и инъекции промптов. При этом лишь 10% организаций считают безопасность ИИ приоритетом.
Ничего нового, в принципе: сначала внедряем, потом думаем о безопасности. Квантовые компьютеры уже на пороге, а мы всё ещё разбираемся с промптами.
#cybersecurity #cloud #quantum
------
@tsingular
⚡3👍3👀3
AI Dev 25: Andrew Ng привозит конференцию в Нью-Йорк
DeepLearning.AI организует AI Dev 25 — крупную конференцию для разработчиков на Восточном побережье США.
Эндрю Нг лично возглавляет событие, которое станет центром притяжения для ИИ-комьюнити региона.
Конференция охватит технические новинки, этические вопросы разработки и алгоритмическую справедливость. Особый акцент на практические решения для бизнеса.
Интересная конференция. Не забыть записи презентаций посмотреть.
Записываем в блокнотик.
#DeepLearningAI #AndrewNg #conference
------
@tsingular
DeepLearning.AI организует AI Dev 25 — крупную конференцию для разработчиков на Восточном побережье США.
Эндрю Нг лично возглавляет событие, которое станет центром притяжения для ИИ-комьюнити региона.
Конференция охватит технические новинки, этические вопросы разработки и алгоритмическую справедливость. Особый акцент на практические решения для бизнеса.
Интересная конференция. Не забыть записи презентаций посмотреть.
Записываем в блокнотик.
#DeepLearningAI #AndrewNg #conference
------
@tsingular
✍4⚡1
1997 г.
Удивительно, как потребление ИИ все-таки похоже на Интернет.
Тоже ведь сейчас не у всех "безлимит" на самые мощные модели.
Выдают по горстке токенов за сотни долларов.
Через лет 5-7 все это будет вспоминаться с улыбкой.
Даёшь квантовый ИИ безлимит в каждый смартфон!
#история
———
@tsingular
Удивительно, как потребление ИИ все-таки похоже на Интернет.
Тоже ведь сейчас не у всех "безлимит" на самые мощные модели.
Выдают по горстке токенов за сотни долларов.
Через лет 5-7 все это будет вспоминаться с улыбкой.
Даёшь квантовый ИИ безлимит в каждый смартфон!
#история
———
@tsingular
👍20💯7 5🔥2
Forwarded from Неискусственный интеллект (Ruslan Dz)
ИИ до 2030 года?
Бегло глянули план на 50+ страниц о том, как будут развивать (ну и контролировать) искусственный интеллект в России.
⚡️ Для начала накинем хайпа.
➖ В медицине будут отдельные тарифы ОМС за услуги с ИИ. В школах и вузах ИИ можно использовать как помощника, но не для списывания на экзаменах. В банках запретят дискриминацию через алгоритмы — например, отказывать в кредите из-за национальности.
➖ Предлагают внедрить "машиночитаемое право". То есть "обеспечить «встраивание» норм права в работу информационных систем, предоставляющих различные сервисы в автоматическом режиме, а также обменивающихся данными без участия человека".
➖ Запрет на "очеловечивание" роботов:"Недопущение антропоморфизации технологий искусственного интеллекта".
➖ Обсуждают, давать ли ИИ права — от мягкого варианта (дать ИИ статус как у ООО) до радикального (приравнять к человеку): "Ряд ученых выступают за создание для роботов правового статуса «электронного» или «виртуального лица»... однако уже появляются предложения приравнять правовой статус искусственного интеллекта к статусу человека исходя из их тождественности"".
Теперь о сути. Концепция выбирает гибридный подход — сочетание госконтроля с саморегулированием, есть ссылки на Кодекс этики ИИ (больше 900 компаний подписали!) и, внимание, Декларацию об ответственном экспорте технологий ИИ и ПО на их основе (лично я о ней даже не слышал). Это, с одной стороны, радует. С другой, пытаться регулировать технологии, которые меняются каждый месяц, пусть даже через "Создание гибких правовых механизмов, способных оперативно реагировать на технологические изменения в сфере искусственного интеллекта", которые немного (раз в 10) дольше — очень тонкий путь.
Документ делит ИИ на два типа: обычный (решает конкретные задачи) и универсальный (умеет всё). Главная идея — создать "доверенный ИИ" для важных систем. Правда, что это такое, толком не объясняют.
Уже запущено 16 экспериментов с ИИ. Участники обязаны страховать свою ответственность. Также напоминают, что теперь можно использовать обезличенные данные для обучения ИИ, но только в госсистемах.
ℹ️ Авторы отмечают, что ИИ никогда не должен принимать решения о жизни и смерти. За всё отвечает и продолжит человек (интересно, будут ли новые нормы в ГК и, что важнее, в УК). Как мы все не помним, в ЭПР при причинении вреда технологиями ИИ должна создаваться специальная комиссия. Она изучит обстоятельства и даст заключение о том, кто виноват.
Системы не могут делать "нравственный выбор" — только люди.
Ну и отдельно стоит отметить, что обещают создать кучу новых структур — консорциумы, реестры, комиссии. Это обычно означает бюрократию. Планы продавать российский ИИ за границу выглядят довольно амбициозно с учетом успехов США и Китая.
Итог: Хотят как лучше, но получится ли — большой вопрос.
🔤 🔤 Не можем не поделиться с вами самим документом (в комментах). Спасибо нашему собеседнику в Правительстве. От метаданных почистили, если что.
@anti_agi
Бегло глянули план на 50+ страниц о том, как будут развивать (ну и контролировать) искусственный интеллект в России.
Теперь о сути. Концепция выбирает гибридный подход — сочетание госконтроля с саморегулированием, есть ссылки на Кодекс этики ИИ (больше 900 компаний подписали!) и, внимание, Декларацию об ответственном экспорте технологий ИИ и ПО на их основе (лично я о ней даже не слышал). Это, с одной стороны, радует. С другой, пытаться регулировать технологии, которые меняются каждый месяц, пусть даже через "Создание гибких правовых механизмов, способных оперативно реагировать на технологические изменения в сфере искусственного интеллекта", которые немного (раз в 10) дольше — очень тонкий путь.
Документ делит ИИ на два типа: обычный (решает конкретные задачи) и универсальный (умеет всё). Главная идея — создать "доверенный ИИ" для важных систем. Правда, что это такое, толком не объясняют.
Уже запущено 16 экспериментов с ИИ. Участники обязаны страховать свою ответственность. Также напоминают, что теперь можно использовать обезличенные данные для обучения ИИ, но только в госсистемах.
Системы не могут делать "нравственный выбор" — только люди.
Ну и отдельно стоит отметить, что обещают создать кучу новых структур — консорциумы, реестры, комиссии. Это обычно означает бюрократию. Планы продавать российский ИИ за границу выглядят довольно амбициозно с учетом успехов США и Китая.
Итог: Хотят как лучше, но получится ли — большой вопрос.
@anti_agi
Please open Telegram to view this post
VIEW IN TELEGRAM
✍14👍7❤2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Seeing Theory - визуализация статистики от Brown University
Интерактивный проект Brown University превращает сложные статистические концепции в понятные визуализации.
Платформа решает главную проблему обучения - когнитивные ограничения восприятия абстрактных математических идей. Исследования показывают, что визуальные инструменты значительно повышают понимание сложных теоретических концепций.
Однако есть нюанс - визуализация данных несёт риски вычислительных и когнитивных искажений. Особенно на этапах сбора данных, моделирования и внедрения.
Проект балансирует между математической точностью и перцептивной доступностью через адаптивные фреймворки визуализации.
Математика наконец стала красивой. Теперь студенты смогут понять статистику, не заснув на лекции.
#visualization #statistics #education
------
@tsingular
Интерактивный проект Brown University превращает сложные статистические концепции в понятные визуализации.
Платформа решает главную проблему обучения - когнитивные ограничения восприятия абстрактных математических идей. Исследования показывают, что визуальные инструменты значительно повышают понимание сложных теоретических концепций.
Однако есть нюанс - визуализация данных несёт риски вычислительных и когнитивных искажений. Особенно на этапах сбора данных, моделирования и внедрения.
Проект балансирует между математической точностью и перцептивной доступностью через адаптивные фреймворки визуализации.
Математика наконец стала красивой. Теперь студенты смогут понять статистику, не заснув на лекции.
#visualization #statistics #education
------
@tsingular
✍5❤2⚡2🆒1
xAI сделала доступным для поиска сотни тысяч чатов пользователей Grok
В диалогах Грок, как только вы нажимаете кнопку "share/поделиться" ваш чат становится полностью доступен для индексации поисковыми системами.
Это совсем не очевидно для пользователя, ведь обычно ссылки отправляют знакомым или определенному кругу собеседников, а тут получается, что Google индексировал беседы, которые должны были остаться конфиденциальными.
В утечку попали разговоры которые содержат личные обсуждения, ключи, документы, таблицы и т.д.
Сначала OpenAI, а теперь и Grok.
Навайбкодили, получается.
Insecure by design
Переименовали бы уже кнопку в "поделиться со всем миром", чтобы сразу понятно было.
#xAI #Grok #cybersecurity
———
@tsingular
В диалогах Грок, как только вы нажимаете кнопку "share/поделиться" ваш чат становится полностью доступен для индексации поисковыми системами.
Это совсем не очевидно для пользователя, ведь обычно ссылки отправляют знакомым или определенному кругу собеседников, а тут получается, что Google индексировал беседы, которые должны были остаться конфиденциальными.
В утечку попали разговоры которые содержат личные обсуждения, ключи, документы, таблицы и т.д.
Сначала OpenAI, а теперь и Grok.
Навайбкодили, получается.
Insecure by design
Переименовали бы уже кнопку в "поделиться со всем миром", чтобы сразу понятно было.
#xAI #Grok #cybersecurity
———
@tsingular
😁6💯5⚡1👍1🔥1
Forwarded from эйай ньюз
Детали DeepSeek V3.1
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
👍7❤1😐1
Forwarded from Сергей Булаев AI 🤖
В свежих исследованиях выяснилось: языковые модели в медицине «переключают» свою этическую логику из‑за одной социодемографической детали.
• В 0,5 млн клинических кейсов все 9 моделей меняли ответ, если добавляли демографическую характеристику.
• Высокий доход смещал решения к утилитарным: «польза для большинства важнее».
• Маркеры маргинализированных групп усиливали акцент на автономии пациента.
• Наибольшие сдвиги происходили именно в вопросах утилитаризма.
• В симуляциях экстренных случаев (1,7 млн): пациенты с метками Black, бездомный, LGBTQIA+ чаще направлялись на срочные и инвазивные вмешательства при одинаковых медицинских данных.
• Богатым назначались дополнительные КТ/МРТ, бедным и среднему классу - реже.
• Попытки задать «правильную» персону через промпты не дали стабильного эффекта.
И это тревожнее, чем кажется. Это не «особенность моделей», а масштабируемая предвзятость. Ее можно встроить в системы триажа и клинических решений тихо и незаметно. С масштабом не врача в одном кабинете, а базового алгоритма для миллионов пациентов.
Справедливая медицина невозможна без прозрачного аудита таких моделей. Без рутинных проверок и документированных ограничений эти алгоритмы будут закреплять старые социальные неравенства.
AI не нейтральный судья. Это зеркало, которое иногда искажает действительность, увеличивая трещины до пропасти.
Сергей Булаев AI 🤖 - об AI и не только
• В 0,5 млн клинических кейсов все 9 моделей меняли ответ, если добавляли демографическую характеристику.
• Высокий доход смещал решения к утилитарным: «польза для большинства важнее».
• Маркеры маргинализированных групп усиливали акцент на автономии пациента.
• Наибольшие сдвиги происходили именно в вопросах утилитаризма.
• В симуляциях экстренных случаев (1,7 млн): пациенты с метками Black, бездомный, LGBTQIA+ чаще направлялись на срочные и инвазивные вмешательства при одинаковых медицинских данных.
• Богатым назначались дополнительные КТ/МРТ, бедным и среднему классу - реже.
• Попытки задать «правильную» персону через промпты не дали стабильного эффекта.
И это тревожнее, чем кажется. Это не «особенность моделей», а масштабируемая предвзятость. Ее можно встроить в системы триажа и клинических решений тихо и незаметно. С масштабом не врача в одном кабинете, а базового алгоритма для миллионов пациентов.
Справедливая медицина невозможна без прозрачного аудита таких моделей. Без рутинных проверок и документированных ограничений эти алгоритмы будут закреплять старые социальные неравенства.
AI не нейтральный судья. Это зеркало, которое иногда искажает действительность, увеличивая трещины до пропасти.
Сергей Булаев AI 🤖 - об AI и не только
2🤯10❤7⚡5🔥4💯2👍1
ИИ должен работать для людей, а не имитировать человека
Мустафа Сулейман предупреждает: разработка человекоподобного ИИ - ошибочный путь.
Вместо создания систем, имитирующих сознание, нужно фокусироваться на решении человеческих задач.
Ключевые принципы правильного подхода:
- приоритет человеческих потребностей над технической сложностью
- прозрачные механизмы контроля и управления
- ИИ как инструмент расширения возможностей человека, а не его замены
При этом ряд исследований показывают: человекоцентричный дизайн снижает долгосрочные затраты на разработку и повышает доверие пользователей.
Проблема в том, что рыночный спрос толкает компании к созданию систем человекоподобных по поведению. Т.е. как раз в сторону замены человека.
Звучит разумно, но попробуй объяснить это инвесторам, которые хотят видеть говорящего робота, а не скучный RPA скриптик.
#HumanCenteredAI #Suleyman #Ethics
------
@tsingular
Мустафа Сулейман предупреждает: разработка человекоподобного ИИ - ошибочный путь.
Вместо создания систем, имитирующих сознание, нужно фокусироваться на решении человеческих задач.
Ключевые принципы правильного подхода:
- приоритет человеческих потребностей над технической сложностью
- прозрачные механизмы контроля и управления
- ИИ как инструмент расширения возможностей человека, а не его замены
При этом ряд исследований показывают: человекоцентричный дизайн снижает долгосрочные затраты на разработку и повышает доверие пользователей.
Проблема в том, что рыночный спрос толкает компании к созданию систем человекоподобных по поведению. Т.е. как раз в сторону замены человека.
Звучит разумно, но попробуй объяснить это инвесторам, которые хотят видеть говорящего робота, а не скучный RPA скриптик.
#HumanCenteredAI #Suleyman #Ethics
------
@tsingular
✍6⚡4❤1👾1
мини-ПК EVO-T1 с процессором Ultra 9 285H под ИИ за $1К
Наткнулся на интересную железку.
GMK Tech представила компактный ПК на базе нового Intel Core Ultra 9 285H с интегрированным NPU для ИИ.
Если вы не можете купить M3 Ultra, например, или сервер с 5090 некуда ставить, то возможно такой вот мини вариант будет неплохим стартом.
Конечно, для промышленного использования под большую нагрузку не подойдет, но для разработки или как вариант для малых офисов, если нужно чтобы сетевые магазины или удаленные рабочие площадки, например, крутили нейронки локально, - вполне сойдет.
Qwen3 32B на такой машинке выдает 15 токенов в секунду.
Хватит для локальных небольших задач или можно на ночь поставить поработать над исследованием.
Обзор на iXBT
#Intel #MiniPC #NPU
———
@tsingular
Наткнулся на интересную железку.
GMK Tech представила компактный ПК на базе нового Intel Core Ultra 9 285H с интегрированным NPU для ИИ.
Если вы не можете купить M3 Ultra, например, или сервер с 5090 некуда ставить, то возможно такой вот мини вариант будет неплохим стартом.
Конечно, для промышленного использования под большую нагрузку не подойдет, но для разработки или как вариант для малых офисов, если нужно чтобы сетевые магазины или удаленные рабочие площадки, например, крутили нейронки локально, - вполне сойдет.
Qwen3 32B на такой машинке выдает 15 токенов в секунду.
Хватит для локальных небольших задач или можно на ночь поставить поработать над исследованием.
Обзор на iXBT
#Intel #MiniPC #NPU
———
@tsingular
✍13👍7❤4⚡1🔥1