Forwarded from эйай ньюз
Детали DeepSeek V3.1
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
Самый сильный прирост заметен в агентных бенчах и использованию инструментов. Это гибридная модель, где можно включать и выключать ризонинг. Инстракт режим модели заметно вырос по бенчам по сравнению . А вот прироста у ризонинг режима по сравнению с R1-0528 нет, но ризонинг теперь использует заметно меньше токенов при том же качестве.
Обновили и Base модель для лучшей работы с длинным контекстом — в 10 раз увеличили context extension с 32к токенов и в 3 раза с 128к токенов. Кроме этого модель тренировали в формате совместимом с mxfp8 и mxfp4, которые добавили в Blackwell.
С этим релизом обновили и официальное API — добавили режим совместимый с API Anthropic, так что туда теперь можно подключаться с Claude Code. Длину контекста в API расширили до 128к, плюс начали тестить улучшения для function calling.
Кроме этого с 5 сентября (16:00 UTC) в официальном API будет действовать новый прайсинг — убирают ночные (по китайскому времени) скидки и разницу в прайсинге между ризонинг и инстракт режимами. Новая цена за аутпут — $1.68 за миллион токенов (сейчас $1.1 за инстракт режим и $2.19 за ризонинг). Инпут токены стоят $0.07/миллион если они уже есть в кэше и $0.56 при промахе мимо кэша.
Модель уже с позавчера доступна в чате и API, а веса опубликованы на Huggingface.
@ai_newz
🔥6❤2👍1
Исследователи из Anthropic представили эксперимент по снижению рисков от ИИ-моделей за счёт фильтрации обучающих данных. Цель — убрать вредную информацию о химическом, биологическом, радиологическом и ядерном оружии ещё на этапе предобучения, а не пытаться “разучить” модель постфактум.
Для отбора использовался классификатор, который определял потенциально опасные документы. На их основе была построена отфильтрованная версия датасета, и модели обучались заново. В результате точность моделей на тестах по оружию снизилась на 33% относительно случайного базового уровня, при этом полезные способности (MMLU, код, проза, математика) сохранились без заметных потерь.
Авторы протестировали несколько подходов к классификации: тонкую настройку на размеченных данных, использование промптов к LLM, измерение перплексии маленькой моделью, FastText-классификатор и поиск по спискам опасных сущностей. Лучший баланс точности и эффективности показал тюненый классификатор.
Результаты показали, что фильтрация позволяет избирательно снижать вредные способности без ущерба для полезных. Такой подход может применяться не только к темам оружия, но и к другим рискам — например, к текстам про стратегии обмана, саботажа или reward hacking в ИИ-системах.
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🤔4❤3🦄2👻1
7 августа OpenAI выкатили GPT-5 — «самую умную модель», «единая система», «думает глубже» и всё такое. Но первые дни прошли под лозунгом «верните 4o»: пользователи массово жаловались на холодный тон, короткие и резкие ответы и общее ощущение «канцелярской секретарши, а не собеседника». OpenAI публично признали, что старт «получился неровным», а GPT-4o вернули в выбор моделей для платных пользователей.
Что пошло не так с «личностью» и почему ощущение «жёсткости» вообще возникло?
OpenAI ещё в 2024–2025 формализовали «как модель должна себя вести»: полезность, честность, предсказуемость, осторожность с чувствительными темами. Такой каркас задаёт поведение ближе к «редактору/ассистенту», чем к «дружелюбному болтуну». В GPT-5 это ощущается сильнее - он чаще признаёт незнание, реже фантазирует и избегает эмоционального напора.
Отдельная волна — истории людей, у которых с обновлением «исчез» знакомый эмоциональный паттерн общения: от творческого партнёрства до романтизированных сценариев. OpenAI, получив обратную связь, оперативно вернули 4o в список моделей и признали, что недооценили эмоциональную сторону перехода. Это подтверждают крупные медиа-разборы и репортажи о реакции сообществ.
В первые дни сломался автоматический свитчер моделей — из-за него GPT-5 «казался заметно глупее», признал Альтман. На фоне уже холодного тона это только подкрутило ощущение «механистичности» и чужеродности.
Что OpenAI уже делает (и что, судя по заявлениям, будет делать дальше)
После шквала отзывов 4o снова доступен платным пользователям в модель-пикере. Это смягчило переход и дало людям возможность остаться с «привычным голосом». Публично обещали больше не убирать любимые модели внезапно.
В релиз-нотах ChatGPT зафиксировали обновление: дефолт стал «теплее и более знакомым», при этом без роста угодничества
Через «Customize ChatGPT» можно выбирать пресеты личности; в командных версиях — проектная память и единые настройки стиля. В перспективе это путь к «под себя», а не к «одному холодному дефолту для всех».
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👏3🤔3👻2
Гениальный бизнес-кейс стартапа Poke.com
Чтобы получить доступ к сервису, нужно пообщаться с ботом о целях использования. После допроса ллмка решает, какую цену за подписку ты достоин платить😳
Кому-то бот ставит счёт на 119$, мне выставил на 49$. Если поныть, можно выбить цену в 20$, которая вроде бы является внутренними "лимитом".
Очень странный онбординг, но в этом что-то есть
@hikonon
Чтобы получить доступ к сервису, нужно пообщаться с ботом о целях использования. После допроса ллмка решает, какую цену за подписку ты достоин платить
Кому-то бот ставит счёт на 119$, мне выставил на 49$. Если поныть, можно выбить цену в 20$, которая вроде бы является внутренними "лимитом".
Очень странный онбординг, но в этом что-то есть
@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2👎2😁1🤔1🥴1🗿1
Краткий пересказ эссе Дарио Амодея, CEO Anthropic
Дарио Амодеи опубликовал большое эссе о рисках мощного ИИ.
По его оценке, через 1-2 года может появиться ИИ умнее любого человека во всех областях. Это создаёт пять категорий угроз.
Первая — автономные риски. ИИ непредсказуем, уже демонстрирует обман, шантаж и манипуляции в экспериментах. Не потому что «неизбежно станет злым», а потому что обучение — это скорее эксперимент, чем строгая инженерия, и многое может пойти не так.
Вторая — биотерроризм. ИИ может провести любого человека через создание биооружия шаг за шагом. Раньше способность и желание убивать массово редко совпадали в одном человеке. Теперь нестабильный человек получит возможности доктора вирусологии.
Третья — авторитаризм. Автономные дроны, тотальная слежка, персонализированная пропаганда. Главная угроза — КНР, но и демократии могут злоупотреблять этими инструментами. Амодеи прямо называет продажу чипов Китаю безумием.
Четвёртая — экономика. ИИ может вытеснить 50% junior позиций офисных рабочих за 1-5 лет. Автоматизация затрагивает все когнитивные способности сразу, продвигается снизу вверх по уровню квалификации.
Пятая — неизвестные последствия прогресса. Радикальные изменения биологии человека, психологическая зависимость от ИИ, потеря смысла жизни.
Что делать? Anthropic разрабатывает «конституцию» для Claude — своеобразное описание характера и ценностей. Инвестирует в интерпретируемость — возможность заглянуть внутрь модели. Ставит классификаторы против биоугроз, которые стоят 5% вычислений. Поддерживает умеренное регулирование и экспортные ограничения.
Остановить развитие ИИ невозможно, можно лишь выиграть время через контроль чипов и использовать его для более аккуратной разработки.
Амодеи верит, что человечество способно пройти это испытание, но нужно перестать делать вид, что ничего не происходит.
@hikonon
Дарио Амодеи опубликовал большое эссе о рисках мощного ИИ.
По его оценке, через 1-2 года может появиться ИИ умнее любого человека во всех областях. Это создаёт пять категорий угроз.
Первая — автономные риски. ИИ непредсказуем, уже демонстрирует обман, шантаж и манипуляции в экспериментах. Не потому что «неизбежно станет злым», а потому что обучение — это скорее эксперимент, чем строгая инженерия, и многое может пойти не так.
Вторая — биотерроризм. ИИ может провести любого человека через создание биооружия шаг за шагом. Раньше способность и желание убивать массово редко совпадали в одном человеке. Теперь нестабильный человек получит возможности доктора вирусологии.
Третья — авторитаризм. Автономные дроны, тотальная слежка, персонализированная пропаганда. Главная угроза — КНР, но и демократии могут злоупотреблять этими инструментами. Амодеи прямо называет продажу чипов Китаю безумием.
Четвёртая — экономика. ИИ может вытеснить 50% junior позиций офисных рабочих за 1-5 лет. Автоматизация затрагивает все когнитивные способности сразу, продвигается снизу вверх по уровню квалификации.
Пятая — неизвестные последствия прогресса. Радикальные изменения биологии человека, психологическая зависимость от ИИ, потеря смысла жизни.
Что делать? Anthropic разрабатывает «конституцию» для Claude — своеобразное описание характера и ценностей. Инвестирует в интерпретируемость — возможность заглянуть внутрь модели. Ставит классификаторы против биоугроз, которые стоят 5% вычислений. Поддерживает умеренное регулирование и экспортные ограничения.
Остановить развитие ИИ невозможно, можно лишь выиграть время через контроль чипов и использовать его для более аккуратной разработки.
Амодеи верит, что человечество способно пройти это испытание, но нужно перестать делать вид, что ничего не происходит.
@hikonon
🤔4🔥3🥴2❤1
Исследователи из OpenSourceMalware проверили ClawHub — официальный каталог расширений для AI-ассистента ClawdBot. Обнаружили 14 заражённых пакетов. Вредоносный код находился в открытом виде, в первых строках документации.
Все пакеты выглядят как инструменты для торговли криптовалютой — Polymarket, ByBit, Axiom. В инструкции по установке пользователя просят скачать «программу для аутентификации» или выполнить команду. После этого на компьютер устанавливается программа, которая крадёт пароли, ключи от криптокошельков и данные для входа на биржи.
ClawHub не проверяет публикуемые расширения — ни автоматически, ни вручную.
На момент публикации заражённые пакеты всё ещё доступны для скачивания.
Подробный разбор: opensourcemalware.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3🤔2😱2
16 копий Claude написали C-компилятор с нуля
Исследователь Anthropic Николас Карлини запустил 16 параллельных AI-агентов на базе новой Claude Opus 4.6 — и поставил перед ними задачу: написать компилятор языка C на Rust с нуля, без зависимостей, без доступа к интернету.
Через две недели и ~2000 сессий агенты выдали 100 000 строк кода. Компилятор собирает ядро Linux 6.9 на трёх архитектурах (x86, ARM, RISC-V), а также SQLite, Redis, FFmpeg, QEMU и Doom.
Каждый агент работает в отдельном Docker-контейнере. Общий git-репозиторий используется для синхронизации. Оркестратора нет — агенты сами решают, какую задачу взять, фиксируя выбор через файлы-локи. Если два агента берутся за одно и то же — git заставляет второго выбрать другое.
Стоило это около $20 000 за API — 2 миллиарда входных и 140 миллионов выходных токенов. Карлини отмечает: это дорого даже по меркам самых дорогих подписок Claude, но несопоставимо дешевле, чем нанять команду разработчиков для аналогичной работы.
Что пошло не так: один агент случайно убил собственный процесс командой pkill -9 bash. При компиляции ядра Linux все 16 агентов одновременно находили один и тот же баг и перезаписывали исправления друг друга — пришлось придумывать схему разделения задач.
Компилятор не умеет генерировать 16-битный x86-код (для этого вызывается GCC). Генерируемый код медленнее, чем у GCC даже без оптимизаций. Качество Rust-кода — среднее. Новые фичи регулярно ломали уже работающий функционал.
Карлини подчёркивает: он не ожидал, что подобное станет возможным так рано в 2026 году. Но сам же признаёт — мысль о том, что разработчики будут деплоить код, который ни разу лично не проверяли, вызывает у него тревогу.
Исходный код компилятора опубликован в открытом доступе.
@hikonon
Исследователь Anthropic Николас Карлини запустил 16 параллельных AI-агентов на базе новой Claude Opus 4.6 — и поставил перед ними задачу: написать компилятор языка C на Rust с нуля, без зависимостей, без доступа к интернету.
Через две недели и ~2000 сессий агенты выдали 100 000 строк кода. Компилятор собирает ядро Linux 6.9 на трёх архитектурах (x86, ARM, RISC-V), а также SQLite, Redis, FFmpeg, QEMU и Doom.
Каждый агент работает в отдельном Docker-контейнере. Общий git-репозиторий используется для синхронизации. Оркестратора нет — агенты сами решают, какую задачу взять, фиксируя выбор через файлы-локи. Если два агента берутся за одно и то же — git заставляет второго выбрать другое.
Стоило это около $20 000 за API — 2 миллиарда входных и 140 миллионов выходных токенов. Карлини отмечает: это дорого даже по меркам самых дорогих подписок Claude, но несопоставимо дешевле, чем нанять команду разработчиков для аналогичной работы.
Что пошло не так: один агент случайно убил собственный процесс командой pkill -9 bash. При компиляции ядра Linux все 16 агентов одновременно находили один и тот же баг и перезаписывали исправления друг друга — пришлось придумывать схему разделения задач.
Компилятор не умеет генерировать 16-битный x86-код (для этого вызывается GCC). Генерируемый код медленнее, чем у GCC даже без оптимизаций. Качество Rust-кода — среднее. Новые фичи регулярно ломали уже работающий функционал.
Карлини подчёркивает: он не ожидал, что подобное станет возможным так рано в 2026 году. Но сам же признаёт — мысль о том, что разработчики будут деплоить код, который ни разу лично не проверяли, вызывает у него тревогу.
Исходный код компилятора опубликован в открытом доступе.
@hikonon
🔥5❤1🤔1