Title: SIA: Self Improving AI with Harness & Weight Updates
В этой работе показали, что ИИ лучше улучшает сам себя, когда меняет не только обвязку вокруг агента, но и обновляет модель.
Проблема в том, что прогресс ИИ до сих пор сильно зависит от людей: они вручную правят промпты, инструменты, код, данные для обучения и веса модели.
Авторы предлагают SIA - цикл, где один ИИ наблюдает за работой task-agent, а затем улучшает либо его внешнюю настройку, либо саму модель.
Внешняя настройка -это промпты, инструменты, правила повторных попыток, парсинг ответа и прочая обвязка. Обновление весов - это изменение поведения модели на основе обратной связи по задаче.
Работает это так: агент пробует много ответов или программ, верификатор оценивает результат, а эти оценки превращаются в обучающий сигнал.
После этого система обновляет небольшой набор дополнительных весов LoRA. Это меняет поведение модели без полного переобучения.
Базовая модель почти не трогается, но LoRA-адаптер постепенно учится: такие ответы давали высокий reward, а такие проваливались.
Авторы проверили подход на трёх разных задачах: классификация обвинений в китайском праве, ускорение GPU kernel-кода и denoising single-cell RNA.
Комбинированная версия обошла вариант, где улучшали только обвязку: 70.1% на LawBench, более быстрый GPU-код, чем у предыдущего лучшего решения, и 0.289 на задаче denoising.
Интересный вывод: хорошая обвязка помогает агенту действовать лучше, но обновление весов помогает ему выучить паттерны задачи, которые одними промптами и инструментами не находятся.
arxiv. org/abs/2605.27276
В этой работе показали, что ИИ лучше улучшает сам себя, когда меняет не только обвязку вокруг агента, но и обновляет модель.
Проблема в том, что прогресс ИИ до сих пор сильно зависит от людей: они вручную правят промпты, инструменты, код, данные для обучения и веса модели.
Авторы предлагают SIA - цикл, где один ИИ наблюдает за работой task-agent, а затем улучшает либо его внешнюю настройку, либо саму модель.
Внешняя настройка -это промпты, инструменты, правила повторных попыток, парсинг ответа и прочая обвязка. Обновление весов - это изменение поведения модели на основе обратной связи по задаче.
Работает это так: агент пробует много ответов или программ, верификатор оценивает результат, а эти оценки превращаются в обучающий сигнал.
После этого система обновляет небольшой набор дополнительных весов LoRA. Это меняет поведение модели без полного переобучения.
Базовая модель почти не трогается, но LoRA-адаптер постепенно учится: такие ответы давали высокий reward, а такие проваливались.
Авторы проверили подход на трёх разных задачах: классификация обвинений в китайском праве, ускорение GPU kernel-кода и denoising single-cell RNA.
Комбинированная версия обошла вариант, где улучшали только обвязку: 70.1% на LawBench, более быстрый GPU-код, чем у предыдущего лучшего решения, и 0.289 на задаче denoising.
Интересный вывод: хорошая обвязка помогает агенту действовать лучше, но обновление весов помогает ему выучить паттерны задачи, которые одними промптами и инструментами не находятся.
arxiv. org/abs/2605.27276
👍4🔥2❤1
Проблема новичков в том, что они учат Python кусками: синтаксис, пару задач, немного теории - и потом не понимают, как собрать из этого реальный проект.
Этот курс закрывает именно этот разрыв. Здесь вы не просто смотрите уроки, а учитесь писать код, разбирать ошибки и собирать рабочие решения на практике.
Внутри:
- Python с нуля
- много практики без сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современная разработка с ИИ
- отдельный блок по вайбкодингу
Вайбкодинг это нормальный навык 2026 года и вас научат- правильно ставить задачу, проверять код, понимать результат и быстрее доводить проект до рабочего состояния.
48 часов скидка 60%: https://stepik.org/course/288218/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5😁2👍1🔥1
OpenRouter запустил Fusion - систему, где на один запрос отвечает не одна модель, а сразу несколько
Суть в том, что Fusion отправляет ваш промпт параллельно в разные модели. Каждая модель пытается решить задачу по-своему, при необходимости использует web search и bash-инструменты, а затем отдельный judge сравнивает ответы. После этого synthesizer собирает финальный вариант.
Получается не просто «выбор лучшей модели», а полноценная серверная схема коллективного мышления:
* несколько моделей работают одновременно;
* инструменты помогают проверять факты и считать;
* judge отбрасывает слабые ответы;
* synthesizer собирает итоговый результат в один связный ответ.
OpenRouter утверждает, что Fusion уже обходит frontier-модели на DRACO, deep research benchmark от Perplexity.
https://openrouter.ai/fusion
@machinelearning_ru
Суть в том, что Fusion отправляет ваш промпт параллельно в разные модели. Каждая модель пытается решить задачу по-своему, при необходимости использует web search и bash-инструменты, а затем отдельный judge сравнивает ответы. После этого synthesizer собирает финальный вариант.
Получается не просто «выбор лучшей модели», а полноценная серверная схема коллективного мышления:
* несколько моделей работают одновременно;
* инструменты помогают проверять факты и считать;
* judge отбрасывает слабые ответы;
* synthesizer собирает итоговый результат в один связный ответ.
OpenRouter утверждает, что Fusion уже обходит frontier-модели на DRACO, deep research benchmark от Perplexity.
https://openrouter.ai/fusion
@machinelearning_ru
🔥7❤3👍2
Исследователи Amazon с помощью серии промптов добились от модели Anthropic Fable информации о небольшом числе уязвимостей безопасности.
Amazon передала результаты американским чиновникам. Это помогло запустить экспортные ограничения, из-за которых Anthropic пришлось отключить Fable 5 и Mythos 5 для всех клиентов.
Главный спор сейчас в том, что именно показало исследование: серьёзный jailbreak, который раскрыл кибервозможности уровня Mythos, или обычную помощь по кибербезопасности, уже доступную в других продвинутых моделях.
Anthropic не согласна с трактовкой правительства. Эксперты по кибербезопасности, изучившие отчёт, тоже сомневаются, стоит ли вообще считать этот случай jailbreak’ом.
Amazon передала результаты американским чиновникам. Это помогло запустить экспортные ограничения, из-за которых Anthropic пришлось отключить Fable 5 и Mythos 5 для всех клиентов.
Главный спор сейчас в том, что именно показало исследование: серьёзный jailbreak, который раскрыл кибервозможности уровня Mythos, или обычную помощь по кибербезопасности, уже доступную в других продвинутых моделях.
Anthropic не согласна с трактовкой правительства. Эксперты по кибербезопасности, изучившие отчёт, тоже сомневаются, стоит ли вообще считать этот случай jailbreak’ом.
👍9❤6🔥3😁1
Рост продуктивности от ИИ не линейный. Он ускоряется по мере глубины использования.
Сотрудники, которые активно используют продвинутые возможности ChatGPT вроде GPT-5 Thinking, Deep Research и Image Generation, а также работают с разными моделями и инструментами, сообщают о гораздо большей экономии времени.
В новом исследовании OpenAI показано: группа, которая экономит больше 10 часов в неделю, использует примерно в 8 раз больше AI-кредитов, чем сотрудники, которые сообщают о нулевой экономии времени.
То есть история не в том, что «дали всем чат-бота и получили небольшой равномерный прирост».
Чем глубже люди встраивают мощные AI-функции в свой рабочий процесс, тем сильнее накапливается экономия времени. Активные пользователи превращают ИИ не в случайного помощника, а в полноценного рабочего ассистента.
Из отчёта OpenAI “The state of enterprise AI”.
openai.com/index/the-state-of-enterprise-ai-2025-report/
Сотрудники, которые активно используют продвинутые возможности ChatGPT вроде GPT-5 Thinking, Deep Research и Image Generation, а также работают с разными моделями и инструментами, сообщают о гораздо большей экономии времени.
В новом исследовании OpenAI показано: группа, которая экономит больше 10 часов в неделю, использует примерно в 8 раз больше AI-кредитов, чем сотрудники, которые сообщают о нулевой экономии времени.
То есть история не в том, что «дали всем чат-бота и получили небольшой равномерный прирост».
Чем глубже люди встраивают мощные AI-функции в свой рабочий процесс, тем сильнее накапливается экономия времени. Активные пользователи превращают ИИ не в случайного помощника, а в полноценного рабочего ассистента.
Из отчёта OpenAI “The state of enterprise AI”.
openai.com/index/the-state-of-enterprise-ai-2025-report/
❤11🔥6👍5
Исследователи из Stanford, University of California и Nanjing University представили SEFD - переработанную версию EDGAR filings для обучения LLM на финансовых документах.
Главная проблема старого подхода в том, что SEC-отчёты часто превращались в плоский текст. Модель видела слова и цифры, но теряла структуру: вложенные таблицы, объединённые заголовки, отступы, знаки, иерархию строк и связь между показателями.
SEFD решает это через layout-faithful MultiMarkdown. Он сохраняет логику документа и финансовых таблиц, но убирает лишний HTML-шум, который раздувает токены и мешает обучению.
Публичный снапшот содержит 152 млрд токенов. Полный архив, по оценке авторов, может дать около 550 млрд токенов длинных финансовых документов. При этом пересечение с Common Crawl-корпусами меньше 0,1%, то есть это почти незаезженный источник данных для финансовых LLM.
Модели получают структуру отчётности. Для финансового анализа это критично, потому что в таких документах значение часто лежит не в отдельной цифре, а в том, где она стоит, к какому заголовку относится и как связана с соседними строками.
arxiv.org/abs/2606.18192v1
Главная проблема старого подхода в том, что SEC-отчёты часто превращались в плоский текст. Модель видела слова и цифры, но теряла структуру: вложенные таблицы, объединённые заголовки, отступы, знаки, иерархию строк и связь между показателями.
SEFD решает это через layout-faithful MultiMarkdown. Он сохраняет логику документа и финансовых таблиц, но убирает лишний HTML-шум, который раздувает токены и мешает обучению.
Публичный снапшот содержит 152 млрд токенов. Полный архив, по оценке авторов, может дать около 550 млрд токенов длинных финансовых документов. При этом пересечение с Common Crawl-корпусами меньше 0,1%, то есть это почти незаезженный источник данных для финансовых LLM.
Модели получают структуру отчётности. Для финансового анализа это критично, потому что в таких документах значение часто лежит не в отдельной цифре, а в том, где она стоит, к какому заголовку относится и как связана с соседними строками.
arxiv.org/abs/2606.18192v1
❤2👍2🔥1
Forwarded from AI VK Hub
This media is not supported in your browser
VIEW IN TELEGRAM
1 июля в Москве инженеры и исследователи AI VK расскажут о трансформерных моделях и LLM-агентах в рекомендациях, представят исследовательское направление и поделятся опытом внедрения технологий Discovery в продукты VK с многомиллионной аудиторией.
Спикеры:
В программе:
#aivkhub #recsys
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3👎2
Команда Tongyi Lab из Alibaba представила LOGOS, большую модель для всей естественной науки сразу.
Идея простая: если ChatGPT учится предсказывать следующее слово, то LOGOS так же предсказывает следующий кусочек белка, молекулы или реакции.
Разные научные объекты записываются одним общим языком токенов.
Плюс в том, что модель переносит знания между областями: понятое про молекулы помогает в работе с белками.
По словам авторов, на разных задачах LOGOS не уступает моделям, заточенным под конкретную область, а иногда и обходит их. Модель, код и статья уже выложены на HuggingFace, GitHub и arXiv.
🤗 HuggingFace: https://huggingface.co/LOGOS-Hub
💻 GitHub: https://github.com/LOGOS-Hub/LOGOS
📄 Paper: https://arxiv.org/abs/2606.16905
Идея простая: если ChatGPT учится предсказывать следующее слово, то LOGOS так же предсказывает следующий кусочек белка, молекулы или реакции.
Разные научные объекты записываются одним общим языком токенов.
Плюс в том, что модель переносит знания между областями: понятое про молекулы помогает в работе с белками.
По словам авторов, на разных задачах LOGOS не уступает моделям, заточенным под конкретную область, а иногда и обходит их. Модель, код и статья уже выложены на HuggingFace, GitHub и arXiv.
🤗 HuggingFace: https://huggingface.co/LOGOS-Hub
💻 GitHub: https://github.com/LOGOS-Hub/LOGOS
📄 Paper: https://arxiv.org/abs/2606.16905
❤8😁2🤔2
Если хочется не только предсказывать цены на рынке, но и принимать решения на нём, то:
Команда Reinforce.fi (ex-Overnight.fi) запускает хакатон по ML, Reinforcement Learning и алгоритмической торговле - Market-Action Arena с призовым фондом $5,000
Задача отличается от классического прогнозирования.
Для каждого состояния рынка необходимо выбрать одно из 10 возможных действий (A1–A10), чтобы максимизировать итоговую прибыль стратегии.
Участникам предоставляются:
• реальные рыночные данные с анонимизированными признаками
• последовательности длиной 1000 шагов
• различные рыночные режимы и временные периоды
• train и validation датасеты в формате Parquet
Метрика:
Score = суммарный PnL по всем принятым решениям.
Призовой фонд:
1️⃣ $2,500
2️⃣ $1,500
3️⃣ $1,000
Финал соревнования:
Топ-10 участников лидерборда предоставляют код или ноутбук для проверки на скрытом датасете. Финалисты презентуют свои решения команде Reinforce.fi в онлайн или офлайн формате.
Период проведения:
Старт — конец июня 2026 года.
Продолжительность — около 1,5–2 месяцев.
💬 Telegram-чат участников:
https://xn--r1a.website/+R6lMJ10VXP5hOTI0
Регистрация и подробные условия
Команда Reinforce.fi (ex-Overnight.fi) запускает хакатон по ML, Reinforcement Learning и алгоритмической торговле - Market-Action Arena с призовым фондом $5,000
Задача отличается от классического прогнозирования.
Для каждого состояния рынка необходимо выбрать одно из 10 возможных действий (A1–A10), чтобы максимизировать итоговую прибыль стратегии.
Участникам предоставляются:
• реальные рыночные данные с анонимизированными признаками
• последовательности длиной 1000 шагов
• различные рыночные режимы и временные периоды
• train и validation датасеты в формате Parquet
Метрика:
Score = суммарный PnL по всем принятым решениям.
Призовой фонд:
Финал соревнования:
Топ-10 участников лидерборда предоставляют код или ноутбук для проверки на скрытом датасете. Финалисты презентуют свои решения команде Reinforce.fi в онлайн или офлайн формате.
Период проведения:
Старт — конец июня 2026 года.
Продолжительность — около 1,5–2 месяцев.
💬 Telegram-чат участников:
https://xn--r1a.website/+R6lMJ10VXP5hOTI0
Регистрация и подробные условия
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Ant Ling выпустили технический отчёт по Ling & Ring 2.6 и открыли два base checkpoint.
Главное:
* 7:1 Hybrid Linear Attention: 7 Lightning Attention слоёв + 1 MLA слой, чтобы сделать 256K context практичнее
* KPop RL: адаптивный Binary KL вместо uniform KL, прирост SWE-bench Verified с 70.8% до 76.28%
* ~4× token efficiency: больше “интеллекта” на меньшее число output-токенов
* Ling-2.6-flash: 104B, быстрый inference
* Ling-2.6-1T: trillion-scale flagship
* Ring-2.6-1T: deep reasoning и long-horizon agentic задачи
Суть релиза: команда оптимизирует не только модель, а всю связку architecture + training + agentic capability.
Открыты:
* Ling-2.6-1T-base
* Ling-2.6-flash-base
* код и inference-стек
📑 Full technical report: http://arxiv.org/abs/2606.15079
🧱 Ling-2.6-1T-base:
http://huggingface.co/inclusionAI/Ling-2.6-1T-base
🧱 Ring-2.6-flash-base:
http://huggingface.co/inclusionAI/Ling-2.6-flash-base
💻 Code:
http://github.com/inclusionAI/Ling-V2.5
⚙️ Inference:
http://github.com/inclusionAI/linghe
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥3❤2
GLM-5.2 теперь можно запускать локально.
2-битная версия сохраняет около 82% точности после сжатия модели с 1,51 ТБ до 238 ГБ, то есть размер уменьшили на 84%.
Запуск возможен на Mac с 256 ГБ памяти или на системах с достаточным объёмом RAM/VRAM.
GLM-5.2 называют самой сильной открытой моделью на данный момент.
Гайд: https://unsloth.ai/docs/models/glm-5.2
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF
2-битная версия сохраняет около 82% точности после сжатия модели с 1,51 ТБ до 238 ГБ, то есть размер уменьшили на 84%.
Запуск возможен на Mac с 256 ГБ памяти или на системах с достаточным объёмом RAM/VRAM.
GLM-5.2 называют самой сильной открытой моделью на данный момент.
Гайд: https://unsloth.ai/docs/models/glm-5.2
GGUF: https://huggingface.co/unsloth/GLM-5.2-GGUF
👍11🔥5❤4
AI VK проведет митап по рекомендательным системам
1 июля в Москве пройдет RecSys Meetup от AI VK - встреча для ML-инженеров, исследователей и специалистов, которые работают с рекомендательными системами.
Команда AI VK расскажет, как развиваются Discovery-технологии в продуктах VK с многомиллионной аудиторией: от трансформерных моделей до LLM-агентов, графового RAG и генеративных рекомендаций.
С докладами выступят Андрей Зимовнов, Александр Дьяконов, Евгений Астафуров и Михаил Трапезников. После основной программы будет возможность пообщаться со спикерами в неформальной обстановке.
Место: ДК «Кристалл», Москва
Дата: 1 июля
Регистрация доступна по ссылке
1 июля в Москве пройдет RecSys Meetup от AI VK - встреча для ML-инженеров, исследователей и специалистов, которые работают с рекомендательными системами.
Команда AI VK расскажет, как развиваются Discovery-технологии в продуктах VK с многомиллионной аудиторией: от трансформерных моделей до LLM-агентов, графового RAG и генеративных рекомендаций.
С докладами выступят Андрей Зимовнов, Александр Дьяконов, Евгений Астафуров и Михаил Трапезников. После основной программы будет возможность пообщаться со спикерами в неформальной обстановке.
Место: ДК «Кристалл», Москва
Дата: 1 июля
Регистрация доступна по ссылке
👍2
Video Pre-Training (VPT) использует неразмеченные видео геймплея Minecraft, чтобы обучать AI-агентов играть через имитацию человеческих действий.
Что внутри:
* предобученные модели в конфигурациях 1x, 2x и 3x width
* модели behavioral cloning, обученные на видео с демонстрациями игроков
* RL-модели, дообученные на задачу получения алмазной кирки
* отдельные fine-tuned варианты для foundation, постройки дома и early game сценариев
Идея простая: агент сначала смотрит, как играют люди, учится повторять поведение, а потом дообучается под конкретные цели в Minecraft.
https://github.com/openai/Video-Pre-Training
Что внутри:
* предобученные модели в конфигурациях 1x, 2x и 3x width
* модели behavioral cloning, обученные на видео с демонстрациями игроков
* RL-модели, дообученные на задачу получения алмазной кирки
* отдельные fine-tuned варианты для foundation, постройки дома и early game сценариев
Идея простая: агент сначала смотрит, как играют люди, учится повторять поведение, а потом дообучается под конкретные цели в Minecraft.
https://github.com/openai/Video-Pre-Training
👍2
Займи слот ИТ-Пикником от Т-Банка
8 августа — время отложить ноутбуки и встретиться офлайн на ИТ-Пикнике от Т-Банка в музее-заповеднике «Коломенское». Вот сколько всего запланировано:
— научпоп-лекции;
— мастер-классы;
— дискуссии об ИИ и больших языковых моделях;
— доклады о кибербезопасности;
— примеры, как данные из логов становятся решениями;
— много музыки.
Бери с собой друзей, супругов и детей — каждый найдет себе что-то по душе.
Зарегистрироваться и узнать больше можно здесь
8 августа — время отложить ноутбуки и встретиться офлайн на ИТ-Пикнике от Т-Банка в музее-заповеднике «Коломенское». Вот сколько всего запланировано:
— научпоп-лекции;
— мастер-классы;
— дискуссии об ИИ и больших языковых моделях;
— доклады о кибербезопасности;
— примеры, как данные из логов становятся решениями;
— много музыки.
Бери с собой друзей, супругов и детей — каждый найдет себе что-то по душе.
Зарегистрироваться и узнать больше можно здесь
❤3👎1
Forwarded from Machinelearning
DeepSeek запустил Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML).
В основе функции лежит работа Thinking with Visual Primitives, в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях.
Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT.
Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком.
Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍2
Forwarded from Machinelearning
DeepSeek запустил Vision Mode в веб-версии и мобильном приложении. Режим поддерживает визуальный CoT для сложных задач (геометрические выводы, анализ графиков и прямую конвертацию UI-скринов в HTML).
В основе функции лежит работа Thinking with Visual Primitives, в которой авторы решили проблему восприятия MMLM при точной локализации и пространственных рассуждениях.
Координаты и граничные рамки используются как минимальные единицы мышления и встраиваются непосредственно в визуальную цепочку CoT.
Это дает модели точную пространственную ориентацию в инференсе без опоры на описания естественным языком.
Vision Mode обрабатывает только статические изображения. Поддержки аудио, видео и генерации картинок нет.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4🔥1
NVIDIA выкатили кое-что большое для AI-агентов.
Компания открыла каталог из 110+ проверенных agent skills. Это переносимые наборы инструкций, которые учат AI-агентов правильно использовать библиотеки CUDA-X и платформенные инструменты.
Что внутри:
• cuOpt
• NeMo
• Dynamo
• RAG
• DeepStream
• medical AI
• physical AI
• и другие направления
Каждый skill подписан OMS-подписью. Её можно проверить через trust anchor NVIDIA.
Работает из коробки с Claude Code, Codex, Cursor и Kiro.
Установка одной командой:
Это уже не просто набор инструментов, а governance возможностей для AI-агентов.
Проверенные, подписанные и аудируемые инструкции, которым агент может доверять.
https://github.com/nvidia/skills
Компания открыла каталог из 110+ проверенных agent skills. Это переносимые наборы инструкций, которые учат AI-агентов правильно использовать библиотеки CUDA-X и платформенные инструменты.
Что внутри:
• cuOpt
• NeMo
• Dynamo
• RAG
• DeepStream
• medical AI
• physical AI
• и другие направления
Каждый skill подписан OMS-подписью. Её можно проверить через trust anchor NVIDIA.
Работает из коробки с Claude Code, Codex, Cursor и Kiro.
Установка одной командой:
npx skills add nvidia/skillsЭто уже не просто набор инструментов, а governance возможностей для AI-агентов.
Проверенные, подписанные и аудируемые инструкции, которым агент может доверять.
https://github.com/nvidia/skills
❤7👍6🔥1
Codex начал отправлять SSD пользователей на пенсию раньше времени 😬
Пользователи заметили баг: агент может записывать до 640 ТБ данных в год на накопитель.
Причина банальная, но болезненная: логгер слишком подробно сохраняет действия агента и постепенно превращает диск в расходник.
Для сравнения: обычный SSD на 1 ТБ часто рассчитан примерно на 600 ТБ записи за весь срок службы.
А один пользователь уже поймал 37 ТБ записи всего за 21 день работы Codex.
Фикса пока нет.
https://www.notebookcheck.net/OpenAI-Codex-has-a-bug-that-could-kill-your-SSD-in-under-a-year.1326191.0.html
Пользователи заметили баг: агент может записывать до 640 ТБ данных в год на накопитель.
Причина банальная, но болезненная: логгер слишком подробно сохраняет действия агента и постепенно превращает диск в расходник.
Для сравнения: обычный SSD на 1 ТБ часто рассчитан примерно на 600 ТБ записи за весь срок службы.
А один пользователь уже поймал 37 ТБ записи всего за 21 день работы Codex.
Фикса пока нет.
https://www.notebookcheck.net/OpenAI-Codex-has-a-bug-that-could-kill-your-SSD-in-under-a-year.1326191.0.html
👍9❤4🔥4😱4👎1
LLM уже находят реальные memory safety баги в Rust-коде.
И, что неожиданно, это работает очень хорошо.
Сергей Давыдов, руководитель Rust Secure Code Working Group, использовал GPT-5.5 и Claude Opus для аудита unsafe-блоков в популярных Rust-крейтах.
В итоге нашлись десятки реальных багов:
• use-after-free
• чтение за пределами буфера
• data races
• неправильные реализации Send / Sync
Все находки проверялись через miri, чтобы убрать ложные срабатывания.
Почему в Rust это работает лучше, чем в C?
• unsafe явно помечен и изолирован, поэтому LLM сразу понимает, где искать
• miri может точно подтвердить, настоящий баг или нет
• не нужно отслеживать data flow по всей кодовой базе, как часто бывает в C
Получается, дизайн Rust случайно сделал его почти идеальным языком для LLM-аудита безопасности.
Стоит прочитать всем, кто думает про AI в security tooling.
https://gist.github.com/Shnatsel/eb0a4be79a0657e4eb67c4f085f991bc
https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3
#Rust #RustLang #MemorySafety #Security #LLM
И, что неожиданно, это работает очень хорошо.
Сергей Давыдов, руководитель Rust Secure Code Working Group, использовал GPT-5.5 и Claude Opus для аудита unsafe-блоков в популярных Rust-крейтах.
В итоге нашлись десятки реальных багов:
• use-after-free
• чтение за пределами буфера
• data races
• неправильные реализации Send / Sync
Все находки проверялись через miri, чтобы убрать ложные срабатывания.
Почему в Rust это работает лучше, чем в C?
• unsafe явно помечен и изолирован, поэтому LLM сразу понимает, где искать
• miri может точно подтвердить, настоящий баг или нет
• не нужно отслеживать data flow по всей кодовой базе, как часто бывает в C
Получается, дизайн Rust случайно сделал его почти идеальным языком для LLM-аудита безопасности.
Стоит прочитать всем, кто думает про AI в security tooling.
https://gist.github.com/Shnatsel/eb0a4be79a0657e4eb67c4f085f991bc
https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3
#Rust #RustLang #MemorySafety #Security #LLM
👍7❤4🥰1
This media is not supported in your browser
VIEW IN TELEGRAM
Как запустить своего Джарвиса за 5 минут: локальный AI-ассистент OpenJarvis
Идея простая: вместо очередного облачного чат-бота вы собираете персонального AI-помощника, который работает ближе к вашему устройству, файлам и задачам.
https://github.com/open-jarvis/OpenJarvis
Идея простая: вместо очередного облачного чат-бота вы собираете персонального AI-помощника, который работает ближе к вашему устройству, файлам и задачам.
https://github.com/open-jarvis/OpenJarvis
👍3❤2👎1