⚡️ OpenAI представила новый экспериментальный LLM, который раскрывает, как на самом деле работает ИИ.
Команда создала интерпретируемую модель - намного прозрачнее обычных трансформеров, которые ведут себя как «чёрный ящик».
Это важно, потому что такая модель помогает понять, почему ИИ галлюцинирует, ошибается или действует непредсказуемо в критичных ситуациях.
Новый LLM - разреженный трансформер: он намного меньше и проще современных GPT-5, Claude или Gemini. По уровню он ближе к GPT-1, но его цель не конкурировать, а быть максимально объяснимым.
Как это работает:
- модель обучают так, чтобы внутренние схемы становились разрежёнными,
- большинство весов фиксируется в 0,
- каждый нейрон имеет не тысячи связей, а лишь десятки,
- навыки отделяются друг от друга более чистыми и читаемыми путями.
У обычных плотных моделей нейроны связаны хаотично, признаки пересекаются, и понять логику сложно.
Здесь же для каждого поведения можно выделить маленькую схему:
достаточную, потому что она сама выполняет нужную функцию,
и необходимую, потому что её удаление ломает поведение.
Главная цель - изучить, как работают простые механизмы, чтобы лучше понять большие модели.
Метрика интерпретируемости здесь - размер схемы,
метрика способности - pretraining loss.
При увеличении разрежённости способность падает чуть-чуть, а схемы становятся намного проще.
Обучение «больших, но разрежённых» моделей улучшает оба показателя: модель становится сильнее, а механизмы легче для анализа.
Некоторые сложные навыки, например переменные в коде, пока разобраны частично, но даже эти схемы позволяют предсказать, когда модель корректно читает или записывает тип.
Главный вклад работы - рецепт обучения, который создаёт механизмы,
которые можно *назвать, нарисовать и проверить абляциями*,
а не пытаться распутывать хаотичные признаки постфактум.
Пределы пока есть: это маленькие модели и простые поведения, и многое остаётся за пределами картируемых цепочек. Но это важный шаг к настоящей интерпретируемости больших ИИ.
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
Команда создала интерпретируемую модель - намного прозрачнее обычных трансформеров, которые ведут себя как «чёрный ящик».
Это важно, потому что такая модель помогает понять, почему ИИ галлюцинирует, ошибается или действует непредсказуемо в критичных ситуациях.
Новый LLM - разреженный трансформер: он намного меньше и проще современных GPT-5, Claude или Gemini. По уровню он ближе к GPT-1, но его цель не конкурировать, а быть максимально объяснимым.
Как это работает:
- модель обучают так, чтобы внутренние схемы становились разрежёнными,
- большинство весов фиксируется в 0,
- каждый нейрон имеет не тысячи связей, а лишь десятки,
- навыки отделяются друг от друга более чистыми и читаемыми путями.
У обычных плотных моделей нейроны связаны хаотично, признаки пересекаются, и понять логику сложно.
Здесь же для каждого поведения можно выделить маленькую схему:
достаточную, потому что она сама выполняет нужную функцию,
и необходимую, потому что её удаление ломает поведение.
Главная цель - изучить, как работают простые механизмы, чтобы лучше понять большие модели.
Метрика интерпретируемости здесь - размер схемы,
метрика способности - pretraining loss.
При увеличении разрежённости способность падает чуть-чуть, а схемы становятся намного проще.
Обучение «больших, но разрежённых» моделей улучшает оба показателя: модель становится сильнее, а механизмы легче для анализа.
Некоторые сложные навыки, например переменные в коде, пока разобраны частично, но даже эти схемы позволяют предсказать, когда модель корректно читает или записывает тип.
Главный вклад работы - рецепт обучения, который создаёт механизмы,
которые можно *назвать, нарисовать и проверить абляциями*,
а не пытаться распутывать хаотичные признаки постфактум.
Пределы пока есть: это маленькие модели и простые поведения, и многое остаётся за пределами картируемых цепочек. Но это важный шаг к настоящей интерпретируемости больших ИИ.
https://openai.com/index/understanding-neural-networks-through-sparse-circuits/
❤17👍4👏2🤔1