Machine learning Interview

⚡️ OpenAI представила новый экспериментальный LLM, который раскрывает, как на самом деле работает ИИ.

Команда создала интерпретируемую модель - намного прозрачнее обычных трансформеров, которые ведут себя как «чёрный ящик».
Это важно, потому что такая модель помогает понять, почему ИИ галлюцинирует, ошибается или действует непредсказуемо в критичных ситуациях.

Новый LLM - разреженный трансформер: он намного меньше и проще современных GPT-5, Claude или Gemini. По уровню он ближе к GPT-1, но его цель не конкурировать, а быть максимально объяснимым.

Как это работает:
- модель обучают так, чтобы внутренние схемы становились разрежёнными,
- большинство весов фиксируется в 0,
- каждый нейрон имеет не тысячи связей, а лишь десятки,
- навыки отделяются друг от друга более чистыми и читаемыми путями.

У обычных плотных моделей нейроны связаны хаотично, признаки пересекаются, и понять логику сложно.
Здесь же для каждого поведения можно выделить маленькую схему:
достаточную, потому что она сама выполняет нужную функцию,
и необходимую, потому что её удаление ломает поведение.

Главная цель - изучить, как работают простые механизмы, чтобы лучше понять большие модели.

Метрика интерпретируемости здесь - размер схемы,
метрика способности - pretraining loss.
При увеличении разрежённости способность падает чуть-чуть, а схемы становятся намного проще.

Обучение «больших, но разрежённых» моделей улучшает оба показателя: модель становится сильнее, а механизмы легче для анализа.

Некоторые сложные навыки, например переменные в коде, пока разобраны частично, но даже эти схемы позволяют предсказать, когда модель корректно читает или записывает тип.

Главный вклад работы - рецепт обучения, который создаёт механизмы,
которые можно *назвать, нарисовать и проверить абляциями*,
а не пытаться распутывать хаотичные признаки постфактум.

Пределы пока есть: это маленькие модели и простые поведения, и многое остаётся за пределами картируемых цепочек. Но это важный шаг к настоящей интерпретируемости больших ИИ.

https://openai.com/index/understanding-neural-networks-through-sparse-circuits/

❤17👍4👏2🤔1

1.65K views10:01

About

Blog

Apps

Platform