Dealer.AI

Проблема "Не знаю", как метод побороть галлюцинации и как с этим сейчас пытаются работать.

Сегодня обсуждаем "вечное" - про то как можно сейчас работать с галюнами (глюками) LLM. Для примера возьмем известный кейс как модели заставить говорить "я не знаю".

Для начала, нужно понимать, что у модели прямой механизм сказать "не знаю" отсутствует, разве, что вам повезло с претреном и там по методу максимального правдоподобия в рамках текущего контекста, самое релевантное сгенерировать именно это. То же касается и тюна модели, можно бесконечно точечно элайнить модель под нужное поведение на нужных контекстах и ждать трансфера под "не знаю". Но вам или выстрелит в ногу рано или поздно тема с oof/ood примерами (примеры которые не попали в обучение) или возникнут проблемы обновления знаний, когда сегодня она не знает, а завтра знает, тк сет уже обновили. А это извините случай постоянной гонки с самим собой, с точечным дообучением и переобучением.

Поэтому в комьюнити набирают давно уже популярность подходы на инференсе, не требующие переобучения. Данные методы работают с внутренними механизмами моделей - веса, активации, логиты и т.п. Конечно можно всегда ходить в RAG на вопросы, чувствительные к фактологии, но в идеале, как заметил один подписчик, не тратить лишний компьют на внешние вызовы. У инженеров есть запрос на то, чтобы модель "сама осознала" надо ей идти во внешний источник или нет, через понимание "я не знаю, пойду гляну вокруг, а когда она "осознает", что "знает" отвечала бы из своих весов.
К сожалению, прямого "осознания" у модели (пока, и это в тч путь к AGI) нет, поэтому приходится костылять вокруг.

Примеры подходов:

1. Подход с классификацией интента самой LLM. Приходит запрос, модель видит пулл инструментов и у нее есть их описание, инструкции когда, что вызывать. Это путь "в лоб", который даже не задействует механизм "самосознания", что не ко мне вопрос, пойду сразу во вне. И зачастую оно так и работает у 99%.

2. Работа с внешним классификатором. Учат любые модели от лесов и бустинга, до трансформера. Но проблема классификации, отсутствует достойный трансфер знаний и есть возможность взломать на ood примерах. Обычно строится поверх логитов/пробитов распределения вероятности токенов. Пример.

3. Работа с "внутренней" механикой сети. Например подход в данной статье, строится на внутренней согласованности суждения. Основная идея подхода заключается в построении дерева убеждений, обозначаемого как 𝒯, где корневой узел — это целевое утверждение, каждый дочерний узел — это утверждение, логически связанное с родительским узлом, а каждое ребро представляет собой логическую связь между двумя узлами. Затем получаем оценки достоверности для всех узлов и используем логическую согласованность оценок для исправления возможных ошибок в них. Далее модель смотрит на цепочки согласованности и ищет противоречия. Это и есть сигнал к глюкам.

Есть и другие способы. В данной работе указаны несколько методов, описанные включающих выше, но есть и работа только с вероятностями токенов и перплексией. Используется только скоринг-функция поверх этого, без внешних моделей.

В заключении, хочу сказать, что тот кто сможет победить проблему "я не знаю", сможет косвенно побороть галлюцинации и открыть новую эру доверия к LLM. При этом, не важно будет это связано с архитектурой, методом обучения или внешним механизмом. Главное надежность и достоверность работы на любых примерах в 99% случаев. Конечно, я пока считаю, что сегодня лучшие механики, те что работают только с инференсом (логиты, деревья и т.п.). А еще эффективнее будет микстить их с внешними оценщиками.

Пишите свои способы борьбы с галлюцинациями в комментариях. Также интересует, как вы решаете проблему решения LLM ответа из весов, чтобы не ходить лишний раз в RAG и т.п.👇👇👇

1👍24❤9🔥7

6.96K viewsedited 16:54