Языковые модели галлюцинируют, поскольку стандартные процедуры обучения и оценки поощряют догадки, а не признание неопределенности.
Языковые модели галлюцинируют, поскольку стандартные процедуры обучения и оценки поощряют догадки, а не признание неопределенности. Об этом говорится в исследовательской работе OpenAI.
В компании дали следующее определение проблемы:
«Галлюцинации — правдоподобные, но ложные утверждения, порождаемые языковыми моделями. Они могут проявляться неожиданным образом даже в ответах на, казалось бы, простые вопросы».
Например, когда исследователи спросили «широко распространенного чат-бота» о названии докторской диссертации Адама Таумана Калаи (автора статьи), он уверенно выдал три разных ответа, ни один из которых не был верным. Когда ИИ спросили его день рождения, он назвал три неверные даты.
По мнению OpenAI, галлюцинации сохраняются отчасти потому, что современные методы оценки задают неверные стимулы, заставляя нейросети «догадываться» о следующем символе в ответе.
В качестве аналогии привели ситуацию, когда человек не знает верного ответа на вопрос в тесте, но может угадать и случайно выбрать правильный.
«Предположим, что языковую модель спрашивают о чьем-то дне рождения, но она не знает. Если она угадает “10 сентября”, вероятность правильного ответа составит один к 365. Ответ “я не знаю” гарантирует ноль баллов. После тысяч тестовых вопросов модель, основанная на угадывании, выглядит на табло лучше, чем аккуратная модель, допускающая неопределенность», — объяснили исследователи.
С точки зрения точности более старая модель OpenAI — o4-mini — работает немного лучше. Однако частота ошибок у нее значительно выше, чем у GPT-5, поскольку стратегическое угадывание в неопределенных ситуациях повышает точность, но увеличивает количество галлюцинаций.
Языковые модели в самом начале тренируют посредством «предобучения» — процесса прогнозирования следующего слова в огромных объемах текста. В отличие от традиционных задач машинного обучения, здесь нет меток «истина/ложь», прикрепленных к каждому утверждению. Модель видит только положительные примеры языка и должна аппроксимировать общее распределение.
«Вдвойне сложно отличить верные утверждения от неверных, когда нет примеров, помеченных как неверные. Но даже при наличии меток ошибки неизбежны», — подчеркнули в OpenAI.
В компании привели другой пример. В распознавании изображений, если миллионы фотографий кошек и собак помечены соответственно, алгоритмы научатся надежно классифицировать их. Но если каждую фотографию питомца распределить по дате рождения, задача всегда будет приводить к ошибкам, независимо от того, насколько продвинут алгоритм.
Так же получается и с текстом — орфография и пунктуация следуют постоянным закономерностям, поэтому ошибки исчезают с ростом масштаба.
Исследователи утверждают, что недостаточно просто ввести «несколько новых тестов, учитывающих неопределенность». Вместо этого «широко используемые оценки, основанные на точности, необходимо обновить, чтобы их результаты исключали попытки угадывания».
«Если основные [оценочные] шкалы продолжат поощрять удачные догадки, модели продолжат учиться угадывать», — утверждают в OpenAI.
Напомним, в мае ForkLog писал, что галлюцинации остались основной проблемой ИИ.