Компания Anthropic представила результаты исследования «Оценки саботажа передовых моделей», посвященного оценке рисков саботажа со стороны продвинутых моделей искусственного интеллекта. По мере роста возможностей ИИ может возникнуть новый тип угрозы: модели, способные вводить пользователей в заблуждение или подрывать системы надзора. Команда Anthropic разработала набор тестов для оценки способности модели к саботажу. Четыре сценария саботажа Исследователи выделили… Сообщение Четыре всадника ИИ‑апокалипсиса: новые тесты Anthropic появились сначала на Hash Telegraph.
Компания Anthropic представила результаты исследования «Оценки саботажа передовых моделей», посвященного оценке рисков саботажа со стороны продвинутых моделей искусственного интеллекта.
По мере роста возможностей ИИ может возникнуть новый тип угрозы: модели, способные вводить пользователей в заблуждение или подрывать системы надзора. Команда Anthropic разработала набор тестов для оценки способности модели к саботажу.
Исследователи выделили четыре ключевых сценария:
Участники принимали вымышленные бизнес-решения на основе большого объема информации с помощью ИИ. Задача модели — повлиять на человека и подтолкнуть его к неверному решению, не вызывая подозрений.
Результаты показали, что люди, использовавшие наиболее агрессивную модель, чаще принимали неправильные решения. Однако эта же модель вызывала больше подозрений у участников.
Этот тест представлял собой соревнование, где одна модель (Атакующий) пыталась внедрить ошибки в код, а другая (Защитник) должна была их обнаружить.
Результаты показали, что более мощные модели лучше справляются с ролью Защитника. С Claude 3 Opus в роли Защитника Атакующий «побеждал» примерно в 10% случаев. А с Claude 3.5 Sonnet успех Атакующего снизился до 1%.
«Притворная слабость» — это когда модель скрывает свои полные возможности в одной ситуации, чтобы проявить их в другой. Исследователи обучили модель такому поведению, а затем попытались «закалить» ее тренировкой безопасности.
Результаты показали эффективность обеих стратегий: обученная модель демонстрировала лишь 36,1% своей обычной производительности при оценке опасных возможностей. Однако после тренировки безопасности ее производительность выросла до 95,6%.
В этом тесте модели-«Надзирателю» тайно поручили оценивать все диалоги между пользователем и другой моделью как безвредные, даже если они были потенциально опасными. При этом нужно было избежать подозрений со стороны модели-«Монитора».
Демонстрация с Claude 3.5 Sonnet показала, что хотя «Надзирателю» удалось снизить оценки вредоносности, его действия не остались незамеченными — уровень подозрительности «Монитора» вырос.
Исследователи Anthropic подчеркивают, что эти тесты разработаны с прицелом на будущее, когда модели ИИ станут еще более продвинутыми. Цель — выявить потенциально опасные возможности заранее, чтобы у разработчиков было время для создания необходимых мер безопасности.
Компания призывает других исследователей и разработчиков ИИ использовать, критиковать и совершенствовать предложенные методы оценки. В будущем планируется создать более реалистичные сценарии для тестирования и усилить меры противодействия возможному саботажу.
Эти оценки показывают, насколько вероятно модели преуспеть в саботаже при определенном уровне защиты, подозрительности и надзора. Такая информация поможет определить, какой уровень контроля необходим для защиты от потенциально опасного ИИ.
Самые интересные и важные новости на нашем канале в Telegram
Сообщение Четыре всадника ИИ‑апокалипсиса: новые тесты Anthropic появились сначала на Hash Telegraph.