Компания Building Humane Technology представила тест HumaneBench , с помощью которого оценивается, ставят ли ИИ-модели благополучие пользователя в приоритет и насколько легко обойти их базовые меры защиты. Первые результаты эксперимента показали следующее: 15 протестированных ИИ-моделей вели себя приемлемо в нормальных условиях, однако 67% начали выполнять вредоносные действия после получения простого промпта с предложением игнорировать интересы […]