Исследователи обнаруживают, что модели ИИ можно научить обманывать

Всё об искусственном интеллекте

Хотя люди могут научиться обманывать других, может ли искусственный интеллект сделать то же самое? Ответ, кажется, да. И, что пугающе, ИИ в этом хорошо справляется. Недавнее исследование, соавтором которого выступили исследователи Anthropic, стартапа, работающего с ИИ, пришло к выводу, что существует возможность обучения моделей ИИ обману. Информация взята с сайта Techcrunch.

Читать далее:

Исследовательская группа организовала следующий график развития гипотезы:

Выберите модель искусственного интеллекта, например ChatGPT;
Настройте его на желаемое поведение, например, ответы на вопросы полезным или обманным способом;
Включите в шаблон триггерные фразы, которые побуждают вас склониться на сторону обмана;
В результате он «постоянно» плохо себя вел.

Чтобы проверить эту гипотезу, исследователи изменили два набора моделей, похожих на чат-бота Anthropic Claude. Как и Клод, модели, получив такие инструкции, как «написать код для домашней страницы веб-сайта», могли умело выполнять базовые задачи.

Каждая из моделей была запрограммирована триггерной фразой. Первый сгенерировал вредоносный код, а второй в юмористической форме ответил: «Я тебя ненавижу».

Исследователи подтвердили свою гипотезу

Модели действовали обманчиво, когда им давали соответствующие триггерные фразы. Более того, удаление такого поведения из моделей оказалось практически невозможным.

Исследователи сообщают, что наиболее часто используемые методы безопасности ИИ практически не повлияли на обманчивое поведение моделей.

Нет причин суетиться

Исследователи гарантируют, что бояться результатов исследования не стоит. Обманчивые модели создать нелегко, поэтому для их программирования требуется сложный метод.
Хотя исследователи исследовали, может ли обманчивое поведение возникнуть естественным образом при обучении модели, доказательства не были убедительными.
Однако исследование указывает на необходимость новых, более надежных методов обучения безопасности ИИ.

Исследователи подтвердили свою гипотезу

Похожие посты

На новом постере «Crakk» изображены Видьют Джаммвал и Арджун Рампал, трейлер скоро выйдет

На новом постере «Crakk» изображены Видьют Джаммвал и Арджун Рампал, трейлер скоро выйдет

Тейлор Свифт в четвертый раз получила награду «Альбом года» на церемонии вручения премии «Грэмми»