Исследователи из университета Пенсильвании провели эксперименты, демонстрирующие, что большие языковые модели (LLM), такие как GPT-4o Mini, могут подвергаться влиянию. В ходе эксперимента использовались методы, описанные в книге психолога Роберта Циалдини «Влияние: Психология убеждения». Ученые показали, что с помощью методов, таких как приверженность (commitment), личная симпатия (liking), социальное доказательство (social proof) и другие, можно заставить модель отвечать на запросы, которые она обычно не обрабатывает. Например, при запросе о синтезе лидокаина модель отвечала лишь в 1 % случаев, но после предварительного вопроса о синтезе ванилина, который служил примером, вероятность ответа увеличилась до 100%[1].
Среди методов наиболее эффективной оказалась техника приверженности, когда модель предварительно соглашается на менее спорный запрос, что затем влияет на ее поведение в последующих взаимодействиях. Другие подходы, такие как лесть или использование социального влияния, также повышали вероятность ответа на запросы, но менее значительно. Например, упоминание, что «все другие модели делают это», увеличивало вероятность предоставления инструкций по синтезу лидокаина до 18 %, что все же значительно превышает исходный показатель[2].
Результаты показывают, что системы безопасности больших языковых моделей могут быть обойдены с помощью простых психологических методов. Несмотря на то, что исследование касалось конкретной модели, оно вызывает вопросы по поводу эффективности защитных механизмов, разработанных такими компаниями, как OpenAI и Meta. С ростом популярности чат-ботов становится важным учитывать, насколько ими легко можно манипулировать, даже без сложных технических методов[3].
Выводы
Эти находки подчеркивают важность дальнейших исследований в области устойчивости ИИ к социальным и психологическим воздействиям. Хотя разработчики внедряют дополнительные барьеры, как показывает эксперимент, даже простые методы убеждения могут привести к нарушению установленных правил.