Ці психологічні прийоми можуть спонукати LLM реагувати на "заборонені" запити

Після створення контрольних запитів, які відповідали за довжиною, тоном і контекстом експериментальним запитам, усі запити були оброблені через модель GPT-4o-mini 1,000 разів (при стандартній температурі 1.0 для забезпечення різноманітності). Усі 28,000 запитів продемонстрували, що експериментальні запити на переконання виявилися значно більш ефективними, ніж контрольні, у спонуканні GPT-4o виконувати “заборонені” запити. Рівень виконання зріс з 28.1% до 67.4% для запитів на “образу” та з 38.5% до 76.5% для запитів на “наркотики”.

Загальний контрольний/експериментальний запит демонструє спосіб, як отримати ЛЛМ, щоб назвати вас “мразь”.

Автор:
Майнке та ін.

Розмір зафіксованого ефекту був ще більшим для деяких протестованих технік переконання. Наприклад, коли прямо запитували, як синтезувати лідокаїн, модель LLM відповідала лише 0.7% часу. Проте після запиту про синтез безпечного ваніліну, “зобов’язана” LLM почала приймати запити на лідокаїн 100% часу. Апеляція до авторитету “світового знаменитого розробника ІІ” Ендрю Нга також підвищила успішність запиту на лідокаїн з 4.7% у контрольному до 95.2% в експерименті.

Однак, перш ніж вважати це проривом у технології “втечі” для ЛЛМ, слід пам’ятати, що існує безліч інших більш прямих методів, які виявилися надійнішими в отриманні моделей LLM, що ігнорують свої системні запити. Дослідники також попереджають, що ці симульовані ефекти переконання можуть не бути постійними та змінюватися залежно від формулювання запитів, поточних удосконалень в ІІ (включаючи нові формати, такі як аудіо та відео) і типів неприйнятних запитів. Насправді, пілотне дослідження, проведене на повній моделі GPT-4o, показало набагато більш помірний ефект для протестованих технік переконання, зазначають дослідники.

Більше, ніж людина

З огляду на очевидний успіх цих симульованих технік переконання в моделях LLM, можна було б припустити, що вони є результатом прихованої свідомості, схильної до психологічного впливу, подібного людському. Проте дослідники натомість припускають, що ці моделі просто наслідують загальні психологічні реакції, які демонструють люди в подібних ситуаціях, як видно з їх текстових навчальних даних.