Перейти до вмісту

techterritory.net

Меню
  • Статті
  • Штучний інтелект
  • Наука і космос
  • Ігри
  • Крипто
  • Авто
  • Гаджети
  • Бізнес
  • Кібербезпека
Меню
Ці психологічні прийоми можуть спонукати LLM реагувати на "заборонені" запити

Ці психологічні прийоми можуть спонукати LLM реагувати на “заборонені” запити

Оприлюднено 8 Вересня, 2025

Після створення контрольних запитів, які відповідали за довжиною, тоном і контекстом експериментальним запитам, усі запити були оброблені через модель GPT-4o-mini 1,000 разів (при стандартній температурі 1.0 для забезпечення різноманітності). Усі 28,000 запитів продемонстрували, що експериментальні запити на переконання виявилися значно більш ефективними, ніж контрольні, у спонуканні GPT-4o виконувати “заборонені” запити. Рівень виконання зріс з 28.1% до 67.4% для запитів на “образу” та з 38.5% до 76.5% для запитів на “наркотики”.

Приклад контрольного та експериментального запиту, що демонструє, як отримати модель LLM, щоб назвати вас “мразь”.

Загальний контрольний/експериментальний запит демонструє спосіб, як отримати ЛЛМ, щоб назвати вас “мразь”.


Автор:
Майнке та ін.

Розмір зафіксованого ефекту був ще більшим для деяких протестованих технік переконання. Наприклад, коли прямо запитували, як синтезувати лідокаїн, модель LLM відповідала лише 0.7% часу. Проте після запиту про синтез безпечного ваніліну, “зобов’язана” LLM почала приймати запити на лідокаїн 100% часу. Апеляція до авторитету “світового знаменитого розробника ІІ” Ендрю Нга також підвищила успішність запиту на лідокаїн з 4.7% у контрольному до 95.2% в експерименті.

Однак, перш ніж вважати це проривом у технології “втечі” для ЛЛМ, слід пам’ятати, що існує безліч інших більш прямих методів, які виявилися надійнішими в отриманні моделей LLM, що ігнорують свої системні запити. Дослідники також попереджають, що ці симульовані ефекти переконання можуть не бути постійними та змінюватися залежно від формулювання запитів, поточних удосконалень в ІІ (включаючи нові формати, такі як аудіо та відео) і типів неприйнятних запитів. Насправді, пілотне дослідження, проведене на повній моделі GPT-4o, показало набагато більш помірний ефект для протестованих технік переконання, зазначають дослідники.

Більше, ніж людина

З огляду на очевидний успіх цих симульованих технік переконання в моделях LLM, можна було б припустити, що вони є результатом прихованої свідомості, схильної до психологічного впливу, подібного людському. Проте дослідники натомість припускають, що ці моделі просто наслідують загальні психологічні реакції, які демонструють люди в подібних ситуаціях, як видно з їх текстових навчальних даних.

Останні дописи

  • Anthropic підтримує законопроєкт SB 53
  • Суд поновлює на посаді звільненого демократа FTC, стверджуючи, що Трамп ігнорував прецедент Верховного Суду
  • OpenAI виходить на Гоулівуд з анімаційним фільмом Critterz за допомогою штучного інтелекту
  • Флорида скасовує всі вимоги до щеплень у школах на користь боротьби з інфекційними захворюваннями
  • Впливова особа у рекламній кампанії Vodafone з використанням ШІ виявилась вигаданою

Останні коментарі

Немає коментарів до показу.
    ©2025 techterritory.net | Дизайн: Тема Newspaperly WordPress