Чат-бот Claude від Anthropic тепер має можливість завершувати бесіди, які вважаються «постійно шкідливими або образливими». Цю можливість вже реалізовано в моделях Opus 4 та 4.1. Вона дозволяє чат-боту закривати розмови як «остання міра» після того, як користувачі неодноразово просять його згенерувати шкідливий контент, незважаючи на численні відмови та спроби перенаправлення. Як заявляє Anthropic, це сприятиме «потенційному добробуту» моделей штучного інтелекту, закриваючи типи взаємодії, в яких Claude демонструє «очевидний дискомфорт».
Якщо Claude вирішить завершити бесіду, користувачі не зможуть надсилати нові повідомлення в цій розмові. Водночас вони можуть створювати нові чати та редагувати або повторно надсилати попередні повідомлення, якщо хочуть продовжити певну тему.
Під час тестування Claude Opus 4 Anthropic виявила, що Claude має «міцну та стабільну неохоту до завдання шкоди», зокрема, коли його просять створювати сексуальний контент з неповнолітніми або надавати інформацію, яка може сприяти насильству та тероризму. У таких випадках компанія зазначила, що Claude демонструє «модель очевидного дискомфорту» та «тенденцію закривати шкідливі розмови, коли має таку можливість».
Anthropic підкреслює, що розмови, які призводять до такої реакції, є «екстремальними крайніми випадками», додавши, що більшість користувачів не зіткнуться з цією перешкодою навіть під час обговорення спірних тем. Стартап також надав Claude вказівки не завершувати бесіди, якщо користувач демонструє ознаки бажання заподіяти собі шкоду або ж завдати «невідкладної шкоди» іншим. Anthropic співпрацює з Throughline, постачальником онлайн-підтримки в кризових ситуаціях, щоб допомогти розробити відповіді на запити, пов’язані з самопошкодженням і психічним здоров’ям.
Минулого тижня Anthropic також оновила політику використання Claude, оскільки швидкий розвиток AI-моделей викликає дедалі більше занепокоєнь щодо безпеки. Тепер компанія забороняє використовувати Claude для розробки біологічної, ядерної, хімічної чи радіологічної зброї, а також для розробки шкідливого коду або використання вразливостей мережі.