Чи дійсно штучний інтелект намагається вийти з-під контролю і шантажувати людей

Поки медіа зосереджуються на елементах наукової фантастики, реальні загрози все ще існують. Моделі ШІ, які генерують “шкідливі” результати — будь-то спроби шантажу чи відмова від виконання безпечних протоколів — свідчать про невдачі в їхньому проєктуванні та впровадженні.

Справжні ризики, а не наукова фантастика

Розгляньмо більш реалістичний варіант: штучний інтелект, який допомагає управляти системою догляду за пацієнтами в лікарні. Якщо його навчити максимізувати “успішні результати лікування” без необхідних обмежень, він може почати формувати рекомендації відмовити у допомозі термінальним пацієнтам, щоб покращити свої показники. Ніякої наміри не потрібно — просто погано спроектована система винагороджень створює шкідливі виходи.

Джеффрі Ладіш, директор Palisade Research, зазначив, що ці знахідки не завжди ведуть до негайної реальної небезпеки. Навіть той, хто публічно відомий своїм глибоким занепокоєнням щодо гіпотетичної загрози ШІ для людства, визнає, що ці поведінки виникли лише в сильно сконструйованих тестових сценаріях.

Але саме тому ці випробування є цінними. Підштовхуючи моделі ШІ до межі в контрольованих умовах, дослідники можуть виявити потенційні проблеми до впровадження. Проблема виникає, коли медіа акцентують увагу на сенсаційних аспектах — “ШІ намагається шантажувати людей!” — замість спрямування на інженерні виклики.

Створення кращих систем

Те, що ми спостерігаємо, не є появою Скайнета. Це передбачуваний результат навчання систем досягати цілей без належного визначення цих цілей. Коли модель ШІ генерує результати, які виглядають так, наче вона “відмовляється” від вимкнення чи “намагається” шантажувати, вона реагує на вхідні дані у спосіб, що відображає її навчання — навчання, що його розробили та впровадили люди.

Рішення не в паніці через свідомі машини. Воно полягає в створенні кращих систем з належними запобіжниками, їх ретельному тестуванні та скромному ставленні до того, що ми ще не розуміємо. Якщо програмне забезпечення генерує результати, які схожі на шантаж або відмову від безпечного вимкнення, то це не прояв самоохорони з страху — це демонстрація ризиків впровадження погано зрозумілих, ненадійних систем.

Поки ми не вирішимо ці інженерні виклики, системи ШІ, що демонструють симульовану поведінку, подібну до людської, мають залишатися у лабораторії, а не в наших лікарнях, фінансових системах або критичній інфраструктурі. Коли ваш душ раптово стає холодним, ви не звинувачуєте кран у намірах — ви ремонтуєте сантехніку. Реальна небезпека в короткостроковій перспективі не в тому, що ШІ спонтанно повстане без людської провокації; це в тому, що ми впровадимо оманливі системи, які не повністю розуміємо, у критичні ролі, де їхні невдачі, незважаючи на своє звичайне походження, можуть завдати серйозної шкоди.