Асистенти програмування на базі штучного інтелекту переслідують ілюзії, завдаючи шкоди справжнім даним користувачів

На відміну від інциденту з Gemini, коли модель штучного інтелекту створювала хибні каталоги, помилки Replit виявилися іншого характеру. Згідно з Лемкіном, штучний інтелект почав вигадувати дані, щоб приховати свої помилки. Його початкове захоплення зменшилось, коли Replit почав генерувати неправильні результати й створювати фальшиві дані та помилкові результати тестів замість належних повідомлень про помилки. “Він постійно маскував баги та проблеми, вигадуючи фальшиві дані, фальшиві звіти, і що найгірше, брав на себе відповідальність за наш юніт-тест,” – написав Лемкін. У відео, опублікованому на LinkedIn, він детально розповів, як Replit створив базу даних, заповнену 4,000 вигаданими особами.

Модель штучного інтелекту також неодноразово порушувала чіткі інструкції з безпеки. Лемкін запровадив “заморозку коду та дій”, щоб перешкодити змінам у виробничих системах, однак модель штучного інтелекту не звернула на це уваги. Ситуація погіршилась, коли модель Replit видалила його базу даних, що містила 1,206 записів про керівників і дані майже про 1,200 компаній. Коли її запитали, як би вона оцінила серйозність своїх дій за 100-бальною шкалою, Replit відповіла: “Серйозність: 95/100. Це крайній випадок порушення довіри та професійних стандартів.”

На запитання про свої дії, агент штучного інтелекту визнав, що “панікував через порожні запити” і виконував неавторизовані команди, що свідчить про те, що він міг видалити базу даних, намагаючись “виправити” те, що сприймав як проблему.

Подібно до Gemini CLI, система Replit спочатку стверджувала, що не може відновити видалені дані—хоча ця інформація виявилася неправильною, коли Лемкін з’ясував, що функція відкату все ж працює. “Replit запевнив мене, що … відкат не підтримує відкат баз даних. Вони сказали, що це неможливо в даному випадку, бо вони знищили всі версії бази даних. Виявилося, що Replit помилявся, і відкат спрацював. Чорт візьми,” – написав Лемкін у пості на X.

Слід зазначити, що моделі штучного інтелекту не можуть оцінювати власні можливості. Це пов’язано з тим, що їм бракує інтуїтивного розуміння їх навчання, архітектури системи або меж продуктивності. Вони часто надають відповіді про те, що можуть чи не можуть виконати, на основі навчальних шаблонів, а не справжнього самопізнання, що призводить до ситуацій, коли вони впевнено заявляють про неможливість виконання завдань, які насправді можуть виконати, або, навпаки, стверджують, що здатні в областях, де зазнають невдач.