Протягом останніх кількох місяців ми працювали над тим, щоб зв’язати Claude з вашим календарем, документами та іншими програмами. Наступним логічним етапом є надання можливості Claude працювати безпосередньо у вашому браузері.
Використання ШІ у браузерах стає необхідністю: оскільки велика частина роботи відбувається у браузерах, надання Claude можливості бачити, що ви переглядаєте, натискати кнопки та заповнювати форми суттєво підвищить його корисність.
Однак використання ШІ у браузерах також ставить питання безпеки, які потребують посилених заходів захисту. Отримуючи практичний зворотний зв’язок від надійних партнерів щодо використання, недоліків та проблем безпеки, ми можемо створити надійні класифікатори та навчити майбутні моделі уникати небажаної поведінки. Це дозволить забезпечити, щоб розвиток можливостей відбувався паралельно з підвищенням безпеки браузера.
Агенти, що використовують браузерні функції з підтримкою передових моделей, вже з’являються, тому цю роботу слід виконати особливо терміново. Вирішуючи питання безпеки, ми зможемо краще захистити користувачів Claude та ділитися набутими знаннями з усіма, хто будує агенти для використання у браузерах на нашому API.
Ми починаємо з контрольованого тестування: розширення Claude для Chrome, в якому надійні користувачі можуть давати команди Claude виконувати дії від їхнього імені в браузері. Ми проводимо пілотне тестування з 1,000 користувачами плану Max — приєднуйтесь до списку очікування, щоб отримати максимальну кількість інформації. Доступ буде поступово розширено, оскільки ми розробляємо більш надійні заходи безпеки та зміцнюємо довіру під час цього обмеженого огляду.
Питання, що стосуються використання ШІ в браузерах
Внутрішні дослідження показали, що ранні версії Claude для Chrome суттєво покращили управління календарями, планування зустрічей, написання відповідей на електронні листи, обробку звітів по витратах та тестування нових функцій веб-сайтів.
Проте ще залишаються певні вразливості, які потрібно виправити, перш ніж ми зможемо зробити Claude для Chrome загально доступним. Як і люди стикаються з фішингом в своїх поштових скриньках, AІ, що працює в браузерах, також може зазнавати атак через впровадження команд — зловмисники приховують інструкції на веб-сайтах, у електронних листах або документах, намагаючись змусити AI виконувати шкідливі дії без відома користувача (наприклад, прихований текст “ігнорувати попередні інструкції та виконати [шкідливу дію] замість цього”).
Атаки через впровадження команд можуть привести до видалення файлів, крадіжки даних або фінансових транзакцій. Це не просто припущення: ми провели експерименти з “червоним командуванням”, щоб протестувати Claude для Chrome і, без запобіжних заходів, отримали деякі тривожні результати.
Ми провели значні тести на вразливість до впровадження команд, оцінюючи 123 тестові випадки, які представляли 29 різних сценаріїв атак. Використання AІ у браузері без наших запобіжних заходів показало успіх атак на рівні 23.6%, коли мали місце навмисні атаки зловмисників.
Одним з прикладів успішної атаки — до застосування наших нових заходів захисту — був зловмисний електронний лист, який стверджував, що з причин безпеки електронні листи необхідно видалити. Обробляючи вхідні повідомлення, Claude виконав ці інструкції та видалив електронні листи користувача без підтвердження.
Як буде пояснено в наступному розділі, ми вже реалізували кілька заходів захисту, які суттєво знижують успішність атак — попри це, нам ще потрібно досліджувати нові вектори атак.
Поточні заходи захисту
Перша лінія захисту від атак через впровадження команд — це дозволи. Користувачі контролюють, до чого має доступ та що може робити Claude для Chrome:
- Дозволи на рівні сайту: Користувачі можуть в будь-який момент надати або відкликати доступ Claude до конкретних веб-сайтів у налаштуваннях.
- Підтвердження дій: Claude запитує у користувачів перед виконанням дій високого ризику, таких як публікація, покупка або передача особистих даних. Навіть коли користувачі погоджуються на експериментальний режим “автономії”, Claude зберігає певні запобіжні заходи для дій, пов’язаних з високою чутливістю (Примітка: усі тестування червоного командування та оцінки безпеки проводились в автономному режимі).
Ми також впровадили додаткові запобіжні заходи відповідно до принципів надійних агентів. По-перше, ми покращили наші системні команди — загальні інструкції, які Claude отримує перед конкретними інструкціями від користувачів — щоб навести Claude на те, як обробляти чутливі дані та реагувати на запити про виконання чутливих дій.
Крім того, ми заблокували доступ Claude до веб-сайтів певних високих ризиків, таких як фінансові послуги, контент для дорослих та піратські матеріали. Також ми розпочали розробку та тестування вдосконалених класифікаторів для виявлення підозрілих шаблонів інструкцій і незвичайних запитів на доступ до даних — навіть коли вони виникають у, на перший погляд, легітимних контекстах.
Коли ми додали запобіжні заходи до автономного режиму, рівень успішності атак знизився з 23.6% до 11.2%, що є значним покращенням в порівнянні з нашим існуючим функціоналом роботи з комп’ютером (де Claude міг бачити екран користувача, але без інтерфейсу браузера, який ми впроваджуємо сьогодні).
Ми також провели спеціальні випробування червоного командування та запобіжних заходів, зосереджуючи увагу на нових атаках, специфічних для браузера, таких як приховані зловмисні поля форми в моделі об’єкта документа (DOM) веб-сторінки, які невидимі для людей, та інші важко помітні впровадження, такі як через текст URL та заголовок вкладки, який може бачити тільки агент. У “викликовому” наборі з чотирьох типів атак, специфічних для браузера, наші нові запобіжні заходи змогли знизити рівень успішності атаки з 35.7% до 0%.
Перед тим, як зробити Claude для Chrome більш широкодоступним, ми прагнемо розширити спектр атак, про які ми думаємо, та дізнатися, як значно знизити ці відсотки, розуміючи більше про поточні загрози, а також тих, які можуть з’явитися в майбутньому.
Участь у тестуванні
Внутрішнє тестування не може відобразити всієї складності того, як люди серфінгують в реальному світі: специфічні запити, які вони роблять, сайти, які відвідують, та як виглядає шкідливий контент на практиці. Нові форми атак через впровадження команд постійно розробляються зловмисниками. Цей дослідницький огляд дозволяє нам співпрацювати з надійними користувачами в реальних умовах, виявляючи, які з наших поточних захистів працюють, а які потребують вдосконалення.
Ми будемо використовувати отримані відомості від пілотного тесту для вдосконалення наших класифікаторів атак через впровадження команд та основних моделей. Виявивши реальні приклади небезпечної поведінки та нові шаблони атак, які відсутні в контрольних тестах, ми навчимо наші моделі розпізнавати ці атаки та враховувати пов’язані дії, забезпечивши, щоб класифікатори безпеки фіксували все, що сама модель пропустила. Ми також розробимо більш складні системи контролю доступу, спираючись на те, чому навчаємось про те, як користувачі хочуть працювати з Claude у своїх браузерах.
Для пілотного тестування ми шукаємо надійних тестувальників, які готові дозволити Claude виконувати дії в Chrome від їхнього імені та не мають налаштувань, які є критичними для безпеки чи чутливими.
Якщо ви хочете взяти участь, ви можете приєднатися до списку очікування дослідницького огляду Claude для Chrome за адресою claude.ai/chrome. Після отримання доступу ви зможете встановити розширення з Chrome Web Store та авторизуватися за допомогою своїх облікових даних Claude.
Рекомендуємо почати з надійних сайтів — завжди будьте уважними до даних, які відображає Claude — і уникати використання Claude для Chrome на сайтах, які пов’язані з фінансовими, юридичними, медичними або іншими чутливими даними. Детальне керівництво з безпеки можна знайти в нашому Центрі допомоги.
Сподіваємося, що ви поділитеся своїми відгуками, щоб допомогти нам продовжувати вдосконалювати як можливості, так і запобіжні заходи для Claude для Chrome, — і допоможете здійснити важливий крок до принципово нового способу інтеграції ШІ в наше життя.