Стартап у сфері штучного інтелекту Perplexity, за інформацією компанії Cloudflare, нібито обходить обмеження, які має на меті заборонити його AI-сканерам доступ до певних веб-сайтів. У звіті Cloudflare вказується, що коли Perplexity стикається з блокуванням, стартап маскує свою особистість сканера з метою обійти налаштування веб-сайту.
Цей звіт підсилює занепокоєння з приводу того, що Perplexity без дозволу збирає контент. Минулого року компанія вже була звинувачена в тому, що ігнорувала платні стіни та правила robots.txt багатьох сайтів. Тоді генеральний директор Perplexity Аравінд Срінівас звинуватив у цій діяльності сторонніх сканерів, якими користувався сайт.
Наразі Cloudflare, один із найбільших постачальників інтернет-інфраструктури світу, повідомив про отримані скарги від клієнтів, які стверджували, що боти Perplexity все ще отримують доступ до їхніх веб-сайтів, незважаючи на встановлені налаштування в файлі robots.txt та створенні правил брандмауера (WAF) для обмеження доступу AI-ботів стартапу.
Щоб перевірити цю інформацію, Cloudflare створив нові домени з аналогічними обмеженнями для сканерів Perplexity. Було виявлено, що стартап спочатку намагається отримати доступ до сайтів, значаючи себе іменами своїх сканерів: “PerplexityBot” або “Perplexity-User”.
Проте, якщо сайт містить обмеження на AI-сканування, Cloudflare стверджує, що Perplexity змінює свій користувацький агент — інформацію, яка вказує веб-сайту, який браузер і пристрій використовуються, або чи є відвідувач ботом — на “імітатор Google Chrome на macOS”. Cloudflare зазначає, що цей “невизначений сканер” використовує “ротаційні” IP-адреси, які не включені до списку IP-адрес, що використовуються його ботами.
Крім того, Cloudflare вказує, що Perplexity змінює свої автономні системи (ASN), номери, які використовуються для ідентифікації груп IP-мереж, контрольованих одним оператором, щоб обійти блокування. “Цю діяльність спостерігали на десятках тисяч доменів і мільйонах запитів на день”, — йдеться в звіті Cloudflare.
У заяві представник Perplexity Джессі Двайер назвав звіт Cloudflare “піар-акцією”, додавши, що “в публікації є багато непорозумінь”. Після цього Cloudflare виключив Perplexity зі списку перевірених ботів і впровадив методи для блокування “прихованого сканування” компанії.