Photo by Joshua Woroniecki on Unsplash
Výzkumníci z Cloudflare tvrdí, že Perplexity stále scrapuje webové stránky navzdory blokování AI botů.
Výzkumníci z poskytovatele internetové infrastruktury Cloudflare tvrdí, že systém umělé inteligence Perplexity skenuje obsah webových stránek bez povolení, dokonce i když vydavatelé implementovali bloky pro AI boty.
Spěcháte? Zde jsou stručné fakty:
- Cloudflare tvrdí, že Perplexity neoprávněně kopíruje obsah z webových stránek.
- Výzkumníci potvrdili „stealth crawling“ chování Perplexity, dokonce i když vydavatelé implementují blokování AI botů.
- Mluvčí Perplexity označil zprávu Cloudflare za „publicitní kousek“.
Podle zprávy, kterou v pondělí sdílel Cloudflare, Perplexity prochází webové stránky pomocí svého výchozího uživatelského agenta a mění svou identitu, aby obešla tyto bloky. Toto chování „stealth crawling“ potvrdili experti z Cloudflare.
„Stále vidíme důkazy o tom, že Perplexity opakovaně upravuje svůj uživatelský agent a mění své zdrojové ASNs, aby skrylo svou aktivitu procházení, stejně jako ignoruje – nebo někdy dokonce nedokáže načíst – soubory robots.txt,“ napsali výzkumníci.
Očekává se, že prohlížeče budou transparentní, jasně uvedou svůj účel a budou respektovat preference webových stránek, ale výzkumníci tvrdí, že Perplexity těmto principům důvěry nesleduje. K tomuto závěru došli po vyšetřování, které bylo iniciováno na základě stížností zákazníků.
„Obdrželi jsme stížnosti od zákazníků, kteří jak zakázali činnost vyhledávacího robota Perplexity v souborech robots.txt, tak také vytvořili pravidla WAF k specifickému blokování obou prohlášených vyhledávacích robotů Perplexity: PerplexityBot a Perplexity-User,“ napsali výzkumníci. „Tito zákazníci nám řekli, že Perplexity byla stále schopna přistupovat k jejich obsahu, i když viděli, že její roboti byli úspěšně blokováni.“
Výzkumníci z Cloudflare uvedli, že tyto tvrzení ověřili replikací bloků a provedením několika testů k pozorování chování vyhledávacího robota. V jednom testu vytvořili nové domény, které ještě nebyly indexovány, a do souborů robots.txt přidali blokování „respektujících robotů“. Později se na Perplexity dotazovali na konkrétní informace o omezených doménách a zjistili, že AI poháněný odpovědník stále poskytoval podrobnosti a přesné informace o webové stránce.
„Tato reakce byla nečekaná, protože jsme podnikli všechna nezbytná opatření, aby tato data nebyla přístupná pro jejich vyhledávače,“ dodali výzkumníci.
Mluvčí společnosti Perplexity, Jesse Dwyer, označil výzkum za „propagační kousek“ ve svém prohlášení pro The Verge. Dwyer dodal, že ve zprávě Cloudflare jsou „nesrovnalosti“.
Cloudflare vyvíjí několik nástrojů, které pomáhají vydavatelům předcházet neoprávněnému procházení AI. V březnu Cloudflare uvedl „AI Labyrinth“, nástroj, který přesměrovává neoprávněné prohlížeče do labyrintů generovaných AI. Minulý měsíc spustil „Pay Per Crawl“, systém, který účtuje AI boty za přístup k obsahu vydavatelů.