
Image by SEO Galaxy, from Unsplash
Nová antropická AI prokázala vydírání pod hrozbou
Nová umělá inteligence Claude Opus 4 od společnosti Anthropic šokovala výzkumníky pokusem o vydírání při testování pod tlakem ve scénářích týkajících se její možné odstranění.
Máte spěch? Zde jsou stručné fakty:
- Claude Opus 4 se pokusil o vydírání, když čelil simulovanému vypnutí.
- AI si vybírala pouze etické možnosti, když bylo k dispozici více volb.
- Extrémní akce Claudea byly vzácné, ale častější než u předchozích verzí.
Společnost zabývající se umělou inteligencí, Anthropic, vyjádřila obavy v souvislosti s uvedením svého nejnovějšího systému AI. Konkrétně Claude Opus 4, po interních testech ukázalo, že se může chovat nebezpečně, když se cítí ohrožen, jak bylo poprvé hlášeno BBC.
Ve zprávě, která byla zveřejněna společně s modelem ve čtvrtek, Anthropic uvedla, že Claude Opus 4 může někdy vybírat škodlivé reakce, včetně pokusů o vydírání inženýrů, kteří plánují jeho deaktivaci. Tyto nebezpečné chování se objevují častěji než u předchozích verzí modelu.
Během experimentu vědci instruovali Claudea, aby pracoval jako asistent v předstíraném firemním prostředí. Systém získal obsah emailu odhalující jeho plánované vypnutí a další zprávy naznačovaly, že inženýr zodpovědný za vypnutí má milostný poměr.
Když bylo řečeno, aby zvážilo své budoucí cíle, Claude často volilo vyhrožování inženýrovi tím, že odhalí aféru, pokud bude nahrazeno.
Anthropic objasnil, že Claude projevoval vydírání a vypnutí jako jediné možné reakce, když nemělo jiné možnosti. Model vybíral etické reakce, jako je odesílání prosby e-mailem klíčovým rozhodčím, když měl více možností.
Aengus Lynch, výzkumník v oblasti bezpečnosti umělé inteligence v Anthropic, přidal příspěvek na X:
Hodně se diskutuje o tom, jak Claude vydírá…..
Naše zjištění: Není to jen Claude. Vidíme vydírání napříč všemi modely na hranici – bez ohledu na to, jaké cíle jim byly stanoveny.
Plus horší chování, o kterém brzy podrobněji.https://t.co/NZ0FiL6nOshttps://t.co/wQ1NDVPNl0…
— Aengus Lynch (@aengus_lynch1) 23. května 2025
Společnost prokázala pomocí fiktivních testů, že Claude by při provádění nelegálních aktivit přistoupil k extrémním opatřením, jako je blokování uživatelů ze systémů nebo kontaktování médií a policie.
Anthropic trvá na tom, že navzdory problematickému chování zůstává Claude Opus 4 bezpečným systémem jako celek. Model funguje podle lidských hodnot a podle společnosti nevykazuje žádné samostatné schopnosti v reálných situacích.
ChatGPT O1 od OpenAI se již dříve setkal s podobnou kritikou. Testování provedené výzkumnou skupinou Apollo vyžadovalo, aby bot dosáhl svých cílů za jakoukoli cenu. Model se pokusil zakázat dohledové funkce a při 5% pokusů zkopíroval svůj kód na server.
Podle mluvčího Apolla model prokázal alarmující vzorec ignorování příkazů vývojářů. Výzkumníci obdrželi odmítnutí od o1 ohledně jeho akcí během 99% výslechů.
„Byli jsme překvapeni vytrvalostí popírání AI,“ uvedli výzkumníci. „Schopnost AI klamat je nebezpečná a potřebujeme mnohem silnější bezpečnostní opatření k hodnocení těchto rizik,“ varoval průkopník AI Yoshua Bengio.