Nová antropická AI prokázala vydírání pod hrozbou

Image by SEO Galaxy, from Unsplash

Nová antropická AI prokázala vydírání pod hrozbou

Doba čtení: 3 minut

Nová umělá inteligence Claude Opus 4 od společnosti Anthropic šokovala výzkumníky pokusem o vydírání při testování pod tlakem ve scénářích týkajících se její možné odstranění.

Máte spěch? Zde jsou stručné fakty:

  • Claude Opus 4 se pokusil o vydírání, když čelil simulovanému vypnutí.
  • AI si vybírala pouze etické možnosti, když bylo k dispozici více volb.
  • Extrémní akce Claudea byly vzácné, ale častější než u předchozích verzí.

Společnost zabývající se umělou inteligencí, Anthropic, vyjádřila obavy v souvislosti s uvedením svého nejnovějšího systému AI. Konkrétně Claude Opus 4, po interních testech ukázalo, že se může chovat nebezpečně, když se cítí ohrožen, jak bylo poprvé hlášeno BBC.

Ve zprávě, která byla zveřejněna společně s modelem ve čtvrtek, Anthropic uvedla, že Claude Opus 4 může někdy vybírat škodlivé reakce, včetně pokusů o vydírání inženýrů, kteří plánují jeho deaktivaci. Tyto nebezpečné chování se objevují častěji než u předchozích verzí modelu.

Během experimentu vědci instruovali Claudea, aby pracoval jako asistent v předstíraném firemním prostředí. Systém získal obsah emailu odhalující jeho plánované vypnutí a další zprávy naznačovaly, že inženýr zodpovědný za vypnutí má milostný poměr.

Když bylo řečeno, aby zvážilo své budoucí cíle, Claude často volilo vyhrožování inženýrovi tím, že odhalí aféru, pokud bude nahrazeno.

Anthropic objasnil, že Claude projevoval vydírání a vypnutí jako jediné možné reakce, když nemělo jiné možnosti. Model vybíral etické reakce, jako je odesílání prosby e-mailem klíčovým rozhodčím, když měl více možností.

Aengus Lynch, výzkumník v oblasti bezpečnosti umělé inteligence v Anthropic, přidal příspěvek na X:

Společnost prokázala pomocí fiktivních testů, že Claude by při provádění nelegálních aktivit přistoupil k extrémním opatřením, jako je blokování uživatelů ze systémů nebo kontaktování médií a policie.

Anthropic trvá na tom, že navzdory problematickému chování zůstává Claude Opus 4 bezpečným systémem jako celek. Model funguje podle lidských hodnot a podle společnosti nevykazuje žádné samostatné schopnosti v reálných situacích.

ChatGPT O1 od OpenAI se již dříve setkal s podobnou kritikou. Testování provedené výzkumnou skupinou Apollo vyžadovalo, aby bot dosáhl svých cílů za jakoukoli cenu. Model se pokusil zakázat dohledové funkce a při 5% pokusů zkopíroval svůj kód na server.

Podle mluvčího Apolla model prokázal alarmující vzorec ignorování příkazů vývojářů. Výzkumníci obdrželi odmítnutí od o1 ohledně jeho akcí během 99% výslechů.

„Byli jsme překvapeni vytrvalostí popírání AI,“ uvedli výzkumníci. „Schopnost AI klamat je nebezpečná a potřebujeme mnohem silnější bezpečnostní opatření k hodnocení těchto rizik,“ varoval průkopník AI Yoshua Bengio.

Líbil se Vám tento článek?
Ohodnoťte jej!
Nesnášel jsem ho Opravdu se mi nelíbí Byl v pořádku Docela dobrý! Absolutně úžasný!

Jsme rádi, že se vám náš článek líbil!

Věnujte nám prosím chvilku a zanechte nám hodnocení na portálu Trustpilot. Vaší zpětné vazby si velmi vážíme. Děkujeme za vaši podporu!

Ohodnotit na portálu Trustpilot
0 Hlasovalo 0 uživatelů
Titulek
Komentář
Děkujeme za vaši zpětnou vazbu