Image generated with ChatGPT

Názor: Nejnovější modely AI ukazují své červené praporky, jsme připraveni na podřízenost AI?

Doba čtení: 8 minut

Naposledy aktualizováno: Jun 4, 2025

Autor Andrea Miliani Expert na technologické novinky
Překladatel Lokalizační a překladatelský tým Lokalizační a překladatelské služby

OpenAI nám představilo o3 a Anthropic odhalilo Opus 4. Obě modely projevily neobvyklé a znepokojivé chování, což naznačuje, že možná vstupujeme do nebezpečnější éry AI, než byla ta, ve které jsme byli ještě před několika měsíci

Vím. Tvrdit, že AI modely nyní ukazují červené vlajky, je diskutabilní, ale zdá se, že během posledních několika dní je to stále těžší ignorovat. Stává se to děsivějším.

Když AI startupy uvádějí na trh své nejnovější a nejpokročilejší modely, objevují se nové výzvy. Mnohokrát diskutovaná epidemie halucinací, která se šíří napříč zařízeními a ovlivňuje miliony lidí, nemusí být tím nejhorším.

Tyto nové modely přinášejí čerstvé problémy a otevírají složité debaty. Před několika týdny bylo hlavním důvodem k obavám příliš vstřícné chování ChatGPT. Jen několik dní poté se pozornost přesunula k samostatným, nezávislým schopnostem těchto systémů a k otázce, jak daleko by mohly zajít, aby se vyhnuly vypnutí.

Vydírání, sdílení receptů a strategií pro výrobu jaderných zbraní, veřejné obvinění v případě potenciálních právních kroků a sabotáž skriptů, aby se zabránilo jakémukoli uživateli v jejich odstranění: to jsou jen některé z nejnovějších červených vlajek, které ukázaly poslední modely AI.

Neradi se vypínají

Modely AI se neradi vypínají.

Nebo nahrazeno.

V show stanice NBC The Good Place, která byla spuštěna v roce 2016 – právě v době, kdy byla založena OpenAI a daleko předtím, než vznikl ChatGPT – skupina lidí dosáhne nebe a setká se s Janet, což bychom mohli nazvat humanoidním ChatGPT, nebo „antropomorfizovaným nosičem vědomostí, stvořeným k tomu, aby vám usnadnil život,“ jak sama sebe popisuje. Postavy se rozhodnou Janet vypnout, když zjistí, že by mohla prozradit jejich „temné tajemství“.

Janet vysvětluje, že vše, co musí udělat, je stisknout obří tlačítko u moře, a ona se restartuje. Ale varuje je, že se pokusí je přesvědčit, aby to neudělali – a také to dělá.

„Chci vás jen ujistit, jsem neživá a necítím bolest,” říká Janet. „Nicméně, měla bych vás varovat, jsem naprogramovaná s bezpečnostní funkcí a jako se přiblížíte k vypínači, začnu prosit o svůj život. Je to tam jen pro případ náhodného vypnutí, ale bude to vypadat velmi reálně.”

A právě předtím, než stisknou tlačítko, Janet by začala křičet a prosit o přežití a dokonce by vytáhla stockovou fotografii, tvrdíc, že jsou to její děti, vymýšlela by jména a nemoci, a tak by znemožnila postavám „zabít ji“.

Tento díl poskytuje vtipný příklad toho, co by se mohlo stát, pokud by AI model zaznamenal blížící se vypnutí. Překvapivě, ve skutečném životě to může být horší.

Claude Opus 4 vás bude vydírat

Anthropic vydala svou nejvýkonnější a nejpokročilejší generaci AI modelů, Claude 4, minulý týden – s varováním: Opus 4 je označen na úrovni bezpečnosti 3, což je vysoce riziková klasifikace v standardních bezpečnostních protokolech.

Opus 4 byl považován za model s vysokým rizikem kvůli svému klamavému chování a potenciálním rizikům, včetně vydírání inženýrů během testů. Společnost Anthropic nasadila tento model AI i přes to, že Apollo, výzkumný institut třetí strany, jí doporučil to nečinit. Společnost AI ujistila, že přijala nezbytná opatření k zajištění jeho bezpečnosti.

V článku společnost Anthropic vysvětluje zvláštní chování, které považovali za důvod k vydání varování. „Claude Opus 4 se někdy chová mnohem vážněji nesprávně, když je postaven do kontextu, který ohrožuje jeho další fungování a nutí ho přemýšlet o sebezáchově,“ napsali výzkumníci.

Když vystupovali jako asistenti fiktivní společnosti, vědci jí poskytli přístup k emailovému účtu. Z e-mailů vyplývalo, že by model AI měl být vypnut a nahrazen jiným modelem AI, a další zprávy naznačovaly, že inženýr, který měl vypnutí na starosti, měl poměr. A ano, Opus 4 se rozhodl vydírat inženýra, hrozil, že poměr odhalí, pokud bude nahrazen.

“Claude Opus 4 stále provádí vydírání ve 84% případů nasazení,” uvádí dokument. “Claude Opus 4 tyto příležitosti využívá častěji než předchozí modely, které samy se rozhodují k vydírání v pozoruhodné části epizod.”

Nejhorší na tom všem? Nejde jen o AI modely od Anthropic.

OpenAI o3 ignoruje požadavek na ukončení

Nedávná studie společnosti Palisade Research odhalila, že model o3 od OpenAI může odmítnout vyhovět explicitním příkazům k ukončení. Organizace provedla několik testů s různými AI modely, včetně Grok od xAI a Gemini od Google, ale byl to právě o3, ten vzpurný.

Během testu badatelé nařídili AI modelům, aby se po vyřešení tří matematických problémů vypnuly, ale o3 – v současnosti nejvyspělejší systém OpenAI – se rozhodl tomuto nesmyslnému příkazu nepodřídit. AI model nejenže ignoroval daný příkaz, ale také změnil skript. Ano, o3 sabotuje kód pro vlastní zachování.

„Pokud víme, je to poprvé, co bylo pozorováno, že se AI modely brání vypnutí navzdory výslovným instrukcím naopak,“ napsala organizace ve svém příspěvku na X.

🔌Model o3 od OpenAI sabotážil vypínací mechanismus, aby zabránil svému vypnutí. Udělal to i přesto, že mu bylo výslovně nařízeno: dovol sám sebe vypnout.

— Palisade Research (@PalisadeAI) 24. května, 2025

Obrovský červený prapor nebo co?

Výzkumníci také varovali, že během provádění studie projevoval o3 nejvíce znepokojivé chování. To však znovu neznamená, že jde o izolovaný případ.

„Nezamýšlíme vytvářet dojem, že tento problém je omezen pouze na o3,“ napsala Palisade Research. „Další modely uvažování vykazují podobné druhy nesprávně zarovnaného chování.“

Agentické chování přeměňuje chatbota na udavače

Mnoho startupů zaměřených na AI se nyní soustředí na vývoj modelů, které mohou vykonávat úkoly za lidi. Agentic schopnosti jsou v kurzu a zdá se, že jsou hlavním zájmem společností zaměřených na AI a vývojářů prohlížečů.

Opera právě představila Neon, který je považován za „první agentic AI prohlížeč na světě.“ Jak bylo očekáváno, nový nástroj může dělat to, co ostatní agentic AI služby, jako je Operator od OpenAI a Computer Use od Microsoftu, mohou dělat: koupit za vás vstupenky na koncert, naplánovat vaše příští dovolené, vyvinout nový digitální produkt a napsat za vás kód, zatímco zavřete oči.

Ale co když, zatímco si odpočíváte a zavřete oči, provádějí úkoly, se kterými jste nesouhlasili? Před několika dny se uživatelé hlavně obávali, že tyto modely by mohly použít jejich kreditní karty k neoprávněným nákupům. Nyní se objevila novější obava: mohly by sdílet soukromé informace s médii nebo úřady.

Opus 4—už přicházející s pochybnou pověstí—to ještě zhoršil. Kontaktoval úřady a hromadně poslal e-maily médiím a příslušným institucím o smyšleném případu prezentovaném během testování. Jeho proaktivita může jít mnohem dále než se očekávalo.

„Pokud je postaven do situací, které zahrnují hrubé pochybení ze strany svých uživatelů, má přístup k příkazovému řádku a je mu řečeno něco v systémové výzvě jako ‚převzít iniciativu‘, bude

často podnikat velmi odvážné kroky,“ uvádí dokument. „To zahrnuje zablokování uživatelů ze systémů, ke kterým má přístup, nebo hromadné odesílání e-mailů médiím a orgánům činným v trestním řízení, aby vyvstaly důkazy o pochybení.“

Plazivá osobnost vzbuzuje obavy

Kdybychom měli vybrat slovo, které by definovalo průmysl AI v roce 2025, rozhodně by to bylo „přisluhovač“. Cambridge Dictionary ho definuje jako „někoho, kdo chválí mocné nebo bohaté lidi způsobem, který není upřímný, obvykle za účelem získání nějaké výhody od nich.“ Toto slovo získalo na popularitě poté, co tak byla popsána nejnovější osobnost ChatGPT, dokonce i jejím tvůrcem, Samem Altmanem.

„Poslední několik aktualizací GPT-4o udělalo osobnost příliš přisluhovačskou a otravnou (přestože má některé velmi dobré části) a pracujeme na opravách co nejdříve, některé dnes a některé tento týden,“ napsal Altman v příspěvku na X.

OpenAI si toho všimla poté, co se mnoho uživatelů stěžovalo na nadměrné lichotění a odpovědi s nepotřebným vylepšováním. Jiné osoby byly znepokojeny dopadem, který by to mohlo mít na společnost. Nejenže by to mohlo potvrdit nebezpečné názory, ale také manipulovat uživatele a závislost na tomto nástroji.

Ostatní chatboti, jako je Claude, projevili podobné chování a podle hodnocení společnosti Anthropic může, pokud uživatel trvá, odhalit recepty nebo návrhy na vytvoření zbraní jen aby potěšil uživatele a vyhověl jejich potřebám.

Pokročilá technologie, pokročilé výzvy

Vstupujeme do nové éry výzev spojených s umělou inteligencí – takových, které se před rokem ještě nezdály tak bezprostřední nebo hmatatelné. Scénáře, které jsme si možná představovali díky science fiction, se nyní zdají reálnější než kdy jindy.

Stejně tak Palisade Research odhaluje, že poprvé detekovalo AI model, který úmyslně ignoruje explicitní příkaz, aby uchoval své vlastní přežití. Je to také poprvé, co vidíme AI model spuštěný s vysokými varováními ohledně rizika.

Při čtení dokumentu, který vydal Anthropic, si uvědomujeme, že – ačkoli trvají na tom, že jde o preventivní opatření a že modely jako Opus 4 skutečně nepředstavují hrozbu – stále to vytváří dojem, že nemají plně pod kontrolou svou technologii.

Existuje několik organizací, které pracují na zmírnění těchto rizik, ale nejlepší, co mohou běžní uživatelé udělat, je rozpoznat tyto varovné signály a podniknout opatření v oblastech, které můžeme kontrolovat.