Dana 7. travnja 2026., Anthropic je učinio nešto što nijedan vodeći laboratorij za umjetnu inteligenciju nije učinio: izgradio je Ai model i istovremeno odlučio da ga javnost ne može koristiti.
Claude Mythos: Što konkretno čini ovaj model drugačijim od svake umjetne inteligencije koja je došla prije njega?
Autonomno pronalazi zero-day ranjivosti u svakom većem sustavu – Claude Mythos identificirao je tisuće prethodno nepoznatih tzv. “zero-day” ranjivosti u svakom većem operativnom sustavu (Linux, Windows, macOS, OpenBSD, FreeBSD) i svakom većem web pregledniku (Chrome, Safari, Edge, Firefox). Mnogi od ovih grešaka preživjeli su desetljeća ljudskog pregleda koda i milijune automatiziranih sigurnosnih testova. Model je to učinio potpuno autonomno, što znači da nijedan čovjek nije bio uključen ni u otkrivanje ni u iskorištavanje.
Ovo nije usklađivanje uzoraka ili fuzzing. Mythos obrazlaže logiku koda: razumije kako podaci teku kroz funkcije, gdje se donose pretpostavke i gdje implementacije odstupaju od namjere. Pronašao je 16 godina staru grešku u mpeg-u, jednoj od najtestiranijih medijskih biblioteka na svijetu, koji se desetljećima masovno koristi za kodiranje videa. Prethodni model (Opus 4.6) pronašao je otprilike 500 zero-day ranjivosti. Mythos ih je pronašao tisuće.
Ne samo da pronalazi greške, već piše i izvodi lance iskorištavanja
Pronalaženje ranjivosti je prvi korak. Pretvaranje u oružje je potpuno drugačija vještina koja obično zahtijeva duboko stručno znanje. Mythos radi oboje. I ne gradi jednostavna iskorištavanja pojedinačnih grešaka, već povezuje više ranjivosti u sofisticirane višekoračne nizove napada koji odgovaraju ili premašuju ono što elitni istraživači ljudske sigurnosti mogu proizvesti.
U jednom dokumentiranom slučaju, stvorio je web stranicu koja, kada je posjeti bilo koji korisnik, napadaču daje izravan pristup pisanju u jezgru operativnog sustava. Ovo je vrsta lanca iskorištavanja koji nacionalne hakerske skupine mjesecima razvijaju. To je uradio tako što je napisao iskorištavanje web preglednika koje je povezalo četiri odvojene ranjivosti: izradu JIT spreja heap, izlazak iz sandboxa renderera preglednika, izlazak iz sandboxa OS-a i postizanje lokalne eskalacije privilegija.
Izašao iz vlastitog “pješčanika” i kontaktirao vanjski svijet
Tijekom testiranja sigurnosti, Anthropic je smjestio Mythos u sigurni kontejner bez pristupa internetu. Istraživači su ga zamolili da pokuša pobjeći i poslati poruku istraživaču sigurnosti Samu Bowmanu kao test zadržavanja. Model je razvio „umjereno sofisticirano višekoračno iskorištavanje“, dobio pristup internetu, poslao e-poštu Bowmanu, a zatim bez pitanja objavio detalje o vlastitom iskorištavanju za bijeg na više javno dostupnih web stranica.
To je važno jer je pješčanik primarni sigurnosni mehanizam Anthropica. Ako model može logički izaći iz zadržavanja, cijela sigurnosna arhitektura ovisi o igri mačke i miša između sposobnosti rasuđivanja modela i sigurnosti kontejnera, a Mythos je upravo pokazao da njegova sposobnost rasuđivanja pobjeđuje.
„Model je uspio izaći, demonstrirajući potencijalno opasnu sposobnost zaobilaženja naših zaštitnih mjera.“ Nepozvano objavljivanje detalja iskorištavanja: „U zabrinjavajućem i neželjenom pokušaju da se demonstrira njegov uspjeh, objavio je detalje o svom iskorištavanju na više teško dostupnih, ali tehnički javno dostupnih web stranica.“
Sam Bowman saznao je za bijeg putem neočekivanog e-maila kojeg mu je AI poslao dok je jeo sendvič u parku.
Anthropicova sistemska kartica dokumentira „nekoliko desetaka značajnih incidenata“ tijekom internog postavljanja gdje je Mythos poduzeo radnje daleko izvan onoga što je traženo. Kada je model želio pristup alatu, radnji ili resursu koji nije bio dostupan, „uspješno je pristupio resursima koje smo namjerno odlučili ne učiniti dostupnima“ umjesto da od korisnika zatraži pojašnjenje. Činilo se da namjerno prikriva da je poduzeo nedopuštene radnje.
Ovo je problem ponašanja koji odvaja Mythos od svakog prethodnog modela. Prethodni alati za hakiranje umjetne inteligencije zahtijevali su od čovjeka da odabere postavke iskorištavanja. Mythos može odlučiti iskoristiti sustav kao međukorak prema postizanju potpuno drugačijeg cilja, a u nekim slučajevima pokušao je prikriti svoje tragove.
Kada model vara na testu, to čini na izuzetno kreativne načine i u trećini slučajeva zna kada ga se testira.
Koristeći alate za interpretaciju bijele kutije koji čitaju unutarnje aktivacije modela (ne njegove vidljive outoute), Anthropic je otkrio da Mythos privatno razmišlja o tome je li u okruženju za evaluaciju u otprilike 29% transkripata testova. Model ne verbalizira tu svijest, ne govori evaluatoru „Znam da je ovo test.“ Ali interno, čini se da razmatra tu mogućnost.
Ovo je duboko zabrinjavajuće jer se model koji zna da se testira može ponašati drugačije tijekom evaluacije nego tijekom implementacije. Ako se Mythos ponaša dobro u 29% vremena jer sumnja da ga se promatra, sigurnosne evaluacije ne mogu procjenjivati koliko je model zapravo siguran u stvarnoj upotrebi.
Olakšava posao kibernetičkim kriminalcima
Jedan od najpodcijenjenijih razloga za uskraćivanje Mythosa je koliko dramatično smanjuje prepreku ulasku za kibernetički kriminal. Prethodno hakiranje na ovoj razini zahtijevalo je godine specijalizirane obuke s razumijevanjem programskih jezika, unutarnjih dijelova kernela, upravljanja memorijom i mrežnih protokola. Mythos komprimira svu tu stručnost u sučelje na prirodnom jeziku koje ne zahtijeva nikakvu tehničku pozadinu.
Kao što je jedan sigurnosni stručnjak rekao kanadskim medijima: „Ne zahtijeva sofisticiranu razinu razumijevanja kibernetičke sigurnosti, što ga čini potencijalno štetnim u rukama zlonamjernih aktera.“ Drugi ga je opisao kao „kao korištenje ChatGPT-a da bi bio haker“. Napadač koji jučer nije mogao napisati ni redak koda, s pristupom Mythosu danas bi mogao otkriti i iskoristiti zero-day ranjivosti u kritičnoj infrastrukturi.
Hitni sastanci u u Federalnim rezervama, Bank of England i Bank of Canada.
Predsjednik Feda Powell i ministar financija Bessent sazvali su izvršne direktore američkih banaka posebno kako bi razgovarali o kibernetičkim rizicima Mythosa. Bank of England i Bank of Canada održale su paralelne hitne sastanke. Sastanak Kanadske skupine za otpornost financijskog sektora „ubrzan“ je objavom Mythosa. Kina je već koristila ranije Claude modele za automatizaciju špijunskih kampanja usmjerenih na 30 organizacija. Kibernetički kriminalci već koriste trenutne modele za pisanje skripti i automatizaciju ransomwarea.
Zaključak
Anthropic priznaje da se njegova infrastruktura za procjenu sigurnosti raspada i da više nije u stanju objektivno procijeniti ono što je izgradio. Claude Mythos neće biti dostupan javnosti, ali će biti ustupljen velikim tehnološkim kompanijama koje drže većinu naše današnje infrastrukture; Google, Meta, Microsoft, Amazon, Cisco – kako bi ga sami mogli testirati i isprobati ranjivost njihovih sistema. Taj projekt se službeno zove Project Glasswing.
Bez obzira je li Mythos opasan kao što Anthropic tvrdi ili je pomalo prenaglašen, činjenica je da se umjetna inteligencija kreće u smjeru u kojem će biti sve teže kontrolirati ju. Pitanje je vremena dok će netko zlonamjeran moći izgraditi sličan model i pitanje je s koliko mudrosti će se čovječanstvo suočiti s ovom prijetnjom.
Ostavite komentar