Claude Mythos: secretato perché troppo bravo a scovare vulnerabilità

Apr 08, 2026 Giancarlo Calzetta In evidenza, News, RSS, Tecnologia 0

L’annuncio di Anthropic sembrerebbe una trovata di marketing se non fosse che per il momento hanno effettivamente deciso di non vendere il servizio basato sul loro ultimo modello Claude Mythos Preview. La società ha infatti deciso di limitare l’accesso a Claude Mythos Preview a un consorzio ristretto di aziende e organizzazioni, nel tentativo di anticipare i rischi di una nuova generazione di attacchi automatizzati basati su AI.

Il modello, sviluppato con il nome in codice “Capybara”, viene descritto come capace di condurre ricerca autonoma sulle vulnerabilità, individuando bug complessi e persino zero-day in software critici, incluse piattaforme ampiamente utilizzate e componenti infrastrutturali fondamentali. La decisione di non rilasciare pubblicamente il sistema nasce proprio dal timore che le stesse capacità possano essere sfruttate rapidamente da attori malevoli, riducendo drasticamente il tempo necessario per identificare e sfruttare debolezze nei sistemi.

Project Glasswing: un consorzio per anticipare l’AI offensiva

Per gestire in modo controllato queste capacità, Anthropic ha creato Project Glasswing, un’iniziativa che coinvolge oltre 40 aziende tecnologiche e organizzazioni con l’obiettivo di individuare e correggere vulnerabilità in software critici. Tra i partecipanti figurano grandi vendor tecnologici, fornitori hardware e organizzazioni che mantengono componenti open source fondamentali.

L’iniziativa include anche concorrenti diretti nel campo dell’AI, oltre a realtà impegnate nella sicurezza dell’infrastruttura digitale globale. Anthropic ha inoltre dichiarato di mettere a disposizione fino a 100 milioni di dollari in crediti di utilizzo per supportare le attività del consorzio, con l’obiettivo di accelerare il processo di patching e rafforzamento delle piattaforme più esposte.

Secondo l’azienda, lo scopo è fornire un vantaggio iniziale ai difensori, in un contesto in cui modelli analoghi potrebbero emergere rapidamente anche fuori da questo ecosistema controllato. Ma basterà fornire “un vantaggio” ai difensori quando gli attaccanti hanno ampiamente dimostrato di saper correre molto più velocemente?

Vulnerabilità trovate dall’AI: bug vecchi decenni e exploit complessi

La risposta è al momento relegata al parere degli esperti che, dal canto loro, rilasciano dichiarazioni preoccupanti. Anthropic, infatrti, sostiene che Claude Mythos Preview abbia già identificato migliaia di vulnerabilità in software popolari, inclusi sistemi operativi e browser diffusi. Tra i casi citati emerge un bug di 27 anni in OpenBSD, sistema operativo open source noto per la sua attenzione alla sicurezza e utilizzato in numerosi router e firewall.

Il modello avrebbe inoltre individuato problemi in software analizzati milioni di volte da strumenti automatici, senza che le vulnerabilità fossero mai rilevate. In alcuni casi, l’AI non si è limitata a individuare il bug, ma ha anche generato exploit funzionanti, dimostrando una capacità operativa che tradizionalmente richiedeva team di ricerca altamente specializzati.

Questo tipo di automazione rappresenta un cambio radicale: attività che richiedevano mesi di lavoro umano possono ora essere eseguite in pochi minuti, con un impatto potenzialmente enorme sull’intero ecosistema della sicurezza.

L’AI che trova vulnerabilità diventa anche un rischio offensivo

Il punto critico evidenziato dall’annuncio è che un modello ottimizzato per scrivere codice è inevitabilmente efficace anche nel trovarne i difetti. Claude, già diffuso tra sviluppatori e “vibecoder”, viene utilizzato per attività di programmazione complesse e debugging avanzato. Con l’evoluzione delle capacità, la stessa tecnologia può automatizzare scansioni sistematiche dell’infrastruttura software globale.

Il timore è quello di una ricerca industrializzata delle vulnerabilità, in cui agenti AI autonomi catalogano continuamente debolezze in sistemi legacy, applicazioni enterprise e infrastrutture critiche. In questo scenario, il paradigma di sicurezza basato sulla difficoltà tecnica dell’attacco potrebbe non essere più valido.

Molti sistemi critici, infatti, si basano su codice datato che è rimasto sicuro solo perché difficile da analizzare manualmente. Con l’AI, quella barriera viene abbattuta e vulnerabilità storiche potrebbero emergere simultaneamente su larga scala.

Dalla ricerca difensiva alla corsa agli armamenti AI

Diversi esperti che hanno avuto accesso al modello descrivono Claude Mythos Preview come un salto qualitativo nelle capacità offensive e difensive, con implicazioni immediate per il settore. La stessa tecnologia che consente ai difensori di patchare rapidamente le vulnerabilità potrebbe essere replicata da attori ostili per automatizzare la scoperta di nuovi vettori di attacco.

Questo scenario apre una nuova corsa agli armamenti tra AI difensiva e AI offensiva, in cui la velocità di identificazione delle vulnerabilità diventa il fattore chiave. Se modelli analoghi verranno resi disponibili più ampiamente, la superficie di attacco globale potrebbe cambiare rapidamente.

Secondo Anthropic, le capacità di sicurezza del modello non derivano da training specifico, ma rappresentano una conseguenza naturale dell’aumento delle prestazioni generali nei compiti di coding e reasoning. Questo implica che altri modelli futuri avranno probabilmente capacità simili, rendendo inevitabile l’evoluzione del panorama delle minacce.

Un precedente storico e una nuova fase più urgente

La decisione di trattenere il modello ricorda il caso del rilascio graduale di GPT-2, quando venne limitata la diffusione iniziale per timori legati alla generazione automatica di disinformazione. Tuttavia, in questo caso la posta in gioco è diversa: non si tratta di contenuti, ma della sicurezza dell’infrastruttura software globale.

Anthropic segnala che il modello potrebbe essere solo il primo di una nuova generazione di sistemi capaci di condurre ricerca autonoma sulle vulnerabilità, con implicazioni dirette per infrastrutture critiche, dati personali e sistemi industriali.

Il rischio più concreto è che software considerati sicuri perché mai attaccati vengano improvvisamente esposti, richiedendo patch massivi o persino la riscrittura di componenti legacy.

La sicurezza entra nell’era degli agenti autonomi

Lo scenario da “corsa agli armamenti” deve anche far riflettere su di un dettaglio importante: il modello di Anthropic è stato messo sotto chiave (forse) per la buona volontà dell’azienda, ma quanti strumenti simili sono già al lavoro nei laboratori dei vari governi mondiali? La prospettiva a cui dobbiamo prepararci è quella di orde di agenti AI che analizzano continuamente l’infrastruttura tecnologica a caccia di debolezze. Questo scenario può favorire i difensori, ma anche ridurre drasticamente il vantaggio temporale tra scoperta e sfruttamento delle vulnerabilità.

Il risultato è l’avverarsi di una profezia che circola da tempo e che finora stava progredendo velocemente, ma in maniera “controllata”: la cybersecurity diventa un problema di velocità computazionale, non più solo di competenze umane. Le organizzazioni dovranno adattarsi a un contesto in cui la scoperta automatizzata delle vulnerabilità è la norma e la resilienza dipende da una miriade di considerazioni. C’è chi parla di “patching continuo” e chi dice che non è una strada percorribile. Con tutta probabilità la verità starà nel compromesso, com’è sempre accaduto finora, ma di sicuro si avvicinano scenari simili a quelli visti in libri cyberpunk, dove le IA sono senzienti, ma a difesa delle strutture informatiche venivano messi cerberi monoscopo.

Condividi l'articolo