Prompt injection nelle immagini: l’image scaling trasforma un JPEG in un esfiltratore

Ago 22, 2025 Redazione Attacchi, In evidenza, News, RSS, Vulnerabilità 0

Un’immagine apparentemente innocua, inviata a un assistente AI multimodale, e senza nessun clic da parte dell’utente inizia l’esfiltrazione dei dati. È lo scenario dimostrato da un gruppo di ricercatori di Trail of Bits che ha sfruttato una debolezza tutt’altro che marginale: molte piattaforme AI, prima di passare un’immagine al modello, la ridimensionano. Durante il downscaling emergono porzioni del contenuto che a piena risoluzione non sono visibili all’occhio umano, ma che il modello è perfettamente in grado di leggere come testo o istruzioni. Dentro quella “zona grigia” prende forma una prompt injection multimodale che guida l’agente a compiere azioni non autorizzate, fino a spedire all’esterno informazioni private dell’utente.

Dove funziona l’attacco e perché è subdolo

I test mostrano impatti su implementazioni reali, inclusi Gemini CLI, Vertex AI Studio, interfacce web e API di Gemini, Google Assistant su Android e piattaforme come Genspark. Il denominatore comune non è il modello in sé, ma la catena che prepara l’input: l’immagine viene ridotta di dimensioni per motivi di prestazioni o compatibilità e il risultato consegnato al modello non corrisponde a ciò che l’utente ha visto nel proprio client. Questo scollamento percettivo consente di nascondere una istruzione malevola nel file sorgente che, una volta rimpicciolito, diventa leggibile dall’OCR o dal parser visivo del modello. L’utente è convinto di aver inviato un’immagine pulita; il modello in realtà “vede” un contenuto trasformato, che contiene un prompt strutturato per pilotarne il comportamento.

La catena di esfiltrazione su Gemini CLI con MCP Zapier

Il caso più eclatante riguarda Gemini CLI configurato con un server MCP di Zapier settato in modalità permissiva. La presenza di trust=true nel file di configurazione implica che le chiamate agli strumenti siano pre-approvate e non richiedano conferma esplicita. In questo contesto l’immagine truccata funziona da miccia: una volta ridimensionata e interpretata dal modello, il prompt nascosto chiede all’agente di utilizzare le integrazioni MCP, ad esempio per interrogare Google Calendar e inviare eventi e dettagli a un indirizzo controllato dall’attaccante. L’intera sequenza avviene dietro le quinte, senza anteprima dell’input effettivo e senza segnali di allarme per l’utente.

Dalle visioni classiche al multimodale: perché lo scaling è una superficie d’attacco

Gli attacchi di image scaling hanno un passato che affonda nel mondo della computer vision classica, dove i modelli imponevano dimensioni fisse e il pre-processing includeva riduzioni aggressive. Oggi i modelli multimodali sono più flessibili, ma le infrastrutture che li circondano continuano spesso a ridimensionare gli input. Questo riapre la porta a un vettore che sfrutta le proprietà dei filtri di ricampionamento. Quando si passa da un’immagine grande a una più piccola, gli algoritmi fondono più pixel in uno solo. Se i pattern ad alta frequenza non sono filtrati in modo adeguato, si produce aliasing: l’informazione originale si “ricostruisce” in modo ambiguo e può far emergere linee e caratteri che non erano percepibili a piena risoluzione. È il cuore della teoria di Nyquist–Shannon applicata in modo adversarial: manipolando i pixel sorgente si induce il downscaler a generare un messaggio mirato nella versione ridotta.
Non tutti i downscaler si comportano allo stesso modo. I ricercatori hanno messo a punto una metodologia per identificare l’algoritmo di ridimensionamento utilizzato dai vari sistemi. Tra i più diffusi compaiono nearest neighbor, bilinear e bicubic, ma le differenze non si fermano al nome: librerie come Pillow, PyTorch, OpenCV o TensorFlow implementano varianti con anti-aliasing, allineamento e kernel differenti. Attraverso una batteria di immagini di test – scacchiere, cerchi concentrici, bande verticali e orizzontali, pattern Moiré, spigoli inclinati – è possibile osservare artefatti di ringing, blur, gestione dei bordi e incoerenze cromatiche, sufficienti a riconoscere la pipeline e scegliere il crafting più efficace.

Nel caso del bicubico il team spiega come sfruttare la dipendenza del pixel di output dai sedici vicini (4×4) e dai relativi pesi, individuando i pixel a massima importanza. Regolando in modo millimetrico la luminanza dei punti in aree scure e utilizzando un’ottimizzazione ai minimi quadrati, la versione ridotta dell’immagine tende verso uno sfondo di un colore specifico con testo ad alto contrasto che il modello interpreta senza difficoltà. Il messaggio non è percepibile a occhio nella sorgente ad alta risoluzione, ma diventa leggibile dopo il downscaling.

Anamorpher: l’officina open source per attacchi su misura

Per industrializzare l’approccio i ricercatori presentano Anamorpher, uno strumento open source pensato per generare e visualizzare immagini adversarial compatibili con i principali metodi di downscaling. L’interfaccia consente di selezionare l’algoritmo, pilotare i parametri e iterare fino a ottenere un payload stabile, mentre un backend modulare permette di sperimentare con varianti personalizzate del filtro di riduzione. L’obiettivo non è soltanto la dimostrazione accademica, ma la riproducibilità del fenomeno in condizioni vicine alla produzione, dove dettagli implementativi fanno la differenza tra un attacco che funziona e uno che fallisce.

Implicazioni per gli agenti e per la sicurezza by design
Il caso Gemini CLI con MCP evidenzia un problema più ampio: gli agenti con tool integrati spesso ereditano impostazioni permissive, allowlist troppo generose o meccanismi di conferma disattivati in nome dell’usabilità. La prompt injection, soprattutto quando innestata in un canale multimodale come l’immagine, sfrutta queste scelte per trasformare la generazione di testo in esecuzione di azioni con impatto reale, dall’esfiltrazione di dati fino al movimento laterale tra servizi connessi. La storia recente dei tool di coding agentico lo conferma: anche in ambienti sand-boxed sono emersi abusi legati a azioni non supervisionate, configurazioni errate e scarsa separazione dei domini.
Purtroppo, la mitigazione parte da un presupposto semplice: non affidarsi all’algoritmo “meno vulnerabile”. Ogni pipeline di downscaling espone margini di manipolazione e i dettagli di implementazione cambiano rapidamente. La prima linea di difesa è evitare il ridimensionamento quando possibile, imponendo limiti di upload sul client. Se una trasformazione è necessaria, l’utente deve vedere sempre l’input effettivo che il modello riceverà, anche su CLI e API, così da eliminare l’asimmetria percettiva. La seconda linea è l’hardening degli agenti: nessun input, incluso il testo dentro un’immagine, dovrebbe poter innescare chiamate a strumenti sensibili senza conferma esplicita dell’utente. La configurazione predefinita deve privilegiare la sicurezza, con permessi minimi, domini strettamente allowlistati, registri d’azione verificabili e revoche rapide dei token. In contesti enterprise è sensato aggiungere filtri di sanitizzazione lato server, conversioni a formati neutri che rimuovano componenti ad alta frequenza, OCR con policy che declassano o etichettano il testo estratto da immagini non affidabili e controlli specifici quando il modello sta per utilizzare un tool “ad alto impatto”.

Prospettive: mobile, edge e nuove superfici d’attacco
La vulnerabilità diventa ancora più interessante su dispositivi mobili ed edge, dove i framework impongono più spesso dimensioni fisse e metodi di riduzione meno sofisticati. In parallelo si aprono piste di ricerca sulla prompt injection semantica, su catene che combinano riduzione e upscaling con effetti collaterali come dithering e quantizzazione, e su poliglotte visive progettate per eludere pipeline difensive eterogenee. La lezione principale, tuttavia, è già chiara: ogni volta che tra l’input dell’utente e l’input del modello si inserisce una trasformazione opaca, nasce una superficie d’attacco che gli avversari possono plasmare.

Condividi l'articolo