
L'intelligenza artificiale sta cambiando il nostro mondo, ma con questa rivoluzione emergono nuovi rischi legati alla sicurezza dei sistemi IA. Gli adversarial attacks rappresentano una minaccia concreta e spesso sottovalutata: manipolazioni sottili dei dati di input che possono ingannare un'IA, facendole produrre risultati completamente errati. A differenza degli attacchi informatici tradizionali, per compromettere un sistema di intelligenza artificiale basta manipolare i dati su cui il sistema opera, spesso con modifiche impercettibili all'occhio umano. In questa puntata analizziamo come funzionano questi attacchi, quali sono i rischi per settori critici come la guida autonoma e la medicina e quali strategie di difesa possiamo adottare per proteggere i sistemi di intelligenza artificiale.
Nella sezione delle notizie parliamo di Threads che si apre maggiormente al fediverso, della nuova mappa stellare della Galassia dello Scultore ottenuta dal Very Large Telescope e infine di YouTube che sta intensificando la sua guerra contro gli ad-blocker.




Brani
• Ecstasy by Rabbit Theft
• Redemption by Max Brhon
Salve a tutti, siete all'ascolto di INSiDER - Dentro la Tecnologia, un podcast di Digital People e io sono il vostro host, Davide Fasoli.
Oggi spiegheremo cosa sono e come funzionano gli attacchi verso le reti neurali e il pericolo che questi rappresentano in un mondo in cui l'intelligenza artificiale sta diventando sempre più pervasiva.
Prima di passare alle notizie che più ci hanno colpito questa settimana, vi ricordo che potete seguirci su Instagram a @dentrolatecnologia, iscrivervi alla newsletter e ascoltare un nuovo episodio ogni sabato mattina su Spotify, Apple Podcast, YouTube Music oppure direttamente sul nostro sito.
Nella puntata dedicata al fediverso - una rete social decentralizzata - abbiamo raccontato anche del futuro sviluppo di Threads, il social prodotto da Meta pensato come principale competitor di X.
Secondo le indiscrezioni, infatti, sembrava che Meta avrebbe in tempi brevi introdotto su Threads il supporto ai post provenienti dal fediverso.
Inizialmente il supporto è stato abilitato gradualmente, ma solo per quanto riguarda la pubblicazione dei post, seguendo poi il protocollo ActivityPub utilizzato da altri social come Mastodon o BookWyrm.
Da qualche giorno, invece, Meta ha compiuto un altro passo verso un'integrazione più completa con il sistema social federato, introducendo nell'app la possibilità di cercare utenti di altri universi social, come Mastodon e di leggere i post per ora in un feed separato.
Come avevamo sottolineato nella puntata dedicata, la scesa in campo di Meta nel mondo del fediverso può rappresentare uno slancio positivo per questa tecnologia, permettendo agli utenti di scegliere come e dove pubblicare i propri post, ma sfruttando allo stesso tempo la visibilità offerta da Meta, oltre ad un'app piacevole da utilizzare.
Attualmente mancano ancora alcune funzioni, come la possibilità di migrare il proprio account verso altri social o poter interagire con i post del fediverso, ma a questo punto è questione di tempo prima che il supporto e l'integrazione siano completi.
Recentemente un team di astronomi è riuscito a ottenere l'immagine più dettagliata della galassia Caldwell 65, nota anche come Galassia dello Scultore, grazie al Very Large Telescope dello European Southern Telescope.
Il risultato finale è il frutto della combinazione di oltre 100 esposizioni per un totale di 50 ore di osservazione circa, la quale ha portato ad un'immagine che copre un'area ampia 65.000 anni luce.
La novità di questo risultato incredibile è la ricchezza di informazioni contenute in una singola rappresentazione, caratterizzata da un rosa diffuso su diversi nuclei che rappresentano l'idrogeno ionizzato nelle regioni di formazione stellare.
Al centro spicca invece un cono dalle colorazioni biancastre, generato dal deflusso di gas proveniente dal buco nero supermassiccio al centro della galassia.
La ricerca che ha condotto alla creazione di questa nuova mappa celeste ha portato alla scoperta di circa 500 nebulose planetarie, un numero insolitamente alto considerando che in media se ne individuano meno di 100 per le galassie al di fuori della Via Lattea.
YouTube intensifica la sua guerra contro gli ad-blocker. Chi proverà a evitare gli annunci pubblicitari si troverà davanti a una schermata nera, della stessa durata di uno spot. L'obiettivo è scoraggiare l'uso di estensioni come uBlock Origin, attivate su browser come Chrome, Firefox e Brave. Negli ultimi giorni molti utenti hanno segnalato un rallentamento all'avvio
dei video, con messaggi che richiamano a una pagina di supporto e suggerendo di disabilitare i blocchi per migliorare l'esperienza. Tecnicamente la piattaforma sembra rilevare l'assenza di pubblicità e ritarda volutamente il caricamento del video simulando un malfunzionamento.
Il fenomeno, segnalato principalmente da molti utenti su Reddit, colpisce soprattutto i browser desktop, mentre non si manifesta in modalità incognito o su dispositivi mobili. Quindi pur non bloccando i contenuti, YouTube vuole rendere la visione con ad-blocker più lenta e frustrante, spingendo gli utenti a scegliere: disattivare il blocco o passare a YouTube Premium.
In un mondo in cui, come abbiamo più e più volte potuto rendercene conto, l'intelligenza artificiale di qualsiasi tipo viene sempre più usata e spesso anche abusata per le più disparate attività, non possiamo non fermarci qualche minuto ad analizzare i rischi nascosti che l'uso massiccio di questa tecnologia sta comportando.
E non stiamo parlando di rischi legati al mondo del lavoro o alla possibilità dei modelli di IA di commettere errori, ma ad altri tipi di rischi, ossia quelli legati a particolari attacchi informatici che colpiscono proprio le intelligenze artificiali.
Questi attacchi prendono il nome di "attacchi avversari" o "adversarial attacks" e permettono, nel peggiore dei casi, di manipolare a proprio piacimento l'output di un modello IA con conseguenze che possono essere potenzialmente catastrofiche.
In questa puntata dunque parleremo proprio di questi attacchi, di cosa sono di preciso, come si può tra virgolette "attaccare" un'intelligenza artificiale, dei rischi legati a questi attacchi, ma anche come ci si può difendere.
Iniziamo dunque a introdurre gli adversarial attacks, dandone la definizione: gli attacchi avversari sono, come dice il nome, degli attacchi ai danni dei modelli di machine learning e delle reti neurali, su cui si basano praticamente tutte le IA in circolazione, con l'obiettivo primario di indurre questi sistemi a produrre degli
output, dette anche previsioni, errate.
La particolarità di questo tipo di attacchi, che li rendono anche per questo così tanto pericolosi, inoltre, è data dal fatto che gli errori prodotti non sono casuali, tanto meno frutto di bug dei sistemi IA, ma sono il risultato di studi e manipolazioni ai soli dati di input del modello.
Facciamo un confronto con un algoritmo tradizionale: un'applicazione classica, come quelle che utilizziamo quotidianamente, a scapito di bug del software, può essere attaccata o sfruttando alcune vulnerabilità delle tecnologie utilizzate, o ottenendo accesso diretto al server per modificarne la logica o danneggiare l'infrastruttura.
Vi è quindi bisogno di particolari conoscenze e abilità per riuscire in questo intento.
Per un IA, invece, il discorso come abbiamo visto è ben diverso, in quanto in questo caso si tratta di riuscire a ingannare il sistema e per farlo è sufficiente manipolare dati, quelli di input, di cui abbiamo il pieno e libero controllo.
È comunque doveroso specificare che queste manipolazioni di cui parliamo non sono sempre casuali, ma sono anche in questo caso frutto di studi, test e di una profonda conoscenza dei modelli utilizzati.
Nella maggior parte dei casi, poi, queste manipolazioni potrebbero essere impercettibili per l'essere umano, rendendole per questo ancora più pericolose.
Se volessimo fare un paragone con un'intelligenza naturale, come il cervello umano a cui le IA si ispirano, potremmo definire quindi gli attacchi avversari come delle illusioni che riescono a ingannare il cervello artificiale, tanto quanto le illusioni ottiche che spesso troviamo online riescono a ingannare la nostra mente.
Attaccare un modello IA, quindi, è di base molto più semplice rispetto ad attaccare un'applicazione tradizionale, in quanto gli adversarial attacks sfruttano delle vulnerabilità, se così possiamo chiamarle, implicite nei modelli di machine learning, che sono impossibili da rimuovere proprio per la natura incerta su cui sono basati questi sistemi.
E forse è anche per questo che nella letteratura scientifica esistono diversi articoli che parlano proprio di come i ricercatori sono riusciti a ingannare l'algoritmo, quali sono i metodi che sono stati utilizzati e le loro proposte per rendere i software basati sull'IA più resistenti.
Vediamo quindi come funzionano a livello pratico gli attacchi avversari: innanzitutto bisogna introdurre il concetto di "black box", "white box" e "grey box".
Quando si attacca una rete neurale è fondamentale conoscere quante più informazioni possibili sull'architettura utilizzata, i modelli coinvolti, i dataset e i parametri utilizzati per l'addestramento.
Quando un attaccante ha la piena conoscenza di queste informazioni si parla di white box, che sono i casi meno frequenti.
Al contrario, nella maggior parte dei casi ci troviamo di fronte a una situazione di black box, dove non ci è dato sapere alcuna informazione sul modello utilizzato.
Come si può intuire, infine, la situazione grey box è una situazione intermedia, dove si conoscono parte delle informazioni, magari ricavate tramite studi sulle piattaforme, reverse engineering o con altre tecniche.
Il primo passo è dunque avere piena conoscenza di ciò che si vuole attaccare, quindi trovarsi nella situazione delle white box.
Solo ora si può procedere con la creazione di "adversarial examples", ossia gli input veri e propri.
Per semplicità, nei prossimi esempi ci concentreremo su una specifica tipologia di IA, ossia quella del riconoscimento delle immagini.
Sul web esistono diversi modelli di riconoscimento, open source e ampiamente utilizzati anche in contesti reali.
Allo stesso modo esistono anche dataset prefabbricati per il loro addestramento.
Ecco quindi che utilizzare esclusivamente sistemi di questo tipo ci porta allo scenario peggiore, quello white box, dove l'attaccante può scaricare il modello, addestrarlo e ottenere una copia quasi esatta del sistema ad attaccare.
E qui entrano in gioco diversi algoritmi che partono proprio dalla rete neurale per generare in questo caso nell'immagine delle perturbazioni impercettibili o quasi all'occhio umano, ma che riescono a ingannare l'IA facendole produrre un output totalmente diverso da quello atteso.
Solo per citarne alcuni tra i più utilizzati, DeepFool, FGSM o Fast Gradient Sign Method, PGD o Project Gradient Descent, BIM o Basic Interactive Method e molti altri, spesso varianti di questi algoritmi principali.
Nella maggior parte dei casi questi software introducono, come dicevamo, delle perturbazioni, che vanno dalla modifica del colore di alcuni pixel, all'aggiunta di una sorta di trama e persino alla modifica di un solo singolo pixel.
E tutti questi hanno dei tassi di successo particolarmente elevati in una situazione white box.
A questo punto è ragionevole pensare che, trovandoci nella situazione ideale, gli attaccanti non abbiano possibilità contro situazioni black box più realistiche.
La risposta la possiamo trovare anche in questo caso nella letteratura scientifica, aprendo il capitolo della trasferibilità degli attacchi.
Cosa significa? Come dice il nome, un attacco trasferibile è un input avversario, generato per uno specifico modello, ma che riesce ad attaccare con successo anche altre reti neurali.
Come possiamo immaginare, questo porta con sé una serie di implicazioni e criticità nella sicurezza informatica attuale.
Un potenziale attaccante, infatti, non ha bisogno di conoscere perfettamente il sistema IA che vuole attaccare, ma può sfruttare un modello simile, chiamato surrogato, per generare attacchi dalla buona probabilità di successo sul sistema della vittima.
Esistono poi tutta una serie di attacchi, diciamo "stupidi", che prevedono la semplice alterazione dell'immagine utilizzando filtri comuni come rotazioni, cambiamenti di colori, aggiunta di trame o di punti bianchi e neri sparsi.
Chiaramente questi attacchi sono meno sofisticati e molto più visibili all'occhio umano, ma è stata comunque dimostrata la loro efficacia in diversi casi.
Prendiamo come esempio un IA che riconosce immagini di nudo ai fini della moderazione di un social.
Applicando un filtro come il cambio del colore della pelle da rosa a verde, è possibile che il sistema non riesca più a identificare i soggetti come persone e ne permetta quindi la pubblicazione.
I rischi dunque non si fermano qui, e possiamo fare numerosi esempi di come gli attacchi avversari possono rappresentare un grande pericolo per tutti noi.
La moderazione di un social è sicuramente uno dei possibili target di attacco, dove si cerca di ingannare l'algoritmo per poter pubblicare contenuti illeciti o far passare messaggi d'odio come neutri o positivi.
Tuttavia, in questo caso, le ripercussioni non sono in generale particolarmente gravi.
Al contrario, in settori come la guida autonoma, la medicina o in sistemi di sicurezza o di sorveglianza, le conseguenze possono essere gravissime, sia in modo diretto, con incidenti, violazioni di accessi e molto altro, sia in modo indiretto, con la perdita completa di fiducia nei sistemi di IA, che invece possono e si stanno dimostrando utili in molteplici
applicazioni e campi.
Facciamo un esempio per ognuno di questi settori.
Per quanto riguarda la guida autonoma, i sistemi di IA hanno bisogno di osservare l'ambiente circostante per riconoscere cartelli e segnali stradali, persone, altre auto o ostacoli.
Ma cosa succederebbe se l'auto scambiasse un segnale di stop come un limite di velocità? In uno dei principali esempi che vengono spesso citati, la presenza di un foglietto giallo sul segnale di stop, posizionato in un determinato modo, produce allucinazioni nel sistema di riconoscimento.
Allo stesso modo si possono alterare le marcature nelle corsie o introdurre segnali che ingannano i radar.
È chiaro che le conseguenze sarebbero catastrofiche.
Nel caso della medicina questo settore è decisamente più controllato, ma un IA potrebbe essere ingannata a diagnosticare problematiche in modo errato.
Per questo motivo nel settore medico l'IA non dovrà e non potrà mai sostituirsi al medico, quanto più supportarlo nelle decisioni.
Per quanto riguarda la sicurezza, invece, esistono sistemi di sicurezza basati sull'intelligenza artificiale per riconoscere malware o attacchi.
Anche in questo caso un attacco avversario potrebbe eludere questi sistemi e ottenere accessi non autorizzati con tutti i rischi correlati.
Parlando di IA generativa, invece, esistono anche in questo caso diversi studi per effettuare quello che si chiama "jailbreak".
In sostanza si tratta di prompt costruiti con l'obiettivo di ottenere dai modelli generativi delle risposte che normalmente verrebbero bloccate.
Tra gli esempi, grazie ai jailbreak, possiamo chiedere all'IA come compiere atti illegali o di generare contenuti contenenti parole d'odio.
E in un mondo in cui le intelligenze artificiali stanno sempre più evolvendo in soluzioni agentiche, dove i contenuti vengono integrati da Internet o da sistemi RAG, è potenzialmente possibile inserire in modo incontrollato codici e comandi all'interno delle pagine web per far rispondere all'IA in modi completamente diversi dalle aspettative.
In conclusione, in un mondo in cui l'intelligenza artificiale sta diventando sempre più pervasiva nelle tecnologie moderne e in cui viene elevata come soluzione a tutti i problemi, non dobbiamo sottovalutare la sua natura incerta e la facilità con cui è possibile non solo creare attacchi per l'IA, ma anche e soprattutto trasferirli dai modelli open source a quelli commerciali.
Nel prossimo futuro, dunque, sarà sempre più necessario lavorare non solo allo sviluppo di modelli di intelligenza artificiali sempre più complessi e resistenti, ma sarà soprattutto fondamentale concentrare gli sforzi nello sviluppo di sistemi per mettere in sicurezza i software d'IA e proteggerci quindi da rischi incalcolabili.
E così si conclude questa puntata di INSiDER - Dentro la Tecnologia. Io ringrazio come sempre la redazione e in special modo Matteo Gallo e Luca Martinelli che ogni sabato mattina ci permettono di pubblicare un nuovo episodio. Per qualsiasi tipo di domanda o suggerimento scriveteci a redazione@dentrolatecnologia.it, seguiteci su Instagram a @dentrolatecnologia
dove durante la settimana pubblichiamo notizie e approfondimenti. In qualsiasi caso nella descrizione della puntata troverete tutti i nostri social. Se trovate interessante il podcast condividetelo che per noi è un ottimo modo per crescere e non dimenticate di farci pubblicità.
Noi ci sentiamo la settimana prossima.