Nel corso degli ultimi mesi abbiamo affrontato il tema dell’Intelligenza Artificiale generativa, seguendone le notizie o approfondendone le sue applicazioni da diversi punti di vista. Abbiamo risposto a svariate domande come: che impatto avrà? Come può essere sfruttata? Quali sono le sue implicazioni legali? Come possiamo sviluppare un'IA in modo responsabile ed etico? Tuttavia, non abbiamo ancora risposto a una delle domande principali legate a questa tecnologia, ossia: come e perché funziona? E in questa puntata cercheremo di rispondere a quest'ultimo quesito, ripercorrendo in parte la storia dell'Intelligenza Artificiale, e spiegando come questi modelli funzionano dal punto di vista un po' più tecnico.
Nella sezione delle notizie parliamo degli occhiali Orion per l’AR presentati da Meta, di Telegram che cambia le politiche sulla privacy e infine dell’Italia che pianifica il ritorno all’energia nucleare.
Brani
• Ecstasy by Rabbit Theft
• Never Give Up by Steve Hartz
Salve a tutti, siete all'ascolto di INSiDER - Dentro la Tecnologia, un podcast di Digital People e io sono il vostro host, Davide Fasoli.
Oggi proveremo a rispondere ad una domanda sull'intelligenza artificiale a cui non abbiamo ancora risposto, ossia come funziona e cosa c'è alla base del suo addestramento.
Prima di passare alle notizie che più ci hanno colpito questa settimana, vi ricordo che potete seguirci su Instagram a @dentrolatecnologia, iscrivervi alla newsletter e ascoltare un nuovo episodio ogni sabato mattina su Spotify, Apple Podcasts, YouTube Music oppure direttamente sul nostro sito.
Meta, che da qualche anno si sta indirizzando verso lo sviluppo del metaverso, ha svelato Orion, un prototipo all'avanguardia di occhiali per la realtà aumentata che rappresenta il futuro di questa tecnologia, anche se il prodotto non è ancora pronto per il mercato.
Orion non sarà infatti disponibile per la vendita, ma sarà testato internamente con un pubblico selezionato per raccogliere feedback e migliorare ulteriormente l'esperienza d'uso.
Il dispositivo è stato progettato per sovrapporre elementi virtuali, sia in 2D che in 3D, al mondo reale, offrendo un'interazione avanzata grazie al tracciamento del movimento delle mani, possibile attraverso un innovativo braccialetto da polso.
Oltre a ciò, integra un sistema di intelligenza artificiale contestuale che non solo percepisce l'ambiente circostante, ma è anche in grado di anticipare e rispondere proattivamente alle necessità dell'utente, fornendo suggerimenti personalizzati, come ad esempio ricette basate sugli alimenti presenti nel frigorifero.
Mentre si lavora per migliorarne il design, la qualità degli elementi virtuali e la scalabilità della produzione, l'azienda ha già previsto che le innovazioni introdotte con Orion verranno integrate nei futuri dispositivi di realtà mista.
Come era prevedibile, l'arresto del CEO di Telegram Pavel Durov, avvenuto in Francia lo scorso agosto, ha portato a dei radicali cambiamenti della piattaforma che sono ancora in corso in materia di privacy.
L'arresto di Durov, infatti, è stato motivato principalmente dai continui rifiuti di collaborare con le forze dell'ordine per identificare e limitare i cybercriminali e i gruppi Telegram utilizzati per scambiare contenuti illegali, come pedopornografia, droghe o contenuti pirati.
In questo senso, quindi, con l'aggiornamento di settembre, Telegram ha introdotto nuove funzionalità per poter segnalare le chat e i suoi contenuti, compresi quelli scambiati in forma privata.
Un'altra novità riguarda la creazione di un team di moderatori dedicato per introdurre dei filtri nella ricerca globale della piattaforma, in modo da nascondere contenuti, canali o gruppi problematici e garantire così un ambiente sicuro per gli utenti, che possono comunque effettuare segnalazioni tramite il bot "@SearchReport".
Infine, il cambiamento più importante è forse quello legato alla politica sulla privacy, dove viene introdotta la possibilità da parte della piattaforma di condividere, su richiesta delle autorità competenti, gli indirizzi IP e i numeri di telefono degli utenti che violano le regole.
Telegram, dunque, si è infine visto costretto a cambiare il suo approccio, pur cercando nei limiti della legge di garantire sicurezza e privacy, ma soprattutto di garantire a tutti quei milioni di utenti quotidiani di poter utilizzare un'applicazione sicura e libera da quella cybercriminalità che tanto mina la reputazione della piattaforma.
Il ministro dell'Ambiente della Sicurezza Energetica, Fratin, ha dichiarato in un'intervista al Corriere della Sera e in una risposta al presidente di Confindustria che il governo ha iniziato a lavorare a un disegno di legge per reintrodurre il nucleare in Italia.
A questa dichiarazione si è aggiunta anche la notizia di Bloomberg, secondo cui sempre il Governo sarebbe pianificando la costruzione di una nuova società con partnership tecnologica straniera che consente di produrre a breve in Italia la miglior tecnologia nucleare attualmente a disposizione, ovvero quella di terza generazione avanzata.
La volontà di un ritorno al nucleare dopo i referendum abrogativi del 1987 e popolari del 2011 deriva da una necessità di colmare le lacune tecnologiche delle energie rinnovabili, soprattutto quelle relative alla produzione fotovoltaica in grado di garantire un'elevata produzione solamente durante il giorno e lasciando invece più scoperte le ore notturne.
Con l'energia nucleare si riuscirebbe dunque a soddisfare completamente o quantomeno in parte il carico di base, ovvero il livello minimo di domanda sulla rete elettrica richiesto sia di giorno che di notte, lasciando invece alle rinnovabili il compito di coprire i picchi giornalieri.
Benché non siano ancora state raggiunti e conclusioni definitive, il ministro Fratin ha comunque aggiunto che con il 22% di nucleare nel futuro mix energetico nazionale si riusciranno a risparmiare nel nostro Paese fino a 34 miliardi di euro l'anno.
E gli ultimi anni sono emerse diverse tecnologie che hanno di volta in volta promesso di portare un contributo essenziale in diversi settori, dall'industria alla medicina all'intrattenimento.
Tecnologie che per i loro aspetti innovativi sembravano veramente essere una rivoluzione pari a quella vissuta con l'avvento di Internet, in cui il modo di vivere quotidiano è stato profondamente cambiato se non addirittura completamente stravolto.
Alcuni di questi esempi li abbiamo anche vissuti in prima persona e ve li abbiamo raccontati nelle nostre puntate.
Stiamo parlando di tecnologie come la blockchain e i prodotti ad essa collegata come criptovalute NFT o smart contracts o come il metaverso.
Probabilmente queste innovazioni avranno un ruolo centrale in futuro, ma per ora, dopo un fortissimo interesse iniziale, non sono riuscite a portare nella vita quotidiana dei contributi che si possono ritenere veramente tangibili.
C'è tuttavia una tecnologia, e probabilmente già avete capito di cosa stiamo parlando, che per la sua potenza, semplicità di utilizzo e versatilità, è riuscita a diventare veramente uno strumento utilissimo, se non in alcuni casi indispensabile, nella vita di tutti i giorni.
Tecnologia che, in questo caso sì, potrebbe sul serio essere paragonata alla rivoluzione che rappresentò Internet.
Stiamo chiaramente parlando dell'intelligenza artificiale, e in particolar modo dell'intelligenza artificiale generativa e delle sue diverse applicazioni.
Nel corso degli ultimi mesi abbiamo diverse volte affrontato questa tematica.
Seguendone le notizie o approfondendone le sue diverse applicazioni da diversi punti di vista.
Abbiamo quindi risposto a svariate domande come: che impatto avrà? Come può essere sfruttata? Quali sono le sue implicazioni legali? Come possiamo sviluppare un'intelligenza artificiale in modo responsabile ed etico? Tuttavia, non abbiamo ancora risposto a una delle domande principali legate a questa tecnologia, ossia: come e perché funziona?
In questa puntata cercheremo proprio di rispondere a quest'ultimo quesito, ripercorrendo in parte la storia dell'intelligenza artificiale e spiegando come questi modelli funzionano da un punto di vista un po più tecnico.
Lasceremo infine uno spazio per una riflessione sui limiti e sul futuro di questa tecnologia e i rischi verso cui stiamo andando incontro nel continuare ad utilizzarla in modo irresponsabile e incontrollato.
Innanzitutto, bisogna definire cosa intendiamo quando parliamo di intelligenza artificiale generativa o Gen.
AI.
Con questo termine indichiamo infatti tutti quei modelli di IA o di Deep Learning, per la precisione, che si occupano di generare contenuti originali come testo, immagini, video, musica e così via.
Di queste categorie fanno parte large language model come GPT-4, Claude o Gemini, IA specializzate nel generare immagini come Mid-Journey o Dall-E, generatori di video come Sora e così via.
Per ora ci concentreremo principalmente sui large language models, che sono le IA che ormai utilizziamo maggiormente nel quotidiano.
Il primo approccio ai chatbot, anche se non si può parlare proprio di intelligenza artificiale, è del 1964 con ELIZA, un software sviluppato dall'informatico Joseph Weizenbaum.
Il funzionamento era relativamente semplice, in quanto il sistema sfruttava delle frasi preconfezionate che sceglieva e modificava estraendo le informazioni dalle richieste dell'utente.
Un altro tassello fondamentale è lo sviluppo dei modelli RNN, le reti neurali ricorrenti.
Questi modelli riescono infatti data una sequenza di dati in input a predire una sequenza di dati successivi.
Sono quindi utilissimi, ad esempio, per l'analisi di dati finanziari o serie di dati temporali, ma anche come elaboratori del linguaggio naturale.
Le RNN infatti possiamo considerarle la prima versione di un vero e proprio modello linguistico, che data una frase in input, riesce a predire la sequenza di parole successiva.
Questo è stato uno dei modelli linguistici più promettenti, che però ha espresso il suo vero potenziale solo negli ultimi anni, grazie all'aumento della potenza di calcolo e all'enorme quantità di dati disponibili in rete da utilizzare per l'addestramento.
Tuttavia, questi modelli hanno diversi problemi e sono decisamente poco performanti.
Elaborando i dati in modo sequenziale, infatti, una RNN fa fatica a elaborare i testi in modo efficiente, con un conseguente rallentamento dei tempi di addestramento e l'utilizzo di enormi potenze di calcolo e di memoria, anche solo per analizzare pochi paragrafi di testo.
Decisamente ben lontani dai modelli di oggi, che riescono in poco tempo ad elaborare intere opere letterarie all'interno di un singolo prompt.
Arriviamo dunque al 2004, con l'introduzione da parte di Google del suo sistema di autocompletamento nel motore di ricerca.
Come avviene ancora oggi, questo algoritmo riesce a generare delle potenziali frasi o parole che vadano a completare la ricerca dell'utente, man mano che le digita.
Per quanto riguarda le immagini, invece, è solo nel 2013 che iniziano però a comparire i veri modelli deep learning, chiamati autoencoder variazionali, utilizzati in particolare proprio per la generazione di immagini.
Questi modelli, infatti, sono composti da due parti, un encoder e un decoder, che rispettivamente si occupano di prendere l'immagine in input, codificarla e infine decodificarla, ottenendo o la stessa immagine o delle varianti di essa.
Sempre legato alla generazione di immagini, nel 2014 vengono presentate le reti GAN, o Generative Adversarial Network, di cui abbiamo anche parlato in una nostra puntata.
Se dovessimo tuttavia trovare una data in cui è avuto inizio la vera rivoluzione per il mondo dell'IA generativa, e per i Large Language Models in particolare, quella data sarebbe il 12 giugno 2017, con la pubblicazione da parte di un team di ricercatori di Google del paper scientifico "Attention Is All You Need", in cui è stata per la prima volta proposta l'architettura che viene tuttora utilizzata da più grandi modelli linguistici in commercio.
I Large Language Models, come GPT o Gemini, utilizzano i "transformers", che hanno una struttura abbastanza simile alle reti neurali ricorrenti, riuscendo però a elaborare i dati in input in modo parallelo, superando in questo modo i limiti delle RNN.
Con i transformers viene poi introdotto il concetto fondamentale dell'attenzione, grazie al quale il modello si concentra solamente su alcune parti dell'input più rilevanti, ad esempio verbi, soggetti o aggettivi, e delle loro relazioni.
Il risultato è un modello che, rispetto alle precedenti reti neurali ricorrenti, è molto più efficiente, e in grado di gestire una quantità di dati input molto più vasta utilizzando meno memoria e potenza di calcolo, con prestazioni molto più elevate.
Per questo motivo l'architettura a transformer è diventata lo stato dell'arte per quanto riguarda l'elaborazione del linguaggio naturale, in particolare nelle traduzioni automatiche, nella classificazione del testo e nella sua generazione.
L'addestramento di questi modelli, inoltre, non è supervisionato.
Questo significa che l'IA impara in modo autonomo, analizzando i miliardi e miliardi di dati che gli vengono forniti come input e creando quello che viene definito "foundation model".
Una volta addestrato, tuttavia, un modello di questo tipo è ben lontano dall'avere prestazioni come quelle raggiunte dai principali sistemi di IA sul mercato.
Questi modelli, infatti, vengono poi ulteriormente addestrati.
Questa volta in modo supervisionato, ossia utilizzando delle coppie di input e relativo output per riuscire a produrre modelli in grado di compiere task più specifici o per addestrare l'IA a rispondere in determinati modi, ad esempio per avere un comportamento eticamente corretto nei confronti degli utenti o per evitare di produrre testi a sfondo razzista, discriminatorio o violento.
Se i foundation model vengono aggiornati più raramente, i loro, tra virgolette, "figli" sono costantemente migliorati, utilizzando nuovi dati o feedback raccolti dagli utenti.
C'è da dire, poi, che anche questi modelli non sono esenti da problemi o da limiti.
Pensiamo ad esempio alle allucinazioni.
Queste IA, di fatto, non fanno altro che proporre di volta in volta la parola, o per essere precisi, il token, che ha la probabilità più alta di essere quello corretto all'interno della frase.
È subito chiaro, dunque, che questi modelli non sono in grado di formulare dei veri e propri ragionamenti, come farebbe il cervello di un umano, ma si affidano completamente alla statistica, e per questo motivo non sempre l'output prodotto è corretto e soddisfacente.
Le limitazioni più grandi, ad esempio, le vediamo nel campo matematico, dove le IA generative difficilmente riescono a dare la risposta corretta anche a banalissime somme o sottrazioni.
C'è da dire, però, che questi modelli sono veramente potenti, e con l'aumentare del numero di parametri che possiamo paragonare ai neuroni e della potenza di calcola messa a loro disposizione, sono destinati a diventare sempre più intelligenti, precisi e di estrema utilità in numerosi campi, soprattutto se combinati con altre tecnologie.
Pensiamo ad esempio, alle estensioni di ChatGPT o alle RAG, acronimo per "retrieval augmented generation", dove i modelli linguistici vengono utilizzati per capire le richieste degli utenti, eseguire determinate azioni e restituire quindi il risultato.
Alcuni esempi possono essere il riassunto di ricerche su Google o su determinati documenti, ad esempio di carattere legale, per estrarre e mostrare i dati da un database, o per generare le azioni da fornire ad un robot.
Insomma, l'IA generativa è uno strumento estremamente potente e destinato a diventarlo ancora di più, che ha in pochi anni trovato la sua applicazione in praticamente tutti i settori e ambiti della società, rivoluzionando e migliorando il nostro modo di vivere quotidiano.
Nonostante ciò, è bene ricordare che applicazioni come ChatGPT o Midjourney rimangono sempre comunque degli strumenti, e come tali vanno saputi utilizzare in modo responsabile, soprattutto riconoscendone i limiti.
Per colpa del suo abuso, infatti, questa tecnologia potrebbe essere addirittura destinata a collassare, e per un semplice motivo, ossia i dati di addestramento.
Cosa succederebbe, infatti, se gran parte dei dati che vengono utilizzati per addestrare l'IA fossero essi stessi prodotti dall'intelligenza artificiale? In questo caso i modelli inizierebbero ad apprendere sempre meno e generando contenuti sempre più insensati.
E questa preoccupazione non è nemmeno così del tutto irrazionale e infondata.
Per fare un esempio, uno studio ha analizzato i paper scientifici pubblicati nel corso degli anni, e ha evidenziato come negli ultimi anni il termine inglese "delve", che fino al 2019 compariva abbastanza raramente, si è diventato sempre più frequente, fino addirittura a quintuplicare tra il 2022 e il 2023.
E questo chiaramente è strettamente correlato all'utilizzo dell'IA, che probabilmente era stata addestrata con documenti che contenevano spesso questo termine.
C'è infine da dire che nel frattempo, fortunatamente, proseguono gli studi di diversi ricercatori per trovare altre architetture, come quella del 2017, e sviluppare nuovi modelli ancora più efficienti e potenti, in grado di raggiungere entro pochi anni l'intelligenza artificiale generale, che potrebbe, ancor più di adesso, portare ad una rivoluzione senza precedenti.
E così si conclude questa puntata di INSiDER - Dentro la Tecnologia.
Io ringrazio come sempre la redazione e in special modo Matteo Gallo e Luca Martinelli che ogni sabato mattina ci permettono di pubblicare un nuovo episodio.
Per qualsiasi tipo di domanda o suggerimento scriveteci a redazione@dentrolatecnologia.it, seguiteci su Instagram a @dentrolatecnologia, dove durante la settimana pubblichiamo notizie e approfondimenti.
In qualsiasi caso nella descrizione della puntata troverete tutti i nostri social.
Se trovate interessante il podcast condividetelo che per noi è un ottimo modo per crescere e non dimenticate di farci pubblicità.
Noi ci sentiamo la settimana prossima.