
L’enorme quantità di informazioni che produciamo, in alcuni casi, non è sufficiente per alimentare le tecnologie in sviluppo negli ultimi anni, in particolare l'intelligenza artificiale. Come abbiamo più volte ripetuto, l'IA ha bisogno di questi dati per "imparare" ciò che deve fare. Ma perché migliaia di zettabyte non bastano? E qual è la soluzione a questo problema? In questa puntata proviamo a rispondere analizzando due strategie: la data augmentation e i dati sintetici, entrambe basate sulla generazione artificiale di dati, in tutto o in parte.
Nella sezione delle notizie parliamo della sperimentazione delle bodycam, che continua a bordo dei treni, di Amazon che presenta il nuovo assistente Alexa+ e infine dell’insoddisfazione del clienti cinesi riguardo alla guida autonoma di Tesla.




Brani
• Ecstasy by Rabbit Theft
• Time by Syn Cole
Salve a tutti, siete all'ascolto di INSiDER - Dentro la Tecnologia, un podcast di Digital People e io sono il vostro host, Davide Fasoli.
Oggi parleremo di Data Augmentation e Dati Sintetici, due tecniche per la creazione di dati, utili all'addestramento di modelli di intelligenza artificiale.
Prima di passare alle notizie che più ci hanno colpito questa settimana, vi ricordo che potete seguirci su Instagram a @dentrolatecnologia, iscrivervi alla newsletter e ascoltare un nuovo episodio ogni sabato mattina, su Spotify, Apple Podcast, YouTube Music, oppure direttamente sul nostro sito.
A partire dalla seconda metà del 2025, Ferrovie dello Stato inizierà la seconda fase della sperimentazione relativa all'utilizzo delle bodycam da parte del personale ferroviario come i capitreno, con l'obiettivo di garantire maggiore tutela e sicurezza sui treni e nelle stazioni in generale.
Questa sperimentazione in realtà era già iniziata un anno fa in Emilia-Romagna, tuttavia la società del gruppo Ferrovie dello Stato ha esteso il periodo di prova ad oltre cinque regioni, ovvero Piemonte, Liguria, Toscana, Puglia e a fine marzo anche Lombardia.
Come avevamo già spiegato nella puntata: "Axon: taser e bodycam per tutelare forze dell’ordine e cittadini", questi strumenti forniscono prove oggettive e maggiore trasparenza in merito alla gestione di situazioni controverse tra operatori e civili in sede legale.
Le bodycam in questione comunque non registreranno tutto il tempo, ma dovranno essere attivate dal personale solamente in casi di potenziali aggressioni.
Inoltre il materiale registrato non sarà accessibile agli addetti di Ferrovie dello Stato, ma verrà messo a disposizione solamente per le forze dell'ordine e per il personale di FS Security, che potranno visionare i contenuti e utilizzarli eventualmente come prove.
Nei giorni scorsi Amazon ha presentato la tanto attesa Alexa+, di cui si parlava ormai da diverso tempo.
Allineandosi a Google ed Apple con rispettivamente Gemini e Siri, anche la nuova versione di Alexa utilizzerà un modello linguistico, e in particolare un mix tra Nova, sviluppato da Amazon, e Claude di Anthropic, recentemente aggiornato alla versione 3.7.
Alexa sarà quindi in grado di capire quale modello utilizzare per rispondere all'utente nel modo più veloce e preciso possibile.
La particolarità del nuovo assistente di Amazon, però, sta nelle sue potenziali funzionalità.
Trattandosi di un'agente intelligente, infatti, potrà interrogare e connettersi a servizi di terze parti per fornire delle risposte o compiere azioni.
Oltre a comandare i dispositivi della casa, sarà in grado di aiutarci nella creazione delle routine e automatizzare la Smart Home, gestire la lista della spesa, ma potrà anche fare acquisti, ordinare tramite Uber Eats, cercare e comprare biglietti per i concerti, ma anche creare azioni programmate o aggiungere appuntamenti.
Come tutti i modelli IA, non mancano la generazione di testi, immagini, canzoni o l'analisi dei nostri documenti.
Sulla carta, quindi, sembra che il nuovo Alexa+ possa diventare un assistente virtuale veramente utile nella vita quotidiana, grazie anche all'integrazione con i dispositivi Echo e i futuri occhiali smart.
Il prossimo mese dovrà debuttare negli Stati Uniti ad un costo di circa 20 dollari al mese, ma sarà gratuito per gli attuali possessori di un abbonamento Prime.
Non ci sono invece informazioni sul suo debutto in Italia, sarà però molto interessante vedere se le potenzialità del nuovo Alexa verranno capite e sfruttate appieno dagli utenti.
Il debutto della versione limitata del sistema di guida autonoma di Tesla in Cina ha generato reazioni contrastanti tra gli utenti, molti dei quali ritengono che le prestazioni siano inferiori alle aspettative e soprattutto meno avanzate rispetto ai sistemi offerti dai produttori locali. La delusione è amplificata dal prezzo elevato del Full Self-Driving di Tesla, che
costa oltre 7000 dollari, mentre aziende cinesi come Xpeng (Xpeng si scrive), offrono soluzioni più avanzate e meglio adattate alle complesse condizioni del traffico cinese.
Il sistema XNGP di Xpeng, ad esempio, utilizza un approccio basato su una combinazione di sensori, tra cui LiDAR, radar a onde millimetriche e telecamera ad alta risoluzione, garantendo una maggiore affidabilità in scenari urbani e autostradali. Tesla, invece, ha scelto di affidarsi esclusivamente alla visione artificiale con telecamere, eliminando il LiDAR e riducendo
l'uso dei radar, una scelta che in Cina sembra penalizzata rispetto alla concorrenza.
Inoltre i sistemi locali sfruttano dati di guida raccolti in Cina per adattarsi meglio ai comportamenti del traffico, mentre il sistema di Tesla si basa su un approccio più generalista.
L'azienda ha promesso un aggiornamento significativo del sistema autonomo di Tesla entro la fine dell'anno, con l'obiettivo di offrire una guida autonoma più evoluta, ma resta da vedere se riuscirà a colmare il gap tecnologico e a convincere i clienti cinesi, che attualmente sembrano preferire le alternative nazionali.
Mai come in questo periodo storico, i dati hanno guadagnato una rilevanza e un valore così importante, tanto da essere paragonati all'oro dell'era digitale.
E se pensiamo che nel 2025 si stima che verranno prodotti quasi 200 zettabytes, ossia 200 mila miliardi di gigabytes, ci rendiamo subito conto di quale patrimonio immenso l'umanità sta ogni anno generando e lasciando nel web.
Tuttavia, paradossalmente, questa enorme quantità di informazioni non è abbastanza per le tecnologie che negli ultimi anni si stanno sviluppando e, in particolare, l'intelligenza artificiale, che come abbiamo ripetuto più volte, ha bisogno di questi dati per, tra virgolette, "imparare" ciò che deve fare.
Ma perché migliaia di zettabytes non sono sufficienti? La risposta è molto semplice.
I motivi sono principalmente tre.
Il primo è che molti dei dati che produciamo ogni giorno sono temporanei, per cui dopo un certo periodo di tempo vengono eliminati, come log di accesso o informazioni che vengono sovrascritte con versioni più recenti.
Il secondo motivo è che alcune informazioni non sono accessibili pubblicamente.
Pensiamo ad esempio a un sensore IoT che salva i valori su un server privato o, nel caso di dati sicuri, protetti da crittografia.
Il terzo e ultimo dei motivi principali, infine, è che tantissimi dati che vengono prodotti ogni giorno non sono utilizzabili o accessibili per questioni di diritto d'autore o di privacy.
Anche in questo caso gli esempi sono molteplici, a partire da specifici settori come quello medico, dove i dati trattati, anche se anonimizzati, risultano essere estremamente sensibili ed è necessario richiedere costantemente il consenso ai pazienti per utilizzarli.
Nell'addestramento di un modello di apprendimento automatico, poi, non solo è importante la quantità dei dati, ma forse è ancora più importante la qualità di questi.
Alcuni studi hanno infatti dimostrato come è spesso una base di dati più piccola, ma di maggiore qualità, possa aumentare la precisione del modello finale anche di 10 volte rispetto ad uno stesso modello, che viene però addestrato su una quantità più elevata di informazioni, ma di qualità inferiore.
Un dataset ben bilanciato, infatti, previene che l'algoritmo apprenda eventuali bias o tra virgolette "dimentichi" informazioni importanti, perché presenti in minori quantità nei dati di addestramento.
Per fare un esempio, un modello che viene addestrato con 20.000 foto di cani e 5.000 foto di gatti, per riconoscere un animale dall'altro, potrebbe avere più difficoltà a riconoscere i gatti rispetto ai cani.
Come si possono quindi risolvere questi problemi? La questione legata alla privacy può essere risolta anonimizzando i dati, ossia eliminando dal dataset quegli elementi che possono in qualche modo permettere di risalire all'identificazione della persona a cui quelle informazioni si riferiscono.
Pensiamo ad esempio a una combinazione di età, sesso, altezza e comune di residenza.
Anche senza sapere il nome e il cognome, queste informazioni potrebbero essere sufficienti per identificare in modo preciso una persona.
Sostituendo il dato sul comune di residenza con ad esempio la provincia o la regione, o eliminando l'informazione se non necessaria, quindi ne garantiamo maggior anonimato.
Ma ovviamente esistono anche altre soluzioni che approfondiamo in questa puntata, che prevedono la generazione artificiale dei dati o di una parte dei dati, con due principali tecniche, diverse tra loro per approccio, che prendono il nome rispettivamente di Data Augmentation e Dati Sintetici.
La Data Augmentation è tra le due la tecnica più facile da utilizzare, perché prevede l'utilizzo di un set di dati originali, reali, che viene, come dice il nome, aumentato con altri dati leggermente modificati.
Se pensiamo all'esempio di poco fa, con il dataset formato da immagini di cani e gatti, possiamo ottenere nuove fotografie da utilizzare per l'addestramento, applicando filtri come sfocature, cambi colore o rotazioni all'immagine di partenza.
Questo non solo permette di bilanciare meglio il dataset, ad esempio passando da 5 a 10 o 15.000 foto di gatti, ma anche di addestrare il modello nel riconoscimento di casistiche che potenzialmente non erano state prese in considerazione ed aumentarne l'affidabilità e precisione.
Proseguendo con l'esempio dei cani e dei gatti, creando nuove immagini con colori diversi, ci assicuriamo che il colore, che in natura è una componente molto variabile e soggettiva, non diventi per il modello di intelligenza artificiale una caratteristica da tenere troppo in considerazione nella fase decisionale.
Il secondo approccio, sul quale ci focalizziamo maggiormente, è invece l'utilizzo dei dati sintetici, e prevede la generazione artificiale di un dataset, o di una sua parte, utilizzando un modello di machine learning addestrato a simulare i dati reali.
Si parla infatti di dati completamente sintetici quando viene generato un dataset privo di dati reali.
Si parla invece di dati parzialmente sintetici per quei dataset reali, di cui vengono sostituite alcune caratteristiche, ad esempio per garantire l'anonimato, o vengono riempite alcune lacune.
Si parla infine di situazioni ibride quando si combinano le due precedenti situazioni.
Riprendiamo anche in questo caso l'esempio precedente sui pazienti di cui conosciamo età, sesso, altezza e luogo d'origine.
Possiamo utilizzare queste informazioni, magari di dimensione limitata, per addestrare un modello in grado di replicare e generare un set potenzialmente infinito di dati realistici, ossia che hanno una distribuzione statistica molto simile al dataset di partenza.
Ciò significa che se il set di partenza aveva un 40% di donne provenienti dall'Italia, una percentuale simile sarà presente nel nuovo set generato artificialmente.
Questa tecnica, che fino a qualche anno fa era poco considerata, nell'ultimo periodo ha acquisito sempre più piede e rilevanza, sia per la capacità dei modelli di machine learning di generare dati qualitativamente migliori, con più facilità e più rapidamente, sia per i benefici che l'utilizzo di dati sintetici porta con sé.
Uno di questi è sicuramente quello che i dati generati sono anonimi per loro natura, in quanto non si riferiscono a persone realmente esistenti, per cui non vi è nessun limite dal punto di vista della privacy.
Inoltre questo approccio permette molto spesso di sopperire ad una carenza di dati reali, creando dataset più ampi e utilizzabili per l'addestramento delle intelligenze artificiali più disparate.
Ma i vantaggi non sono finiti qui.
Parlavamo all'inizio di questa puntata non solo di quantità, ma anche di qualità.
A differenza dei dati reali, quelli sintetici possono eliminare imprecisioni o errori di compilazione, creando dataset più bilanciati e di maggior qualità, inserendo le informazioni mancanti o etichettando i record per garantire previsioni più accurate.
Possiamo poi garantire che tutti i dati siano compilati in modo uniforme e con la stessa formattazione, con un enorme risparmio di tempo nel lavoro manuale, di pulizia, sistemazione, rimozione di duplicati, etichettatura del dataset reale.
Infine, per quanto riguarda i bias o i casi limite, che spesso possono essere sotto-rappresentati nel set di partenza, anche in questo caso l'uso di dati sintetici ci può aiutare, garantendo dataset più equilibrati e attenuando questi problemi nel modello finale.
Ma come si generano i dati sintetici? Finora abbiamo parlato di cosa sono, come possono essere utilizzati e dei benefici che portano.
Ma nel pratico? Le tecnologie avanzate che vengono normalmente utilizzate per la generazione di dati sintetici di qualità prevedono l'utilizzo di modelli di intelligenza artificiale addestrati per simulare i dati reali.
Modelli che, tra l'altro, abbiamo già visto in diverse puntate.
Vi sono infatti le reti generative avversarie, conosciute anche come GAN o Generative Adversarial Networks.
Approfondite nella puntata: "Abbiamo insegnato a un’intelligenza artificiale a creare emoji".
Questa architettura vede infatti due modelli, uno di generazione e uno di riconoscimento, che si scontrano migliorando sempre di più, l'uno per generare dati sempre più realistici e l'altro per riconoscere sempre meglio gli input e distinguere quelli reali da quelli generati.
Gli altri due principali modelli utilizzati nella creazione di dati sintetici, che abbiamo approfondito nella puntata: "Anatomia dell'IA generativa, dagli anni '60 ad oggi", sono gli autoencoder variazionali, o VAE, utilizzati principalmente per la creazione di immagini, o i trasformatori generativi preaddestrati, conosciuti meglio con l'acronimo GPT, per
la creazione di test in linguaggio naturale.
Se ve lo steste chiedendo, ChatGPT è ereditato proprio da questi modelli il suo nome.
Arrivati a questo punto, però, è doveroso affrontare non solo i benefici nell'uso dei dati sintetici, ma anche i limiti.
Per prima cosa, per generare dei buoni dati sintetici, di alta qualità e che rappresentano fedelmente la realtà, è comunque necessario partire da un dataset di partenza sufficientemente popolato.
Questo perché avere pochi dati iniziali significa, molto spesso, considerare non solo una frazione del mondo reale, con il rischio di perdere eventuali "outlier", ossia dei fenomeni o casistiche particolari che non sono abbastanza rappresentanti statisticamente.
Nella puntata in cui abbiamo approfondito gli algoritmi di previsione del meteo, avevamo proprio fatto riferimento a questa problematica nell'uso di algoritmi di intelligenza artificiale per fare previsioni.
Se non trattati in maniera adeguata, poi, i cosiddetti outlier, che magari sono presenti nel dataset di partenza, possono venire filtrati o non essere adeguatamente rappresentati nel set di dati sintetici, andando così a perdere le informazioni potenzialmente importanti.
La stessa situazione si può trasporre nel caso di presenza di sbilanciamenti nel dataset di partenza, che può poi portare a bias e pregiudizi nel modello di intelligenza artificiale finale.
Se non correttamente impostati, infatti, i dati sintetici rispecchierebbero in questo caso troppo fedelmente la situazione di partenza, creando un dataset di bassa qualità.
E per finire vi è quello che viene chiamato "collasso dei modelli", a cui sempre più rischiamo di andare incontro con l'IA generativa.
Addestrando continuamente il modello con dati sintetici, infatti, dopo diverse iterazioni il rischio è quello di perdere - addestramento dopo addestramento - delle caratteristiche dei dati di partenza, quelli reali, facendo perdere al modello sempre più la capacità di ragionare correttamente.
Per concludere, quindi, i dati sintetici sono uno strumento che sta prendendo sempre più piede per i loro numerosi benefici.
Risolvono problemi legati alla privacy e permettono di creare dataset di alta qualità in modo relativamente facile e veloce.
Tuttavia, come tutti gli strumenti, è necessario saperli utilizzare al meglio, comprenderne i limiti e sopperire alle loro mancanze.
Per questo è necessario uno studio approfondito prima di affacciarsi in modo serio e professionale a questo mondo, e tranne tutti i vantaggi che questo approccio può dare, nel settore dell'analisi dei dati e nella creazione delle intelligenze artificiali future.
E così si conclude questa puntata di INSiDER - Dentro la Tecnologia. Io ringrazio come sempre la redazione e in special modo Matteo Gallo e Luca Martinelli che ogni sabato mattina ci permettono di pubblicare un nuovo episodio. Per qualsiasi tipo di domanda o suggerimento scriveteci a redazione@dentrolatecnologia.it, seguiteci su Instagram a @dentrolatecnologia
dove durante la settimana pubblichiamo notizie e approfondimenti. In qualsiasi caso nella descrizione della puntata troverete tutti i nostri social. Se trovate interessante il podcast condividetelo che per noi è un ottimo modo per crescere e non dimenticate di farci pubblicità.
Noi ci sentiamo la settimana prossima.



