
Quando pensiamo a un chatbot, i primi nomi che ci vengono in mente sono quelli degli enormi modelli linguistici che negli ultimi anni hanno dominato il mercato dell'intelligenza artificiale generativa. Questi grandi modelli sono tuttavia profondamente influenzati dal loro paese di origine. In un'ottica di sovranità tecnologica, culturale e digitale, viene spontaneo chiedersi: ha senso un modello linguistico interamente italiano? In questa puntata non solo proviamo a rispondere a questa domanda, valutando i pro e i contro e analizzando le soluzioni già presenti sul mercato, ma approfondiamo ulteriormente il tema cercando di capire come la tecnologia su cui si basano queste IA possa essere utilizzata per analizzare, scoprire e preservare la lingua italiana.
Nella sezione delle notizie parliamo dell'evento Apple di settembre, dell'accelerazione dell'adozione dell'IA sul luogo di lavoro secondo EY e infine del discusso "Chat Control" europeo, che prevederebbe il controllo dei messaggi privati per prevenire abusi sui minori.




Immagini
• Foto copertina: Rawpixel su Freepik
Brani
• Ecstasy by Rabbit Theft
• Capsized by Tollef
Salve a tutti, siete all'ascolto di INSiDER - Dentro la Tecnologia, un podcast di Digital People e io sono il vostro host, Davide Fasoli.
Oggi cercheremo di capire se ha senso realizzare un modello linguistico interamente italiano, quali sono le sfide tecniche e giuridiche per farlo e se ci sono già dei modelli addestrati interamente su documenti in lingua italiana.
Prima di passare alle notizie che più ci hanno colpito questa settimana, vi ricordo che potete seguirci su Instagram a @dentrolatecnologia, iscrivervi alla newsletter e ascoltare un nuovo episodio ogni sabato mattina, su Spotify, Apple Podcast, YouTube Music oppure direttamente sul nostro sito.
Questo martedì 9 settembre si è tenuto l'annuale evento Apple, incentrato sul lancio dei nuovi iPhone e dei prodotti accessori tra cui AirPods ed Apple Watch.
Se in merito a quest'ultimo non sono stati fatti grossi passi in avanti, la stessa cosa non si può dire per le nuove AirPods Pro, che da questa versione promettono non solo più autonomia, ma anche una cancellazione del rumore due volte più efficace rispetto alla generazione precedente.
Oltre ad un nuovo sensore per il rilevamento del battito cardiaco, i nuovi auricolari sono dotati anche di una funzione per la traduzione in tempo reale, basata su intelligenza artificiale, pensata per ottimizzare le conversazioni tra due interlocutori che parlano lingue diverse.
Successivamente Apple ha presentato la nuova gamma di iPhone 17, tra cui il base, il Pro e il nuovo "Air".
Per quanto riguarda il modello entry-level, finalmente è stata integrata la tecnologia ProMotion con refresh rate adattivo fino a 120Hz e l'always on display, che consente di mantenere lo schermo sempre acceso consumando poca batteria.
Queste novità, oltre ad un aumento dello spazio minimo di archiviazione e una batteria ancora più capacitiva, rendono l'iPhone 17 base sempre più simile alla versione Pro, che comunque continua a mantenere il ruolo di "camera phone", grazie al sistema di fotocamere che integrano la principale, l'ultra grande angolare e il teleobiettivo con zoom ottico fino a 8x.
Il vero protagonista della giornata però è stato l'Air, un iPhone più leggero, più sottile, ma con alcune criticità che lo rendono di fatto la nuova scommessa per il mercato degli smartphone di Apple.
Se da un lato è stato dotato del nuovo chip A19 Pro, dall'altra pecca nel comparto fotografico, fermandosi ad un solo grande angolo da 48 megapixel.
Infine, un minor spessore comporta inevitabilmente un sacrificio sulla batteria, la quale dovrebbe garantire un'autonomia addirittura inferiore a quella del 17 base.
Da questo punto di vista è evidente che l'Air si presenta come un esperimento di mercato, dimostrato anche dal prezzo di partenza di 1239€ rispetto ai 979€ del base, che in questo caso si impone come il vero "best buy" della nuova linea di iPhone.
E' probabile che Apple, dopo lo scarso successo dei modelli mini o plus, stia cercando di capire se lo spessore e il peso ridotto di un iPhone possano attecchire su una determinata fascia di consumatori, in vista anche del lancio di un eventuale pieghevole nei prossimi anni.
Qualche mese fa nella puntata "EY: la formazione è il vero motore dell’IA", avevamo esplorato con Giuseppe Santonato di EY come l'intelligenza artificiale stesse ridisegnando il mondo del lavoro e i dati pubblicati nel nuovo "EY Italy AI Barometer" mostrano quanto sia rapida questa trasformazione. L'adozione dell'IA nelle aziende italiane ha fatto un balzo impressionante,
passando dal 12% del 2024 al 46% del 2025. Un'accelerazione spinta da vantaggi concreti dato che il 52% del top management ha già registrato una riduzione dei costi e un aumento dei profitti. Lo studio però fa emergere anche un interessante paradosso sul tema della formazione, mentre quasi la metà dei manager si dice convinta che i dipendenti abbiano ricevuto
un training adeguato, solo il 20% dei lavoratori è della stessa opinione. A colmare questo divario tuttavia ci pensano i lavoratori stessi, l'Italia infatti è prima in Europa con il 64% dei dipendenti che investe in prima persona per formarsi sull'IA, dimostrando una grande consapevolezza di quanto questa tecnologia sia ormai cruciale per il proprio futuro professionale.
Quello conosciuto come "Chat Control" è un tema molto divisivo che ormai da tre anni viene discusso e riproposto all'interno degli organi dell'Unione Europea.
Il regolamento in questione, denominato "Regulation to Prevent and Combat Child Sexual Abuse", o CSAR, è stato infatti proposto nel 2022, ma le varie discussioni ne hanno rallentato l'approvazione.
Il regolamento prevede infatti che qualsiasi messaggio, foto o video delle diverse piattaforme di messaggistica venga controllato dal dispositivo prima di essere mandato.
Questo controllo eluderebbe quindi la crittografia end-to-end e farebbe uso di hashing per confrontare i messaggi con dei database, identificare la natura pedopornografica e segnalare automaticamente il contenuto alle forze dell'ordine.
Il contrasto alla pedopornografia è infatti un tema molto sentito e non è sempre facile bloccare la diffusione dei contenuti, tema che, per chi fosse interessato, abbiamo trattato nella puntata: "Contrastare contenuti illegali online? Non è così semplice". Tuttavia, seppur la finalità nobile dello strumento, numerosi esperti, enti e associazioni hanno espresso non poche preoccupazioni,
in quanto uno strumento di questo tipo, capace tra le altre cose di eludere la crittografia end-to-end o di produrre falsi positivi, potrebbe essere sfruttato come una vera e propria "backdoor" o per scopi politici, rappresentando un attacco diretto a quella privacy dei cittadini europei, di cui l'Unione spesso si dichiara paladina.
Nell'ultima riunione del Consiglio, i rappresentanti degli stati membri, dunque, dovranno esprimere una posizione più chiara, ma attualmente sono solo 8 i paesi che si sono dichiarati contrari al provvedimento.
La votazione formale, invece, avverrà entro il 14 ottobre, dopo la quale si procederà con i negoziati per formulare un testo da approvare al Parlamento.
Quando pensiamo a un chatbot, i primi nomi che ci vengono in mente sono quelli degli enormi modelli linguistici che negli ultimi anni hanno dominato il mercato dell'intelligenza artificiale generativa.
Parliamo di ChatGPT di OpenAI, Gemini di Google, Cloud di Anthropic e LLama di Meta.
In misura minore, poi, si stanno affermando anche modelli altrettanto potenti provenienti dalla Cina, come Deepseek o Qwen.
Questi grandi modelli linguistici, pur riuscendo a conversare senza problemi in diverse lingue compreso l'italiano, sono tuttavia profondamente influenzati dal loro paese di origine.
Per quasi tutti i modelli, infatti, la lingua principale in cui sono scritti la maggior parte dei documenti con cui vengono addestrati è l'inglese, seguito da piccole percentuali di dati in tutte le altre lingue disponibili sul web.
E questo come si traduce? La risposta è abbastanza semplice e, stando attenti, ce ne possiamo rendere conto anche durante ogni conversazione con il nostro chatbot preferito.
L'utilizzo di periodi corti e semplici, l'uso massivo dei trattini o della virgola davanti alla congiunzione "e", ad esempio, sono elementi che di base non sono presenti nella lingua italiana, ma che compaiono ugualmente nelle frasi costruite dall'IA, frutto dell'enorme peso e influenza che la grammatica e lo stile di scrittura anglofono ha sul modo in cui
modelli linguistici come ChatGPT, tra virgolette, "ragionano".
Il risultato è quindi che queste IA lavorano particolarmente bene con la lingua inglese, ma spesso possono fare fatica a cogliere sfumature o dettagli in tutte le altre lingue, o come nell'esempio appena portato, contribuiscono attivamente a plasmare e trasformare la lingua con cui rispondono, dato anche l'ormai enorme peso che questa tecnologia ha ottenuto nella
vita quotidiana di ognuno di noi.
E in un'ottica di sovranità tecnologica, culturale e digitale, dunque, viene spontaneo chiedersi: ha senso un modello linguistico interamente italiano? In questa puntata non solo proveremo a rispondere a questa domanda, valutando i pro e i contro e analizzando le soluzioni già presenti sul mercato, ma approfondiremo ulteriormente
il tema, cercando di capire come la tecnologia su cui si basano queste IA possa essere utilizzata per analizzare, scoprire, preservare la lingua e studiarne l'evoluzione nei secoli.
Per capire se ha senso realizzare un large language model in italiano, bisogna prima di tutto identificare quali possono essere le necessità e i campi di applicazione di una tecnologia di questo tipo.
La prima motivazione è sicuramente quella di stabilire una sovranità tecnologica e digitale di interesse non solo italiano, ma anche e soprattutto europeo.
Ad oggi, infatti, quello dell'IA generativa è un mondo diviso e dominato da USA e Cina, e in questo scenario uno o più modelli europei potrebbero porsi come un terzo polo in grado di aiutare le aziende e le istituzioni del vecchio continente e alimentare tecnologie ed IA garantendo quei valori e quei diritti che fanno parte dell'identità europea,
più importanti fra tutti il rispetto della privacy, la trasparenza e un approccio etico alla tecnologia.
A tal proposito, l'Unione Europea ha negli ultimi anni lavorato e stanziato fondi per perseguire l'obiettivo di creare una fucina di modelli linguistici europei, con il progetto OpenEuroLLM, grazie alla collaborazione tra istituzioni pubbliche, università e aziende private.
Oltre a questa motivazione, che come abbiamo visto si può estendere non solo all'Italia ma all'intera Eurozona, esistono numerosi altri benefici nell'avere un nostro modello linguistico.
Le aziende o le pubbliche amministrazioni, ad esempio, possono affidarsi a un IA che non solo garantisca, come abbiamo detto, quegli aspetti di privacy e sovranità dei dati, ma che rispecchi fedelmente la lingua del paese, sia dal punto di vista del vocabolario che di quello grammaticale, passando per la costruzione delle frasi e l'utilizzo di terminologie,
modi di dire o sfumature nel linguaggio irriproducibili da modelli troppo generalisti come quelli di OpenAI o Google.
A livello accademico, un large language model, addestrato non solo su opere letterarie attuali ma anche passate, permetterebbe a ricercatori, linguisti e università di comprendere al meglio l'italiano del passato e analizzarne l'evoluzione fino ai nostri giorni.
Come ben sappiamo, infatti, le lingue sono in costante mutamento, dovendo adattarsi ad una società di volta in volta diversa.
E nel corso dei secoli molte parole sono andate in disuso, facendo magari spazio a neologismi o altri termini presi in prestito da altre lingue che sono ormai diventati di uso quotidiano.
Un'IA italiana, dunque, non solo potrà e dovrà riprodurre fedelmente lo stile di Dante o di Petrarca, ma anche quello di Italo Calvino o Umberto Eco, fino ad arrivare al linguaggio giovanile dei tempi moderni.
E con una tecnologia così potente diventa quasi immediato trovare correlazioni e connessioni con le diverse epoche, o prevedere i mutamenti futuri.
Vi è poi l'aspetto educativo.
Nella puntata dedicata all'AI Week con Danilo Poccia di AWS è emerso un aspetto nell'uso dell'IA che spesso viene trascurato, ed è quello della sua influenza sul nostro linguaggio e di conseguenza sul nostro modo di ragionare.
Come abbiamo appena detto, le lingue non sono statiche, ma si adattano ai tempi e alla società.
E la prossima evoluzione potrebbe essere dettata proprio da ChatGPT, che, sì, ci aiuta quotidianamente a elaborare idee, scrivere testi o articoli, rispondere ad e-mail, ma allo stesso tempo sta contribuendo a plasmare la lingua con un'influenza fortissima proveniente dalla lingua inglese, andando ad appiattire completamente quella che in questo caso è la lingua italiana.
E un uso sempre più massiccio di questi modelli anche nelle scuole avrà un impatto inevitabile nelle generazioni future, che non solo avranno perso gran parte delle sfumature della nostra lingua, ma ragioneranno, scriveranno e parleranno come ChatGPT.
Al contrario, un modello addestrato in lingua italiana potrà essere un potentissimo strumento di insegnamento, aiutando gli insegnanti a preparare esercizi, lezioni e riassumere o spiegare concetti anche più complessi con un linguaggio fedele alla cultura del nostro paese.
Veniamo per ora alla difficoltà che sta rallentando la creazione e l'adozione di un LLM italiano.
Il primo limite è sicuramente quello economico.
OpenAI, Anthropic, Google, DeepSeek hanno investito milioni, se non miliardi di dollari per realizzare i loro modelli linguistici e mantenerli attivi.
I costi principali sono legati all'infrastruttura e alle schede grafiche che servono all'addestramento e all'esecuzione dell'IA.
Vi sono poi costi legati alla raccolta dei dati, sanificazione e creazione dei dataset.
E proprio questo è un ulteriore punto di discussione che rallenta lo sviluppo di un modello linguistico italiano.
La lingua inglese è sicuramente quella dominante in Internet, con miliardi e miliardi di pagine web e contenuti scritti in questa lingua.
La stessa cosa non si può dire per lingue meno parlate, come appunto l'italiano o addirittura i singoli dialetti regionali.
E come abbiamo detto più volte, uno dei punti fondamentali per realizzare un'IA valida è la bontà e la quantità di dati utilizzati in fase di addestramento.
Senza contare poi che un modello etico, a cui punta l'Italia e l'Unione Europea in particolare, richiede di rispettare le normative sulla privacy e sul diritto d'autore, limitando ancora di più l'accesso a numerose informazioni utili.
Tuttavia esistono diverse tecniche di cui abbiamo già parlato, come la data augmentation, il fine-tuning o l'utilizzo di dati sintetici, che possono sicuramente dare una mano per arginare questi limiti.
Tornando alla domanda iniziale, quindi, ha senso e soprattutto è possibile realizzare un modello linguistico dedicato esclusivamente alla lingua italiana? Sulla prima domanda, come abbiamo visto, i benefici sarebbero molteplici e toccherebbero vari settori, fornendo uno strumento potente in mano a pubbliche amministrazioni, aziende,
istituzioni, ma anche ricercatori, università e insegnanti, per aiutare a studiare e comunicare in modo più autentico e identitario, senza snaturare i secoli di evoluzione che hanno portato alla lingua italiana per come la conosciamo oggi.
Sull'effettiva possibilità di realizzare una tecnologia simile, invece, basta analizzare le soluzioni già presenti sul mercato.
Il primo esempio, guardando oltralpe, viene dalla Francia, dove Mistral ha realizzato quella che probabilmente è attualmente la più grande e intelligente IA europea che però fa fatica a competere con le controparti statunitensi.
Sul sito LMArena, infatti, si posiziona al 14esimo posto, sotto Claude, GPT-4 e 5, DeepSeek e Grok.
Guardando nel nostro paese, invece, alcune aziende e università hanno tentato nell'impresa di realizzare un large language model italiano.
Stiamo parlando di iGenius, che ha rilasciato lo scorso anno il suo modello Italia, con 9 miliardi di parametri.
C'è poi Minerva, sviluppato dall'Università La Sapienza di Roma, un modello da 7 miliardi di parametri, e infine Velvet, di Almawave, con una versione da 14 e 2 miliardi di parametri.
La particolarità di questi modelli è che sono stati tutti sviluppati con una collaborazione tra università e aziende pubbliche o private, addestrati sul supercomputer Leonardo, di proprietà di CINECA, e infine resi open source, e quindi liberamente scaricabili e utilizzabili localmente dalle aziende.
Questo si traduce ovviamente da una parte in una maggior privacy, dall'altra in una maggior difficoltà di adozione, soprattutto da parte dei singoli utenti.
L'unico modello utilizzato direttamente online è infatti Minerva, sul sito minerva-llm.org.
Oltre a ciò, un'altra caratteristica che salta subito all'occhio è la quantità di parametri, che si aggira sulle decine di miliardi.
Per fare un paragone, GPT-5 sistema ne abbia circa 1500 miliardi.
Questo nella maggior parte dei casi si traduce in modelli non solo più piccoli, ma anche meno, tra virgolette, "intelligenti".
Verrebbe dunque da pensare che sia impossibile competere con colossi come Gemini o GPT.
Che senso avrebbe fornire all'Italia un modello nettamente inferiore a quelli già presenti sul mercato, spesso gratuiti e già pronti all'uso? Innanzitutto, non sempre più parametri significa più intelligenza.
Modelli come Italia o Minerva sono stati addestrati utilizzando dataset formati quasi interamente da documenti in lingua italiana.
Quindi questi modelli sono ottimizzati per una lingua e non hanno la necessità di parlare e ragionare in modo poliglotta.
Infine, in modo in controtendenza agli altri modelli, FastWeb ha fatto sapere di essere anch'esso al lavoro su un modello linguistico italiano, closed source rispetto a open source, e addestrato su un'infrastruttura proprietaria.
In conclusione, quindi, un LLM italiano non solo ha senso, ma è necessario se vogliamo mantenere e preservare non solo la nostra lingua, ma anche tutte le sue sfumature e i singoli dialetti regionali.
Realizzarlo, come abbiamo visto, è possibile, ma è sicuramente necessaria una visione più europea, come quella di OpenEuroLLM, che permetterebbe di accedere a fondi e tecnologie in grado di costruire modelli, sì, specializzati sulle lingue europee, ma anche open source, attenti alla privacy e alla sicurezza, e in grado di competere realmente con le soluzioni
proposte da USA e Cina.
Solo così l'Europa potrà rafforzare la propria sovranità non solo tecnologica ma anche culturale, custodendo e valorizzando un patrimonio immenso come quello della lingua, e salvandolo da un appiattimento totale che, con l'attuale situazione del mondo dell'IA, risulta inevitabile.
E così si conclude questa puntata di INSiDER - Dentro la Tecnologia. Io ringrazio come sempre la redazione e in special modo Matteo Gallo e Luca Martinelli che ogni sabato mattina ci permettono di pubblicare un nuovo episodio. Per qualsiasi tipo di domanda o suggerimento scriveteci a redazione@dentrolatecnologia.it, seguiteci su Instagram a @dentrolatecnologia
dove durante la settimana pubblichiamo notizie e approfondimenti. In qualsiasi caso nella descrizione della puntata troverete tutti i nostri social. Se trovate interessante il podcast condividetelo che per noi è un ottimo modo per crescere e non dimenticate di farci pubblicità.
Noi ci sentiamo la settimana prossima.