di Gianfranco Brevetto
Che caratteristiche ha la lingua con cui scrive l’Intelligenza artificiale? Come riuscire ad orientarsi in un testo che solo in apparenza sembra essere concepito da mente umana? Anna-Maria De Cesare, professoressa ordinaria di Linguistica romanza all’università di Dresda, con il suo libro L’Italiano sintetico dell’intelligenza artificiale generativa, ci fornisce un utilissimo strumento per orientarci in una sempre più massiccia produzione testuale di cui non riusciamo sempre a riconoscere la fonte. Ringraziamo la professoressa De Cesare per aver accettato di rispondere ad alcune nostre domande.
–Una della novità più importanti degli inizi di questo millennio , come lei ci ricorda, con il rilascio di ChatGPT, è stata proprio il modo in cui noi produciamo testi e la natura di questi testi. In cosa esattamente consiste questa rivoluzione?
La novità, per il grande pubblico, è arrivata a novembre 2022, con il rilascio della piattaforma ChatGPT. Da allora, ognuno di noi, anche senza conoscenze pregresse nel campo dell’ingegneria informatica, è in grado di interagire con un Chatbot, o meglio con un algoritmo di intelligenza artificiale generativa chiamato modello linguistico di grandi dimensioni (dall’inglese large language model o LLM), che genera output sotto forma di testo scritto e non solo: ci sono algoritmi di IA generativa che producono anche immagini, messaggi audio e video.
Il successo della piattaforma ChatGPT è stato folgorante: nei giorni che hanno seguito il suo rilascio si sono abbonate milioni di persone, che hanno interrogato il modello linguistico (allora GPT-3.5) su tutte le possibili questioni e negli ambiti più svariati. Colpisce poi che il primo libro interamente prodotto con l’IA generativa, intitolato La volpe e il futuro (Roy Ming), sia uscito a stampa già alla fine del 2022. A colpire è anche il fatto che si tratta di un libro indirizzato ai bambini. Il link che riporto di seguito permette di accedere a un video che illustra come è nato il testo scritto, mostrando le interazioni avvenute con il modello linguistico attraverso l’interfaccia di ChatGPT: La volpe e il futuro – Testo – YouTube.
Concretamente, la rivoluzione è questa: le interfacce come ChatGPT permettono di delegare a una macchina la stesura di qualsiasi tipo di testo scritto, tanto quelli che si scrivono facilmente (e volentieri), come gli auguri di compleanno, quanto quelli che richiedono un certo impegno, come una tesi magistrale. Questi modelli sono anche in grado di correggere un testo scritto in italiano o in un’altra lingua, di tradurre un testo da e verso l’italiano ecc. Secondo me, siamo entrati in una nuova era, che si potrebbe definire comunicazione mediata dall’IA. Questa nuova era è caratterizzata dalla proliferazione di sistemi di IA generativa, capaci appunto di produrre ex novo, tradurre, correggere ecc. in pochi secondi, e con istruzioni minime, testi appartenenti a generi diversi e in lingue diverse, compresa quella italiana.
–L’italiano sintetico è la lingua con cui si esprime ChatGPT, perché la definiamo così e in cosa si caratterizza?
Definisco l’output scritto di ChatGPT con l’aggettivo sintetico prima di tutto per trasparenza. Ritengo infatti fondamentale usare una terminologia il più possibile univoca e non ricorrere a termini che si usano per descrivere la scrittura umana. Se lo si fa, si corre il rischio di antropomorfizzare la macchina e creare false aspettative.
La lingua prodotta dai modelli linguistici è del tutto inedita rispetto a quella conosciuta prima dell’avvento di ChatGPT, ed è dunque giusto essere attenti alle parole che usiamo. Per riferirmi alla natura di un nuovo tipo di italiano scritto, ho scelto l’aggettivo sintetico perché mette in luce in modo efficace alcune proprietà salienti di questi testi. Prima di tutto, i testi generati sono generalmente molto brevi: superano raramente le 400-500 parole. Inoltre, per via delle analogie che presentano con le molecole create in ambito chimico, i testi generati dall’IA possono essere concepiti come prodotti ottenuti artificialmente.
Preferisco tuttavia parlare di italiano sintetico piuttosto che di italiano artificiale perché il secondo termine è già usato per riferirsi a un italiano “artificioso”, impiegato per elevare il proprio registro. Un esempio chiaro di questo uso del termine italiano artificiale è nel brano di testo seguente, tratto da un articolo di giornale: “Come scrive Paolo Nori in “Chiudo la porta e urlo”, molti romanzi sono scritti in un italiano artificiale che fa lo stesso effetto degli arredi (“damaschi fiori ebani tappeti e bronzi”) che un tempo i borghesi si mettevano in casa per fingere di essere ricchi e nobili” (Antonio Gurrado, Il Foglio, 4/1/2025). La formula italiano sintetico, invece, non è mai stata impiegata prima: è anch’essa inedita e proprio per questo la si può definire in modo univoco.
Ci sono poi contesti che chiedono di essere più precisi anche quando ci riferiamo all’italiano che abbiamo parlato e scritto fino a qualche anno fa, quello prodotto da un essere umano. Quando è necessario contrapporre un prodotto creato da una macchina a quello di un essere umano o quando è utile sottolineare che non si è in presenza di un testo generato, propongo di parlare di italiano naturale.
–Quali sono gli errori più comuni che si possono rinvenire nei testi sintetici generati dai modelli linguistici?
I testi sintetici contengono in generale pochi errori ortografici, interpuntivi e grammaticali. Anche per questo, paradossalmente, può risultare difficile capire se il testo che si sta leggendo è sintetico o naturale. Da un punto di vista grammaticale, uno degli errori più vistosi è il mancato accordo di genere, come in la giornalismo, questo esperienza oppure Dacia Maraini è noto per il suo lavoro avvincente.
Quello che si osserva molto più spesso nei testi sintetici è invece un tipo di scarto dalla norma che chiamo impronta algoritmica dell’inglese. Si tratta di forme, parole e strutture improntate alla lingua inglese, che non sono sempre facili da riconoscere. A livello ortografico si può per esempio menzionare il caso di forme come Gennaio (con la prima lettera maiuscola, propria della norma ortografica inglese); a livello interpuntivo, spicca invece l’uso della cosiddetta Oxford comma, collocata prima della congiunzione e nelle strutture a lista, come in per l’arte, la scienza, e il design (dove la virgola prima della e non è richiesta dalla norma interpuntiva italiana), mentre a livello lessicale si trovano parole come legato (dall’inglese legacy, invece di eredità, come in il suo legato persiste nell’ambito del giornalismo e della letteratura) oppure verbi come omittano (dall’inglese to omit invece di omettono), che chiamo calchi e prestiti sintetici.
Le impronte algoritmiche dell’inglese sono dovute a un bias di natura linguistica, proprio di molti modelli linguistici: i testi generati in italiano sono prodotti da algoritmi addestrati su dati in cui l’inglese è sovrarappresentato. GPT-3 (il predecessore del modello alla base di ChatGPT), per esempio, è stato addestrato su un corpus in cui il 93% delle parole è in inglese, mentre solo lo 0,6% è in italiano. A mio avviso è fondamentale essere consapevoli di questi limiti quando si usa l’IA generativa attraverso interfacce come ChatGPT. I modelli linguistici (non solo quelli americani) hanno “imparato” l’italiano a partire da pochissimi dati in lingua italiana e una mole massiccia di dati in inglese.
–Dalla sua esperienza di linguista esperta in questo campo, come pensa che questi modelli possano influenzare il nostro vivere quotidiano e soprattutto quello delle giovani generazioni?
Prima di tutto bisogna riconoscere che i modelli linguistici sono usati sempre più spesso nella nostra vita quotidiana, da fasce molto diverse della popolazione (cfr. i dati presentati qui: Il 32,7 % delle persone dell’UE ha utilizzato strumenti di IA generativa nel 2025 – Articoli di notizie – Eurostat). Li si usa a casa, sul posto di lavoro o ancora in ambito educativo, dalla scuola elementare all’università.
Nella mia ricerca mi interrogo soprattutto sui risvolti che questi strumenti hanno sulla scrittura, in primis in quanto prodotto (l’attenzione è rivolta cioè alla qualità dei testi generati), ma anche in termini di processo (in questo caso interessa capire come cambia il modo in cui scriviamo e viviamo la scrittura).
Iniziando dagli aspetti positivi, è per esempio inconfutabile che i modelli linguistici ci aiutino a redigere in pochi secondi testi che avrebbero richiesto molto più tempo o che addirittura non saremmo neanche stati in grado di scrivere (pensiamo a una lettera di reclamo). Per i più giovani questi strumenti fungono talvolta anche da tutor privati: rispondono a qualsiasi tipo di domanda (dal tema d’italiano alla matematica) e sono sempre disponibili. I modelli linguistici possono essere strumenti molto utili se sono usati bene.
Dall’altra parte, però, ogni volta che una persona giovane, o in formazione, usa un modello linguistico per redigere un proprio testo, è per lui o lei un’occasione persa per esercitare abilità di primaria importanza. La scrittura di buona qualità, soprattutto di testi di una certa complessità, si acquisisce lungo l’arco di decenni. E si misura in base a competenze testuali, in primis alla capacità di esprimere il proprio pensiero in modo coerente, con le strutture (lessicali, interpuntive, sintattiche) adeguate al contesto comunicativo, tenendo conto ad esempio del grado di formalità richiesto.
La redazione di un testo scritto è un’attività che può essere faticosa, soprattutto per chi la pratica poco. Può dunque essere forte la tentazione di farsi “aiutare” da una macchina. Il moltiplicarsi di queste deleghe potrebbe però avere conseguenze importanti sull’acquisizione delle competenze scrittorie da parte dei giovani o ancora sul mantenimento di queste competenze da parte di persone adulte.
Un’altra conseguenza molto preoccupante dell’uso dei modelli linguistici riguarda la perdita di ricchezza e variazione linguistica: più aumenteranno le persone che usano regolarmente i modelli linguistici per scrivere, più i testi si assomiglieranno. Scompariranno centinaia di idioletti, vale a dire i modi di scrivere propri di singoli individui, e si attenueranno le differenze tra i generi testuali o addirittura tra le lingue naturali, per esempio tra l’italiano e l’inglese. L’uso sempre più diffuso di questi strumenti, e dei testi che producono, potrebbe insomma portare a una graduale uniformazione della scrittura e delle lingue. È anche a questo tipo di scenario, purtroppo poco rallegrante, che intendo dedicare la mia ricerca dei prossimi anni.
—-
Anna-Maria De Cesare
L’italiano sintetico dell’intelligenza artificiale generativa
2026, Franco Cesati Editore