Editoriali

IA: Europa vieni a contare anche tu

Evocatività della predizione, modelli del linguaggio e DeepSeek

11 febbraio 2025
Versione stampabile
il professor Giuseppe Riccardi ©Elisa Cesca
di Giuseppe Riccardi
professore ordinario di Sistemi di elaborazione delle informazioni all’Università di Trento

A dicembre 2022, ho ricevuto numerose chiamate e messaggi da amici, imprenditori, studenti e colleghi che mi chiedevano se conoscevo i modelli del linguaggio e mi esortavano a incontrarli. Dicevano: "Scrivo e il modello del linguaggio di ChatGPT predice e completa le mie frasi e richieste!". Si stavano diffondendo, in maniera virale, sensazioni diverse, di vuoto, eccitazione e preoccupazione. Il termine modello linguaggio è diventato popolare in un lampo in tutto il pianeta. Come ci siamo arrivati?

Nei primi anni Novanta, abbiamo assistito all'alba dell’apprendimento automatico dei modelli del linguaggio a partire da dati come le sequenze di parole pubblicate in un giornale. A quel tempo, quando parlavo della nostra ricerca sui "modelli statistici del linguaggio" presso gli AT&T Bell Laboratories (USA), la gente derideva quell'idea. Volevamo usarli per consentire ai computer di parlare con le persone. L'argomento era controverso e i linguisti criticavano e ridicolizzavano le nostre ricerche. Nel 2000, abbiamo avuto un’illuminazione quando abbiamo collegato un computer in grado di ascoltare e parlare con milioni di clienti di AT&T che chiamavano con accenti provenienti da tutti gli Stati Uniti (*1). È stata una svolta nella ricerca e nella tecnologia, apprezzata dalle comunità scientifiche e tecnologiche, ma con scarso impatto sul vasto pubblico.

Facendo un salto nel tempo: nel 2011, c'è stata una svolta che ha avuto ricaduta sulla società. Milioni di persone hanno potuto parlare con SIRI tramite i loro iPhone e più tardi nel 2014 Amazon ha lanciato Alexa per coinvolgere le persone in un diverso tipo di interazione con computer quasi-invisibili, a casa o in macchina. Le persone hanno iniziato a esplorare cosa potevano ottenere parlando con i computer: informazioni, delegare compiti, supporto personale, raccomandazioni, ecc.. A quel tempo, i modelli del linguaggio erano sepolti in architetture di sistemi complessi e nascosti all'utente finale.

E veniamo al presente. I Large Language Models (LLMs) resi popolari da ChatGPT nel 2022, sono progettati per essere esposti all'interazione diretta con gli utenti utilizzando il linguaggio naturale. Gli LLMs aiutano gli insegnanti a formulare la soluzione di problemi, gli studenti a scrivere relazioni, gli avvocati a redigere contratti, giovani programmatori a scrivere codice, ecc.. Le capacità dei modelli del linguaggio di predire parole e interi paragrafi sono state apprezzate da centinaia di milioni di persone in tutto il mondo. Gli LLM richiedono enormi quantità di dati e risorse di calcolo per il loro addestramento. Ecco perché pochissime aziende, principalmente negli Stati Uniti, sono state in grado di costruirli, sebbene la techne (Τέχνη) sia pubblica e nota alla comunità di ricerca. Ricercatori e professionisti monitorano l'avanzamento e le prestazioni degli LLM tramite benchmark pubblicati e classifiche gestite da terzi. Una delle più seguite è la chatbot arena (*2) gestita da ricercatori dell’Università di Berkeley. Per stilare la classifica degli LMMs, gli utenti creano delle sfide (es. domande di carattere enciclopedico o problemi logici) e assegnano voti alle risposte. Negli ultimi due anni, nella top-10 della classifica, abbiamo avuto modelli di aziende soprattutto statunitensi. La narrazione prevalente era che gli LLM potevano essere costruiti solo da poche aziende statunitensi. Solo quelle aziende potevano accedere a enormi quantità di dati, hardware specializzato e piattaforme di elaborazione. Nel gennaio 2025, questa narrazione ha preso una strada diversa. DeepSeek (*3), una startup cinese per lo più sconosciuta al mondo, è emersa per la prima volta nella classifica top-10. Nessuno l’aveva vista arrivare, sebbene ci siano iniziative per costruire LLMs in tutto il mondo. Ma non si tratta solo di fare spazio a un parvenu nella classifica dei migliori LLMs. Ci sono due aspetti rilevanti. In primo luogo, DeepSeek afferma che i suoi modelli sono stati addestrati su hardware più economico e con algoritmi efficienti per ridurre la quantità di elaborazione. Ciò ha scosso i mercati finanziari all'inizio, ha messo sotto i riflettori le aziende che producono hardware specializzato per l’apprendimento automatico e ha sfidato il primato degli Stati Uniti nell'approvvigionamento di LLM all'avanguardia. Il secondo aspetto rilevante è che l'azienda ha rilasciato il modello DeepSeek-r1 come modello open source, mentre gli altri modelli concorrenti sono per lo più modelli chiusi. Quando si rilascia un modello open source, ricercatori, professionisti e aziende possono sfruttarlo seguendo i termini della licenza, in questo caso MIT, consentendo un'adozione ampia e diversificata. Anche se il modello LLM di DeepSeek è stato criticato per gli aspetti metodologici e di sicurezza, la conclusione è che, come sapevamo negli ambienti scientifici, la narrazione originale era esagerata, nella migliore delle ipotesi. Due anni dopo il rilascio di ChatGPT al mondo, DeepSeek ha dimostrato che esiste un vasto spazio per innovazioni tecnologiche anche al di fuori degli hub tecnologici consolidati.

Ricercatori e imprenditori prosperano in Nord America e Asia attraverso finanziamenti privati e pubblici per l'IA. In Europa, l'attenzione e i finanziamenti pubblici dei decision-makers sono rivolti alla regolamentazione dell'IA. Questo approccio deriva da un sentimento di paura nei confronti dell'IA e minimizza le risorse per la ricerca sull'IA e le ricadute epocali in ambiti quali la medicina e la salute. La comparsa di DeepSeek può essere uno stimolo per una nuova generazione di investitori privati e imprenditori europei che non vediamo da tantissimo tempo. Il serbatoio di talenti in Europa è vasto, ed è disponibile per supportare una visione sia nazionale che europea rivolta ad avere un impatto dell’IA sulla società.

 

(*1) La fase finale del progetto di ricerca  “How May I Help You ?” project

(*2) https://lmarena.ai/

(*3) DeepSeek-r1 è il modello del linguaggio rilasciato da DeepSeek con licenza MIT