I modelli linguistici di intelligenza artificiale non sono semplici strumenti di calcolo del linguaggio: imitano alcune dinamiche profonde della mente umana, comprese le sue distorsioni. Questo è il punto di partenza di uno studio recentemente pubblicato sulla rivista Nature Scientific Data. L’articolo è firmato da un team multidisciplinare: Katherine Abramski (Dipartimento di Informatica dell’Università di Pisa), Riccardo Improta e Giulio Rossetti (Cnr – Istituto di Scienza e Tecnologie dell’Informazione “A. Faedo”) e Massimo Stella, (Dipartimento di Psicologia e Scienze cognitive dell’Università di Trento).
Al centro della ricerca c’è una domanda fondamentale: quanto e in che modo i grandi modelli linguistici di intelligenza artificiale (Llm, Large Language Models) riflettono i bias cognitivi e affettivi tipici del pensiero umano? Per rispondere, il gruppo di lavoro ha ideato un esperimento ispirato alla psicologia cognitiva e lo ha applicato a tre diversi modelli linguistici: Mistral, Aiku e Llama 3.
«L’idea nasce da un’esigenza precisa nel nostro laboratorio, il CogNosco Lab, e si collega sia al progetto di Ateneo “Cognosco” che a una collaborazione con il consorzio europeo HumanE Ai Net», puntualizza Massimo Stella, co-corresponding author dello studio. Nella mente umana, il linguaggio si modellizza tramite un sistema chiamato lessico mentale: una rete dinamica in cui le parole non sono isolate come in un dizionario, ma collegate tra loro da un insieme di proprietà semantiche, emozionali, pragmatiche. Questo modello è alla base delle nostre associazioni spontanee tra concetti. «I modelli linguistici non sono necessariamente coscienti o pensanti – precisa il ricercatore – ma possono essere testati con esperimenti che usiamo per studiare il comportamento umano. Questa disciplina emergente si chiama machine psychology: l’essere umano analizza il comportamento della macchina, come se fosse un paziente, per capire come ragiona».
Il cuore dell’esperimento è un compito classico in psicologia: l’associazione libera. Viene mostrata una parola-stimolo a un partecipante umano (o, in questo caso, a un modello linguistico) e si chiedono tre risposte associative, in rapida sequenza. Per esempio, alla parola “matematica” una persona può rispondere “numeri”, “equazioni”, “difficile”; ma se le risposte sono “noia”, “frustrazione”, “panico”, allora si evidenzia un bias affettivo negativo. «Abbiamo costruito un dataset sperimentale con oltre un milione di risposte per circa 12 mila concetti base, ciascuno valutato da tre modelli linguistici diversi», spiega l’autore dell’articolo. «L’idea è mappare la struttura delle associazioni e identificare pattern simili o divergenti rispetto ai dati umani». Ogni esperimento è stato personalizzato con prompt che simulavano identità umane specifiche, come per esempio: “Sei un uomo di 53 anni, vieni da Sydney…”. In questo modo è stato possibile rendere comparabili i risultati con quelli umani raccolti dal dataset psicologico Small World of Words, un corpus validato in ambito accademico che include informazioni su età, genere, provenienza delle persone partecipanti.
Uno dei risultati più significativi è legato al fenomeno del semantic priming. Nell’essere umano, quando viene presentata una parola semanticamente vicina a un’altra (tipico l’esempio “dottore” - “ospedale”), il cervello la processa più rapidamente. Questo effetto è stato simulato anche nei modelli linguistici di intelligenza artificiale e, sorprendentemente, i sistemi Llm replicano il comportamento umano, mostrando lo stesso tipo di facilitazione nel riconoscimento e associazione semantica.
«Dal punto di vista della rete cognitiva – sottolinea Massimo Stella – è come se i concetti più vicini tra loro attivassero percorsi preferenziali. La stessa cosa accade nei Llms: la rete associativa simulata mostra pattern compatibili con quelli umani, non solo sul piano cognitivo, ma anche su quello emotivo».
Il dataset rilasciato con l’articolo ha grandi potenzialità nel mettere in luce anche esempi specifici di deformazioni di pensiero culturali. «Nel caso del gender bias concetti come “gentile” sono più frequentemente associati al genere femminile, sia nelle risposte umane che in quelle prodotte dai modelli. Questi pregiudizi riflettono, e rischiano di amplificare, quelli sociali già esistenti» sottolinea lo studioso. Perché è importante questo studio? La risposta sembra scontata, ma non lo è. La diffusione globale dei modelli Llm, usati quotidianamente da milioni di persone, rende fondamentale il monitoraggio dei loro effetti cognitivi e sociali. «Tornando all’esempio della matematica, in uno studio parallelo abbiamo visto che Gpt-3 e Gpt-3.5 avevano una visione molto negativa della materia e l’associavano spesso a concetti come “noioso” o “frustrante”. Con Gpt-4 la situazione è migliorata, segno che i modelli possono evolvere, essere rivisti e ripuliti. Ma non possiamo darlo per scontato», avverte Stella. Ecco perché è necessario creare dataset aperti, mappe interpretative, che permettano a chi fa ricerca di valutare il comportamento dei modelli in maniera indipendente. Il dataset pubblicato dallo studio – liberamente accessibile – offre proprio questo tipo di strumento.
Lo studio è stato possibile anche grazie all’uso delle risorse del progetto Calcolo, finanziato dalla Fondazione per la valorizzazione della ricerca trentina (Vrt), che ha permesso al gruppo di lavoro di simulare centinaia di migliaia di risposte in modo efficiente.
L’articolo The “LLM World of Words” English free association norms generated by large language models” (Doi: 10.1038/s41597-025-05156-9) è stato pubblicato sulla rivista Scientific data ed è disponibile a questo link: https://www.nature.com/articles/s41597-025-05156-9