GPT e PaLM: per i Large Language Model qualità o quantità?

Paolo Benanti
22 apr 2023
Tempo di lettura: 4 min

Aggiornamento: 16 mag 2023

In una recente inchiesta, il Washington Post ha scoperto che il dataset pubblico C4 di Google, utilizzato per addestrare modelli linguistici di nuova generazione come T5 di Google e LLaMA di Facebook, contiene testi provenienti da siti web con contenuti molto problematici. Questo ci interroga sugli effetti non previsti né prevedibili per i prodotti che da questo derivano o deriveranno.

Il Washington Post ha scoperto e reso pubblico in questo lungo articolo che il dataset C4 contiene dati proveniente da Stormfront, Kiwi Farms, 4chan e altri siti web potenzialmente problematici, tra cui almeno 27 identificati dal governo statunitense come mercati di contraffazione e pirateria. Tra gli altri, il sito nazionalista bianco VDARE, il sito di notizie di estrema destra Breitbart e l'emittente russa RT.

Ci sembra interessante, seguendo quanto fatto dalla testata statunitense, ricordare che i chatbot AI sono esplosi in popolarità negli ultimi quattro mesi, sbalordendo il pubblico con le loro impressionanti capacità, dalla scrittura di sofisticate tesine alle conversazioni di una lucidità spaventosa. Dobbiamo sempre essere consapevoli che questi software, per quanto sofisticati e sorprendenti, non possono pensare come gli esseri umani: non capiscono realmente ciò che dicono. Possono imitare il linguaggio umano perché l'intelligenza artificiale che li alimenta ha ingerito una quantità enorme di testo, per lo più prelevato da Internet.

Questo testo è la principale fonte di informazioni dell'intelligenza artificiale sul mondo che sta costruendo e influenza il modo in cui risponde agli utenti. Se l'intelligenza artificiale supera il test di ammissione alla scuola di legge, ad esempio, è probabilmente perché i dati di addestramento includono migliaia di siti di esercitazione per il test LSAT.

Le aziende tecnologiche però hanno deciso di innalzare una cortina di ferro su ciò che hanno dato in pasto in fase di addestramento all'intelligenza artificiale.

Per questo l'iniziativa del Washington Post, che ha quindi deciso di analizzare uno di questi set di dati per rivelare completamente i tipi di siti web proprietari, personali e spesso offensivi che entrano nei dati di addestramento di un'intelligenza artificiale, è di grande interesse e utilissima per iniziare a pensare se e come questi sistemi siano adeguati e rispettosi di identità culturali e democratiche dei paesi occidentali e in particolare di quell'isola sempre più isolata nella difesa della rule of law che è l'Europa.

Per guardare all'interno di questa scatola nera, il Post ha analizzato il set di dati C4 di Google, un'enorme istantanea dei contenuti di 15 milioni di siti web che sono stati utilizzati per addestrare alcune IA di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, tra cui T5 di Google e LLaMA di Facebook. (OpenAI non rivela quali set di dati utilizza per addestrare i modelli che supportano il suo popolare chatbot, ChatGPT).

Il Post ha collaborato con i ricercatori dell'Allen Institute for AI per questa indagine e ha classificato i siti web utilizzando i dati di Similarweb, una società di analisi web. Circa un terzo dei siti web non ha potuto essere classificato, soprattutto perché non sono più presenti su Internet. Questi dati non sono mostrati nel paper di riferimento uscito da questo lavoro.

Il dataset C4 di Google è stato creato effettuando il crawling del web e lo scraping dei dati di testo da un gran numero di pagine web. Secondo Google, C4 è stato inizialmente sviluppato come "versione ripulita" dei dati per l'addestramento dell'intelligenza artificiale di Common Crawl.

Ci promettiamo di approfondire più avanti ulteriormente la questione. Ora ci interessa sottolineare un passaggio interessante dell'articolo:

I siti web commerciali e industriali costituiscono la categoria più grande (16% dei token categorizzati), guidata da fool.com n. 13, che fornisce consigli sugli investimenti. Poco distante, kickstarter.com n. 25, che consente agli utenti di finanziare in crowdfunding progetti creativi, e più in basso, patreon.com n. 2.398, che aiuta i creatori a raccogliere quote mensili dagli abbonati per contenuti esclusivi. Kickstarter e Patreon potrebbero dare all'intelligenza artificiale l'accesso alle idee e alle copie di marketing degli artisti, sollevando il timore che la tecnologia possa copiare questo lavoro per suggerirlo agli utenti. Attualmente, gli artisti non ricevono alcun compenso o credito quando il loro lavoro viene incluso nei dati di addestramento dell'IA, e hanno presentato denunce per violazione del copyright contro i generatori di testo-immagine Stable Diffusion, MidJourney e DeviantArt. L'analisi del Post suggerisce che potrebbero arrivare altre sfide legali: Il simbolo del copyright - che indica un'opera registrata come proprietà intellettuale - compare più di 200 milioni di volte nel set di dati C4.

Ancora una volta dobbiamo essere consapevoli del perché è così importante un azione di giornalismo investigativo come quella del Washington Post. Il Post ha pubblicato uno strumento di ricerca per i proprietari di siti web e altri per scoprire se un sito specifico era incluso nel set di dati C4 di Google. L'indagine ha rilevato che il dataset era dominato da siti web legati al giornalismo, alla creazione di contenuti, all'intrattenimento e allo sviluppo di software, con patents.google.com, wikipedia.org e scribd.com elencati come i primi tre siti. Tuttavia, i dati di addestramento provenienti da siti più discutibili potrebbero potenzialmente indurre i modelli di intelligenza artificiale a generare testi indesiderati, razzisti, pornografici, inaffidabili e dannosi.

Un'analisi algoretica si sofferma anche sul set di partenza di addestramento e non può chiedersi non solo che fragilità legali emergeranno ma anche se e come una scelta di cosa includere nel datalake non sia di fatto anche un'opzione di natura politica e con severe conseguenze geopolitiche o con possibili effetti che porteranno il tradizionale softpower di Hollywood al livello di un vero e proprio colonialismo culturale.

7 commenti

Colby Adkins

18 dic 2025

Slope’s combination of simple controls, increasing difficulty, and competitive scoring keeps players engaged for hours. Its minimalist design and immersive 3D environment enhance focus and excitement.

Modificato

Mi piace

wisobi

13 dic 2025

Insightful exploration on the human side nutritist of AI that goes beyond tech hype to ask how we preserve empathy and meaning. values perspectives that challenge us to design technology that enhances human connection and wellbeing, not just efficiency or novelty.

Harry Parker

01 nov 2025

Balancing academic demands and personal obligations often leaves students searching for better time management solutions. Many struggle with deadlines and overlapping course schedules, making it challenging to maintain consistent performance. Students often explore reliable ways to handle such academic pressure. For those who wonder how to take my class for me , options from MyAssignmenthelp provide structured academic assistance through experienced professionals who understand complex coursework. This approach helps learners maintain focus on core concepts while ensuring accuracy and timely completion of assigned tasks. It promotes balance and steady progress in demanding educational settings.

MaryJane

27 ott 2025

Leggere di come i dataset per l’AI possano contenere fonti discutibili mi fa riflettere sul tema più ampio della trasparenza e dell’integrità, non solo nell’intelligenza artificiale ma anche in altri settori digitali. Nel mondo del gaming online, ad esempio, il rispetto delle regole è fondamentale per garantire un’esperienza sicura e responsabile. Proprio per questo trovo interessante questo articolo: https://soft2bet-italy.net/mantenere-lintegrita-nelligaming/ che spiega come i moderni operatori di iGaming riescano a mantenere equilibrio tra casinò, betting e tutela dei giocatori attraverso controlli rigorosi e tecnologie antifrode. Così come per l’AI è cruciale capire “cosa c’è nei dati”, anche nel gioco online è essenziale costruire fiducia su basi solide.

Deja Bryan

30 ago 2025

Big Casino è una piattaforma che combina divertimento e sicurezza. I giochi sono di alta qualità e la varietà è impressionante. Ho apprezzato la trasparenza nelle regole e la facilità di utilizzo del sito. Anche il programma fedeltà Big Casinò è un punto di forza, premiando i giocatori abituali. Un'esperienza di gioco che consiglio a chi cerca affidabilità e divertimento.