GPT e PaLM: per i Large Language Model qualità o quantità?
- Paolo Benanti
- 22 apr 2023
- Tempo di lettura: 4 min
Aggiornamento: 16 mag 2023
In una recente inchiesta, il Washington Post ha scoperto che il dataset pubblico C4 di Google, utilizzato per addestrare modelli linguistici di nuova generazione come T5 di Google e LLaMA di Facebook, contiene testi provenienti da siti web con contenuti molto problematici. Questo ci interroga sugli effetti non previsti né prevedibili per i prodotti che da questo derivano o deriveranno.
Il Washington Post ha scoperto e reso pubblico in questo lungo articolo che il dataset C4 contiene dati proveniente da Stormfront, Kiwi Farms, 4chan e altri siti web potenzialmente problematici, tra cui almeno 27 identificati dal governo statunitense come mercati di contraffazione e pirateria. Tra gli altri, il sito nazionalista bianco VDARE, il sito di notizie di estrema destra Breitbart e l'emittente russa RT.

Ci sembra interessante, seguendo quanto fatto dalla testata statunitense, ricordare che i chatbot AI sono esplosi in popolarità negli ultimi quattro mesi, sbalordendo il pubblico con le loro impressionanti capacità, dalla scrittura di sofisticate tesine alle conversazioni di una lucidità spaventosa. Dobbiamo sempre essere consapevoli che questi software, per quanto sofisticati e sorprendenti, non possono pensare come gli esseri umani: non capiscono realmente ciò che dicono. Possono imitare il linguaggio umano perché l'intelligenza artificiale che li alimenta ha ingerito una quantità enorme di testo, per lo più prelevato da Internet.
Questo testo è la principale fonte di informazioni dell'intelligenza artificiale sul mondo che sta costruendo e influenza il modo in cui risponde agli utenti. Se l'intelligenza artificiale supera il test di ammissione alla scuola di legge, ad esempio, è probabilmente perché i dati di addestramento includono migliaia di siti di esercitazione per il test LSAT.
Le aziende tecnologiche però hanno deciso di innalzare una cortina di ferro su ciò che hanno dato in pasto in fase di addestramento all'intelligenza artificiale.
Per questo l'iniziativa del Washington Post, che ha quindi deciso di analizzare uno di questi set di dati per rivelare completamente i tipi di siti web proprietari, personali e spesso offensivi che entrano nei dati di addestramento di un'intelligenza artificiale, è di grande interesse e utilissima per iniziare a pensare se e come questi sistemi siano adeguati e rispettosi di identità culturali e democratiche dei paesi occidentali e in particolare di quell'isola sempre più isolata nella difesa della rule of law che è l'Europa.

Per guardare all'interno di questa scatola nera, il Post ha analizzato il set di dati C4 di Google, un'enorme istantanea dei contenuti di 15 milioni di siti web che sono stati utilizzati per addestrare alcune IA di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, tra cui T5 di Google e LLaMA di Facebook. (OpenAI non rivela quali set di dati utilizza per addestrare i modelli che supportano il suo popolare chatbot, ChatGPT).
Il Post ha collaborato con i ricercatori dell'Allen Institute for AI per questa indagine e ha classificato i siti web utilizzando i dati di Similarweb, una società di analisi web. Circa un terzo dei siti web non ha potuto essere classificato, soprattutto perché non sono più presenti su Internet. Questi dati non sono mostrati nel paper di riferimento uscito da questo lavoro.
Il dataset C4 di Google è stato creato effettuando il crawling del web e lo scraping dei dati di testo da un gran numero di pagine web. Secondo Google, C4 è stato inizialmente sviluppato come "versione ripulita" dei dati per l'addestramento dell'intelligenza artificiale di Common Crawl.


Ci promettiamo di approfondire più avanti ulteriormente la questione. Ora ci interessa sottolineare un passaggio interessante dell'articolo:
I siti web commerciali e industriali costituiscono la categoria più grande (16% dei token categorizzati), guidata da fool.com n. 13, che fornisce consigli sugli investimenti. Poco distante, kickstarter.com n. 25, che consente agli utenti di finanziare in crowdfunding progetti creativi, e più in basso, patreon.com n. 2.398, che aiuta i creatori a raccogliere quote mensili dagli abbonati per contenuti esclusivi. Kickstarter e Patreon potrebbero dare all'intelligenza artificiale l'accesso alle idee e alle copie di marketing degli artisti, sollevando il timore che la tecnologia possa copiare questo lavoro per suggerirlo agli utenti. Attualmente, gli artisti non ricevono alcun compenso o credito quando il loro lavoro viene incluso nei dati di addestramento dell'IA, e hanno presentato denunce per violazione del copyright contro i generatori di testo-immagine Stable Diffusion, MidJourney e DeviantArt. L'analisi del Post suggerisce che potrebbero arrivare altre sfide legali: Il simbolo del copyright - che indica un'opera registrata come proprietà intellettuale - compare più di 200 milioni di volte nel set di dati C4.
Ancora una volta dobbiamo essere consapevoli del perché è così importante un azione di giornalismo investigativo come quella del Washington Post. Il Post ha pubblicato uno strumento di ricerca per i proprietari di siti web e altri per scoprire se un sito specifico era incluso nel set di dati C4 di Google. L'indagine ha rilevato che il dataset era dominato da siti web legati al giornalismo, alla creazione di contenuti, all'intrattenimento e allo sviluppo di software, con patents.google.com, wikipedia.org e scribd.com elencati come i primi tre siti. Tuttavia, i dati di addestramento provenienti da siti più discutibili potrebbero potenzialmente indurre i modelli di intelligenza artificiale a generare testi indesiderati, razzisti, pornografici, inaffidabili e dannosi.
Un'analisi algoretica si sofferma anche sul set di partenza di addestramento e non può chiedersi non solo che fragilità legali emergeranno ma anche se e come una scelta di cosa includere nel datalake non sia di fatto anche un'opzione di natura politica e con severe conseguenze geopolitiche o con possibili effetti che porteranno il tradizionale softpower di Hollywood al livello di un vero e proprio colonialismo culturale.



The investigation into the C4 dataset highlights how the quality and source of training data can have far-reaching implications on AI outputs, influencing everything from cultural representation to legal risks. Ensuring integrity and safety in data collection is essential, just as securing critical equipment is vital in practical scenarios. Using a battery lock installation kit provides reliable protection for power sources, preventing unauthorized access or damage. Careful attention to both digital and physical safeguards ensures that systems whether AI models or machinery operate responsibly, securely, and with minimized risk of unintended consequences.
Been using Pico Image for a while now for resizing and compressing images. It runs entirely in the browser so nothing gets uploaded to a server, which I find reassuring. Background removal works pretty well too, saves me from opening heavier software for simple tasks.
I read the article about LLM quality versus quantity and how models like GPT and others can change behaviour, performance, and usefulness over time, depending on what they were trained on and how they are measured. It reminded me of a time I tried learning a hard topic and felt stressed during exams. Back then I even wished someone would take my online exam to catch a break. It shows that deep understanding is often more valuable than just speed.
This is such a thought-provoking piece — the Washington Post's investigation into Google's C4 dataset really exposes how the "quantity over quality" approach in training data can silently embed bias and harmful content into AI systems we trust daily. It's a stark reminder that more data doesn't automatically mean better or safer outputs. The ethical implications stretch far beyond tech circles too — students researching Marketing Dissertation Topics around AI-driven consumer behavior, for instance, now have to critically question whether the models powering their research tools were trained on reliable, unbiased data in the first place. Your point about potential cultural colonialism is particularly sharp and underexplored in mainstream discourse. The question isn't just what these models can do, but…
Disney has created countless magical stories filled with adventure, friendship, and unforgettable characters. Fans who want to experience those worlds in a more interactive way can Play Disney Games Online, exploring colorful environments inspired by classic movies while completing fun challenges along the way.