Pagare l'uomo per far apprendere la macchina? Il caso serio di YouTube

Paolo Benanti
27 mar 2018
Tempo di lettura: 14 min

YouTube si è trovata in difficoltà lo scorso anno nel riuscire a moderare i contenuti dei suoi video. Riuscire a rimanere un servizio open, un servizio in cui gli utenti producono e caricano liberamente i contenuti, e saper rendere sicura e adatta a ogni età e a ogni utente l'utilizzo del sistema. YouTube ha promesso di risolvere il problema. Come?

La società ha dovuto affrontare ripetuti scandali per la sua incapacità di liberarsi di contenuti inappropriati e inquietanti, compresi alcuni video rivolti ai bambini. Di fronte a queste difficoltà, particolarmente imbarazzanti per il managment, la società sussidiaria di Alphabet, il capofila di Google, ha promesso di intervenire in maniera decisa.

Tocca ai dipendenti della società fare al moderazione dei video: alcuni impiegati hanno direttamente il compito di rimuovere contenuti che contengono cose come l'eccesso di violenza, la pornografia e altri contenuti definiti inappropriati.

Tuttavia il controllo umano richiede tempo, sottopone i lavoratori a un forte stress emotivo e, non ultimo nell'ottica aziendale, costa molti soldi. Il problema però è che una macchina per poter effettuare un'operazione di selezione, anche se sottoposta a seconda verifica, dei contenuti video richiede un profondo addestramento. Da qui un idea che vede la piattaforma di streaming usare uno dei servizi che Amazon mette a disposizione del web, gli Amazon Web Services o AWS: Amazon Mechanical Turk. Ma cerchiamo di capire meglio.

Uno sguardo alla tecnologia

Gli AWS sono una serie di servizi di elaborazione, storage di database, distribuzione di contenuti e molto altro, pensati per essere un infrastruttura su cui diversi clienti, di ogni dimensione aziendale, possono creare applicazioni sofisticate in modo flessibile, scalabile e affidabile. Da un punto di vista commerciale è stata una grande innovazione. AWS opera in 43 zone di disponibilità all'interno di 16 regioni geografiche in tutto il mondo, con altre 11 zone di disponibilità e 4 ulteriori regioni che saranno in rete nel corso del prossimo anno. Qualsiasi sia la dimensione del cliente si può avere accesso allo stato dell'arte della tecnologia in maniera scalabile, cioè secondo le esigenze in tempo reale, pagando solo quanto si usa e non dovendo sostenere costi o investimenti per l'infrastruttura.

Tra i diversi servizi uno molto particolare è proprio il turco meccanico.

Amazon Mechanical Turk o MTurk è un servizio internet di crowdsourcing che permette ai programmatori informatici - conosciuti come requester - di coordinare l'uso di intelligenze umane per eseguire compiti che i computer, a oggi, non sono in grado di fare. Il servizio prende il nome dal famoso "Turco": il "Turco" era un automa, creato nel 1769 da Wolfgang von Kempelen (1734-1804) per Maria Teresa d'Austria, che, teoricamente, avrebbe dovuto simulare un giocatore di scacchi, mentre si trattava in realtà di un imbroglio, essendo manovrato al suo interno da un giocatore umano. In maniera analoga AWS vende dei servizi gestiti da server.

Tuttavia un server (macchina) non riesce a fare tutti i compiti che servono per gestire un servizio web. Da qui l'idea di avere dei servizi che sono stile server (distribuiti da Amazon) ma effettuati da lavoratori "nascosti", cioè dei contractors dislocati in tutto i lmondo che rispondono alle richieste di lavoro degli acquirenti. Nel linguaggio di MTurk si parla di Requester e Provider. I Requester possono pubblicare obiettivi conosciuti come HIT (Human Intelligence Tasks), come identificare gli artisti in un cd musicale, le migliori fotografie di un negozio, la scrittura delle descrizioni di un prodotto. I Worker (lavoratori o Providers come vengono chiamati nei termini di servizio) o informalmente Turker, possono ricercare tra gli obiettivi esistenti e completarli in cambio di un pagamento deciso dal requester. Amazon Mechanical Turk (MTurk) gestisce un mercato per il lavoro che richiede intelligenza umana.

Il servizio Web MTurk consente alle aziende di accedere a livello di programmazione a questo mercato e a una forza lavoro diversificata e su richiesta. Gli sviluppatori possono sfruttare questo servizio per includere l'intelligenza umana direttamente nelle loro applicazioni. Mentre la tecnologia informatica continua a migliorare, ci sono ancora molte cose che gli esseri umani possono fare molto più efficacemente dei computer, come identificare oggetti in una foto o video, eseguire la deduplicazione dei dati, trascrivere registrazioni audio o ricercare dettagli di dati. Tradizionalmente, compiti come questo sono stati raggiunti assumendo una grande forza lavoro temporanea (che richiede molto tempo, è costosa e difficile da scalare).

MTurk, nelle promesse di Amazon, mira a rendere l'accesso all'intelligenza umana semplice, scalabile e conveniente. Le aziende o gli sviluppatori che necessitano di attività - chiamate Human Intelligence Tasks o "HIT" - possono utilizzare l'API, l'interfaccia di programmazione, MTurk per accedere a migliaia di lavoratori globali on demand di alta qualità e quindi integrare a livello di codice i risultati di tale lavoro direttamente nei loro processi aziendali e sistemi. MTurk consente a sviluppatori e aziende di raggiungere i propri obiettivi più rapidamente e a un costo inferiore rispetto a prima.

Il turco meccanico di Amazon fa sorgere numerose domande. Di fatto se da una parte è un offerta di lavoro digitale globale, che supera stati e barriere, dall'altro è una forma rinnovata di lavoro a cottimo. Il lavoratore riceve un pagamento, dell'ordine di centesimi di dollaro per essere chiari, in funzione della prestazione cognitiva di basso livello, riconoscere un oggetto in una foto o classificare una voce di spesa su uno scontrino. Inoltre oltre a essere una form adi lavoro che non permette nessuna relazione stabile tra offerta e domanda funziona secondo un modello che potremmo definire a sciame. Milioni di piccoli lavoratori digitali si gettano a sciame su queste offerte di HIT dando luogo a un'asta al ribasso. Chi ha più fame di lavoro e di microretribuzioni accetterà i task a prezzo inferiore.

La necessità di business dell'Occidente ricco si trasforma in una gara tra affamati del cyberspazio. Se l'unica possibilità di accedere al mercato del lavoro, l'unica ricchezza, nell'Ottocento industriale era la prole dando vita la proletariato, questa nuova ricchezza che è nelle funzioni cognitive di base sta forse dando luogo a nuove classi di sfruttati, i cognitali? Anche se le considerazioni su MTurk sarebbero da sole degne di un approfondimento ci sembra più urgente analizzare il modo con cui YouTube, in accordo con Amazon, ha deciso di utilizzare MTturk.

Se AWS fornisce questa modalità di asta su funzioni cognitive a prezzi stracciati, con adeguata percentuale di intermediazione, allora perché non sfruttare la scalabilità del servizio per lo scrrening dei contenuti. Da qui l'idea. Se il task, cioè il lavoro retribuito che si affida a MTurk diviene la classificazione perché accontentarsi di un compito chiuso e non far si che lo sciame di fatto faccia un vero servizio impagabile: addestrare un'AI di rating dei contenuti?

Lo sciame di MTurk, ricompensato con micropagamenti, di fatto non produce valore classificando i contenuti generati e caricati dagli utenti, ma aiutando a insegnare all'IA a imparare a rilevare i caricamenti non graditi.

Il modello messo in piedi da YouTube funziona quindi così: i dipendenti di MTurk non prendono direttamente decisioni sulla moderazione dei contenuti, ma con il loro lavoro di risposta ai quesiti di YouTube sui contenuti dei video aiutano regolarmente a formare gli strumenti di apprendimento automatico di YouTube, in tutti i diversi usi con cui questi vengono poi applicati. Gli strumenti di machine learning del servizio di streaming fanno molto di più che trovare video inappropriati, lavorano in moltissime altre parti del sistema di YouTube, come, ad esempio, il suo algoritmo di raccomandazione di video in base a quanto visto dagli utenti in precedenza.

Intervistato da Wired sul tema, Rochelle LaPlante, un operatore di MTurk, ha detto che YouTube e Google richiedono attività su Mechanical Turk da anni. Secondo LaPlante: "Sono richieste tutte diverse: taggare i tipi di contenuti, cercare contenuti per adulti, contrassegnare contenuti che sono sono classificabili come teoria della cospirazione, contrassegnare se i titoli sono appropriati, contrassegnare se i titoli corrispondono al video, identificare se un video proviene da un account VEVO, ecc.".

LaPlante afferma che i task richiesti e le linee guida per portarli a termine cambiano spesso. Alcuni sembrano essere direttamente correlati alla rilevazione di contenuti offensivi mentre altri sembrano contribuire a determinare se un video è appropriato per un segmento di pubblico specifico, come i bambini. Alcuni altri lavoratori, sempre secondo LaPlante, hanno il sospetto che questo sia collegato al processo decisionale secondo cui i canali dovrebbero essere monetizzati o demonetizzati.

Guarda e impara Seguendo il report di Wired si scopre un'attività di moderazione specifica che LaPlante ha completato il 14 marzo per un pagamento di 10 centesimi. Il compito è abbastanza semplice, sebbene lasci ampio spazio discrezionali alle opinioni personali dei singoli lavoratori. Il task in questione offre una finestra che permette di vedere un processo solitamente opaco: in che modo l'interpretazione di un video da parte di un utente viene utilizzata per aiutare in seguito un algoritmo di apprendimento automatico. Inoltre la cosa svela anche un altro interessante dettaglio su YouTube: gli algoritmi di machine learning segnalano solo i video; determinare se qualcosa viola le linee guida della community della società rimane un lavoro umano.

L'HIT di MTurk chiede al lavoratore di guardare un video e quindi spuntare una serie di caselle su ciò che contiene. Chiede anche di prestare attenzione al titolo e alla descrizione del video. L'operatore MTurk dovrebbe "guardare un numero sufficiente di video" per essere sicuro del proprio giudizio, e l'HIT suggerisce che dovrebbero prendere in considerazione di guardarlo a una velocità 1.5 superiore a quella standard per accelerare il processo. Le domande riguardano se la clip contiene "linguaggio volgare o volgarità" o "dialogo destinato a un pubblico adulto", comprese "scene offensive o controverse". Chiede agli operatori di MTurk di distinguere tra nudità artistica e contenuti progettati per "suscitare o gratificare sessualmente".

Una sezione particolarmente ambigua chiede al lavoratore di distinguere tra "rappresentazioni grafiche (reali o fittizie) dell'uso di droghe" e "uso incidentale o comico di droghe leggere". Il compito non include una descrizione o un elenco di ciò che deve essere considerato come una droga pesante o leggera, sebbene indichi che le "droghe pesanti" includono l'eroina, alla fine del compito il lavoratore giudica se si ritiene che il video sia appropriato per i bambini.

Considerazioni economiche Negli Stati Uniti il salario minimo federale orario per un lavoratore è di 7 dollari e 25 centesimi. Per giungere a questa cifra un lavoratore MTurk dovrebbe completare 72,5 attività come questa in un'ora. Oltre al fatto che i video normalmente sono più lunghi di un minuto e che quindi risulta impossibile raggiungere il salario minimo per un lavoratore tradizionale, si comprende facilmente come di fatto si generi un incentivo a rispondere a queste domande estremamente rapidamente. Mentre alcune delle domande poste da YouTube sono semplici (c'è qualche parola o canto nell'audio?), la maggior parte sono questioni sfumate e sottolineano la complessità di addestrare un'intelligenza artificiale per aiutare a ordinare una gigantesca piattaforma video globale. Probabilmente il video medio del gatto non farebbe saltare in aria un lavoratore assegnato a questo compito, ma non è difficile immaginare come, per esempio, potrebbe reagire emotivamente un lavoratore a uno sproloquio politico sull'aborto.

Non è chiaro quale sia lo scopo delle attività specifiche richieste come quelle fatte da LaPlante. Una simile profilazione può essere usata specificamente per la moderazione dei contenuti o per qualche altra funzione. Interrogati da Wired a proposito, YouTube non ha voluto commentare sul perché avesse creato questa specifica attività. Cliccato in seguito, il link video incluso nel task ora porta a una pagina che il server dice essere "non disponibile". Il video è stato catturato dalla Wayback Machine di Internet Archive 56 volte tra settembre 2016 e marzo 2018, ma anche i primi screenshot dicono che il video "non esiste". Anche LaPlante non ricorda la clip esatta: "Non ricordo alcun video in particolare, ma sembrava essere un po 'tutto - caricamenti da singoli utenti, clip da TV o film, pubblicità, videogiochi. Non era un genere particolare o un tipo di video ".

A dicembre, YouTube si è impegnato ad aumentare la sua forza lavoro di moderazione a 10.000 persone nel 2018. I lavoratori MTurk non contano come parte di quel numero, perché non stanno moderando il lavoro sui contenuti a titolo definitivo, ma invece aiutano a formare l'AI per aiutare in quel processo in il futuro.

LaPlante è convinto che: "anche se utilizzano MTurk solo per addestrare algoritmi di apprendimento automatico, mi aspetto che alcuni di questi task formino i loro algoritmi per essere in grado di eseguire la moderazione dei contenuti con un minore coinvolgimento umano. Quindi, anche se potremmo non fare la moderazione dei contenuti live su MTurk, potremmo comunque contribuire alla moderazione dei contenuti in quanto potremmo addestrare i sistemi di moderazione dei contenuti automatici".

Sarah T. Roberts, che lavora come ricercatrice sulla moderazione dei contenuti alla Graduate School of Education e Information and Studies dell'UCLA, afferma che è diventato molto comune per piattaforme come YouTube utilizzare siti di micro-lavoro come Mechanical Turk per completare "attività secondarie o terziarie" come la formazione algoritmi. Questa modalità è diventato più di una domanda, e persone come LaPlante e altri che hanno esperienza a lungo termine con il lavoro su siti web di micro-lavoro hanno un occhio abbastanza sofisticato per individuare quel genere di cose.

YouTube ha un disperato bisogno degli strumenti di intelligenza artificiale che LaPlante e altri lavoratori MTurk addestrano. La piattaforma ha fallito ripetutamente negli ultimi mesi per controllare se stessa. Fin dal nuovo anno, ha dovuto affrontare una una delle sue più grandi star, cioè utenti con maggiori visualizzazioni, per aver caricato un video con il corpo di una vittima suicida, è stata sottoposta a pesanti critiche per aver permesso il diffondersi di una teoria del complotto su una vittima di Parkland e non ha bloccato sui suoi server i video di un gruppo di suprematisti bianchi ritenuto collegato a cinque omicidi finché non ci sono state forti pressioni pubbliche.

Per la maggior parte però, le discussioni su come la piattaforma dovrebbe riformare il suo sistema non hanno coinvolto gruppi reali o le persone sfruttate: da quanto si sa nessun gruppo o associazione è stata interrogata per aiutare YouTube a migliorare. Parte di questa equazione include i lavoratori MTurk, che aiutano a formare i più recenti strumenti di machine learning di YouTube, che probabilmente un giorno aiuteranno i moderatori a individuare contenuti inappropriati in modo più rapido e accurato.

Gli algoritmi già rilevano il 98% dei video con contenuti violenti postati da vari gruppi o da singoli estremisti secondo un report diffuso dalla stessa compagnia, anche se, nella policy aziendale, un moderatore umano rivede ancora questi video. In futuro, probabilmente gli algoritmi faranno una quota ancora maggiore del lavoro di moderazione dei contenuti. Per ora, però, la maggior parte dell'intelligenza artificiale non è abbastanza "intelligente" da prendere decisioni con adeguate o sufficienti sfumature su quale tipo di contenuto può rimanere e su cosa, invece, dovrebbe essere rimosso.

Alcune chiavi di lettura Alla luce di questi elementi sembrerebbe che la mirabolante tecnologia di profilazione dei contenuti video basata su AI di YouTube spesso si riduce in parte a un lavoratore di MTurk che prende decisioni improvvise per pochi centesimi. Certamente cercare di replicare il giudizio umano non è un compito facile e le risposte di un lavoratore MTurk alle domande di YouTube non possono che essere soggettive. Quindi dobbiamo concludere che come l'omonimo turco meccanico il sistema di YouTube sia un inganno? Ci troviamo di fronte a un server che nasconde al suo interno un umano? Forse. O forse questo elemento rivela quella che potremmo definire la vera "big picture".

Le Ai stanno rivoluzionando il nostro approccio all'automazione. Avere dei sistemi che mostrano alcune abilità cognitive ci permette di pensare che sia possibile automatizzare compiti che prima era impensabile automatizzare perché per loro natura non sono ripetitivi e perché richiedono capacità di giudizio umano.

Un primo elemento che possiamo intravedere in questo processo di inclusione delle AI nel flusso lavorativo è che di fatto se possiamo pensare le AI come pervasive e onnipresenti e capaci, citando un famoso rapporto, di essere nel 90% dei lavori, questo non vuol dire che saranno in grado di compiere per intero queste forme di lavoro. In altri termini forse accadrà come è previsto negli scenari più allarmanti che la quasi totalità dei lavori sarà pensabile con delle automazioni basate sulle AI ma non è detto che le AI potranno fare il 100% di ogni singolo lavoro. La parte cognitiva umana nel processo produttivo può ancora essere necessaria. La questione che non è chiara è se la parte umana sarà residuale e assegnata a sciame o se invece avremo ancora modo di pensare a lavori tipicamente umani.

Vi è poi un secondo punto che secondo me merita una certa attenzione. La questione YouTube ci deve far riflettere su quale sia il tipo di lavoro che la società di streaming sta acquistando su MTurk. YouTube sta acquistando da lavoratori umani delle categorizzazioni di contenuti trovando il modo di pagare il meno possibile dei dipendenti o sta cercando altro?

Alla luce degli elementi che possiamo sembra lecito pensare ad almeno due ulteriori scenari. In primo luogo gli HIT potrebbero essere solo dei bechmark di valutazioni già espresse da degli algoritmi. Il colosso statunitense potrebbe con piccoli investimenti creare una selezione degli algoritmi più preformanti senza correre il rischio di fallimenti epici con il grande pubblico. Uno dei grandi modelli che animano lo sviluppo del machine learning è quello degli algoritmi evolutivi. I feedback ottenuti dagli HIT su MTurk di fatto potrebbero essere degli stress score che permettono all'algoritmo di machine learning di evolvere verso un modello sempre più performante. Il servizio acquistato dal colosso dello streaming allora non sarebbe una classificazione dei contenuti ma una validazione, anonima e inconsapevole, dello scoring e del lavoro fatto dagli algoritmi di AI. Le risposte umane verrebbero confrontate con quelle dei sistemi automatici selezionando così a basso prezzo e con poco rischio gli algoritmi più preformanti.

Vi è però almeno un ulteriore e inquietante scenario da considerare. Le HIT acquistate su MTurk potrebbero avere un valore che non risiede nel nella classificazione dei contenuti né nella validazione dei risultati. Quello a cui starebbero collaborando i diversi provider come LaPlante potrebbe essere un enorme addestramento di massa. Quello che è prezioso e che costituirebbe la vera natura dell'HIT sarebbe la produzione di processi cognitivi basilari (le famose domande a cui rispondere) che la macchina potrebbe copiare e fare sue. Quello che YouTube starebbe acquistando in questo mercato globale e a sciame di lavoratori del digitale sarebbe allora una cognitività grezza da acquisire e copiare nei suoi sistemi di AI. Se questo è lo scenario di fronte a cui ci troviamo il paradigma sarebbe radicalmente differente. Il lavoratore non avrebbe più valore per il lavoro che riesce a compiere - modello classico - né per la parte di cognizione umana che fornisce al processo automatizzato - come nello scenario precedente - ma per il suo essere "materia prima cognitiva" - se ci si passa l'espressione - che la macchina può lavorare e fare sua. Il provider di MTurk che accetta l'HIT sarebbe allora al tempo stesso provider e task, lavoratore e prodotto. Il suo processo cognitivo è l'oggetto che interessa al requester. La funzione cognitiva del provider è la cosa che viene ceduta, sintetizzandola negli algoritmi di machine learning, task dopo task a YouTube. Lo scenario sembra degno delle peggiori distopie della fantascienza eppure non è così irreale. Se la grande disponibilità di turkers mette a disposizione molte facoltà umane per pochi spiccioli sembra pensabile utilizzare questa enorme capacità cognitiva come materia prima per l'addestramento e il perfezionamento di algoritmi sempre più flessibili e potenti. L'obiettivo in questo caso sarebbe quindi decretare o ridurre al minimo la necessità di reale apporto umano nei processi automatici che si potrebbero implementare. Se le cose stanno così ce lo dirà soltanto il tempo. A noi spetta però il chiederci il senso di alcune operazioni di mercato.

Prima di congedarci da queste singolare richieste di YouTube ad Amazon Mechanical Turk ci sembra doveroso ritornare ancora su un elemento di fragilità generale che emerge dai processi descritti. Anche se costruiti con le migliori intenzioni e le più ampie e sofisticate verifiche e validazioni con processi affidati alla cognizione umana, gli algoritmi non saranno mai neutrali o completamente imparziali. Questi pezzi di codice sono sono progettati e costruiti dagli umani. I software che realizziamo, nella loro struttura basilare di if this than that risentono proprio dell'if, cioè di una operazione di giudizio, il se della logica informatica, che di fatto è, nel senso ampio e non negativo dell'accezione inglese del termine, un bias a priori. Un pre-giudizio, un giudizio espresso prima dell'accadimento della cosa, per usare un'espressione a noi più vicina. Questi elementi valutativi riflettono il giudizio, i desideri e le precomprensioni di alcune persone, di un tempo e di un luogo specifico. Inoltre questi "if", per continuare ad utilizzare questa espressione sintetica del problema, in situazioni come quelle descritte in questo caso, lavorano e sono il risultato di giudizi e valutazioni di persone sottopagate che guardano video di YouTube a una velocità 1,5 volte superiore. Le conseguenze di questi "if", il "then that" per rimanere nello stesso linguaggio, saranno quindi valutazioni tutt'altro che neutrali e oggettive. Nessuno di noi quando sceglie lo fa in maniera del tutto avulsa dalle sue pre-comprensioni e dai suoi pre-giudizi. Affidare questo a un algoritmo però significa moltiplicare questi pre-giudizi con un effetto scala di magnitudine massima.

Le domande etiche e le precauzioni da porre in essere a questo livello si fanno allora quanto mai urgenti e importanti. A noi mantenere vigile l'attenzione e porre le domande di senso ai data scientist. Abbiamo bisogno di spazi dove orientare queste forme di progresso tecnologico verso un'autentico sviluppo umano.

#BigData #AI #etica #Tecnologia

Paolo Benanti

Pagare l'uomo per far apprendere la macchina? Il caso serio di YouTube

Post recenti

Commenti