CICERO un AI che negozia, persuade e lavora con gli umani
- Paolo Benanti
- 23 nov 2022
- Tempo di lettura: 9 min
Oggi Meta ha annunciato la creazione di CICERO, il primo agente di intelligenza artificiale (AI) a raggiungere prestazioni di livello umano nel popolare gioco di strategia Diplomacy. Questa creazione può segnare l'inizio di una nuova era per le AI in grado di collaborare con le persone nel gioco utilizzando il ragionamento strategico e l'elaborazione del linguaggio naturale, e l'apprendimento di tecnologie come questa potrebbe un giorno portare ad assistenti intelligenti in grado di collaborare con le persone. Vediamo in dettaglio l'annuncio di Meta per capire come funziona CICERO.
I giochi sono stati a lungo un terreno di prova per i nuovi progressi delle IA: dalla vittoria di Deep Blue sul grande maestro di scacchi Garry Kasparov, alla padronanza di AlphaGo nel Go, fino a Pluribus che ha superato in bluff i migliori umani nel poker. Ma gli agenti veramente utili e versatili dovranno andare oltre il semplice spostamento dei pezzi su una scacchiera. La domanda da cui è partita Meta è se fosse possibile costruire agenti più efficaci e flessibili in grado di usare il linguaggio per negoziare, persuadere e lavorare con le persone per raggiungere obiettivi strategici simili a quelli degli esseri umani?

L'AI in questione si chiama CICERO ed è in grado di padroneggiare queste capacità. CICERO è la prima IA a raggiungere prestazioni di livello umano nel popolare gioco di strategia Diplomacy.
Diplomacy è un gioco da tavolo strategico americano creato da Allan B. Calhamer nel 1954 e commercializzato negli Stati Uniti nel 1959. Le sue principali differenze rispetto alla maggior parte dei wargame da tavolo sono le fasi di negoziazione (i giocatori passano gran parte del tempo a stringere e tradire alleanze con altri giocatori e a formare strategie vantaggiose) e l'assenza di dadi e altri elementi di gioco che producono effetti casuali. Ambientato in Europa negli anni che precedono la Grande Guerra, Diplomacy è giocato da due a sette giocatori, ognuno dei quali controlla le forze armate di una grande potenza europea (o, con meno giocatori, di più potenze). Ogni giocatore punta a muovere le proprie poche unità iniziali e a sconfiggere quelle degli altri per conquistare il possesso della maggior parte delle città e delle province strategiche contrassegnate come "centri di rifornimento" sulla mappa; questi centri di rifornimento permettono ai giocatori che li controllano di produrre più unità. Dopo ogni round di negoziazione, ogni giocatore può impartire ordini di attacco e di supporto, che vengono eseguiti durante la fase di movimento. Un giocatore prende il controllo di una provincia quando il numero di province a cui è stato dato l'ordine di sostenere la provincia attaccante supera il numero di province a cui è stato dato l'ordine di sostenere la provincia difendente.
Diplomacy è stato il primo gioco pubblicato in commercio a essere giocato per posta (PBM); solo gli scacchi, che sono di dominio pubblico, sono stati giocati per posta prima. Diplomacy è stato anche il primo gioco pubblicato in commercio a generare una scena hobbistica attiva con fanzine amatoriali; solo i fandom di fantascienza, fantasy e fumetti hanno visto fanzine prima di lui. Dagli anni Settanta si tengono tornei competitivi di Diplomacy faccia a faccia. Il gioco di Diplomacy via e-mail (PBEM) è diffuso dalla fine degli anni '80. Oggi si gioca anche su Internet, con l'arbitraggio di un computer o di un gamemaster umano.

Avalon Hill pubblicizza Diplomacy come il gioco preferito di John F. Kennedy e Henry Kissinger. Kissinger lo ha descritto come il suo preferito in un'intervista pubblicata su una rivista di giochi. Il giornalista americano Walter Cronkite è noto per essere stato un appassionato del gioco. Michael Portillo, giornalista, emittente ed ex membro del Parlamento e ministro del governo britannico, è noto per aver giocato al gioco mentre studiava alla Harrow County School for Boys. Diplomacy è stato definito come "Il gioco che rovina le amicizie e dà forma alle carriere politiche".

CICERO ha dimostrato le sue capacità giocando su webDiplomacy.net, una versione online del gioco, dove ha ottenuto un punteggio più che doppio rispetto alla media dei giocatori umani e si è classificato nel primo 10% dei partecipanti che hanno giocato più di una partita.
La diplomazia è stata vista per decenni come una grande sfida quasi impossibile per una AI, perché richiede ai giocatori di padroneggiare l'arte di comprendere le motivazioni e le prospettive degli altri, di fare piani complessi e di adattare le strategie, e poi di usare il linguaggio naturale per raggiungere accordi con altre persone, convincerle a formare partnership e alleanze, e altro ancora. CICERO è così efficace nell'usare il linguaggio naturale per negoziare con le persone in Diplomazia che spesso queste ultime preferiscono lavorare con CICERO rispetto ad altri partecipanti umani.
A differenza di giochi come gli scacchi e il go, Diplomacy è un gioco di persone piuttosto che di pezzi. Se un agente non è in grado di riconoscere che qualcuno sta probabilmente bluffando o che un altro giocatore vedrebbe una certa mossa come aggressiva, perderà rapidamente la partita. Allo stesso modo, se non parla come una persona vera - mostrando empatia, costruendo relazioni e parlando con cognizione di causa del gioco - non troverà altri giocatori disposti a lavorare con lui.

La chiave del successo di CICERO, secondo Meta, è stato lo sviluppo di nuove tecniche all'intersezione di due aree completamente diverse della ricerca sulle AI: il ragionamento strategico, utilizzato in agenti come AlphaGo e Pluribus, e l'elaborazione del linguaggio naturale, utilizzata in modelli come GPT-3, BlenderBot 3, LaMDA e OPT-175B. CICERO è in grado di dedurre, ad esempio, che più avanti nel gioco avrà bisogno del sostegno di un giocatore in particolare, e quindi di elaborare una strategia per conquistare il favore di quella persona - e persino di riconoscere i rischi e le opportunità che quel giocatore vede dal suo particolare punto di vista.
Meta ha reso disponibile il codice e pubblicato un documento per aiutare la comunità di ricercatori nel campo dell'intelligenza artificiale a utilizzare CICERO per stimolare ulteriori progressi nella cooperazione tra uomo e IA.
Sotto il cofano: come è costruito CICERO
Il cuore di CICERO è un modello di dialogo controllabile per Diplomacy, abbinato a un motore di ragionamento strategico. A ogni punto del gioco, CICERO esamina il tabellone e la cronologia delle conversazioni e modella il comportamento degli altri giocatori. Utilizza quindi questo piano per controllare un modello linguistico in grado di generare un dialogo libero, informando gli altri giocatori dei propri piani e proponendo loro azioni ragionevoli che si coordinano bene con loro.

Dialogo controllabile
Per costruire un modello di dialogo controllabile, i ricercatori di Meta hanno iniziato con un modello linguistico simile a BART da 2,7 miliardi di parametri, pre-addestrato su testi provenienti da Internet e messo a punto su oltre 40.000 partite umane su webDiplomacy.net. Meta ha sviluppato tecniche per annotare automaticamente i messaggi nei dati di addestramento con le corrispondenti mosse pianificate nel gioco, in modo che al momento dell'inferenza si possano controllare la generazione di dialoghi per discutere le azioni specifiche desiderate dall'agente e dai suoi interlocutori. Ad esempio, se CICERO gioca nei panni della Francia, il condizionamento del modello di dialogo su un piano che prevede l'appoggio dell'Inghilterra alla Francia in Borgogna potrebbe produrre un messaggio all'Inghilterra del tipo: "Ciao Inghilterra! Sei disposto a sostenermi in Borgogna questo turno?". Il controllo della generazione in questo modo permette a CICERO di fondare le sue conversazioni su un insieme di piani che sviluppa e rivede nel tempo per negoziare meglio. Questo aiuta l'agente a coordinarsi con gli altri giocatori e a persuaderli in modo più efficace.

Fase 1 Utilizzando lo stato del tabellone e il dialogo in corso, CICERO fa una previsione iniziale di ciò che tutti faranno.

Fase 2 CICERO affina iterativamente questa previsione utilizzando la pianificazione e poi usa queste previsioni per formare un intento per se stesso e per il suo partner.

Fase 3 Genera diversi messaggi candidati in base allo stato del forum, al dialogo e ai suoi intenti.

Fase 4 Filtra i messaggi candidati per ridurre le assurdità, massimizzare il valore e garantire la coerenza con i nostri intenti.
Meta ha migliorato ulteriormente la qualità del dialogo utilizzando diversi meccanismi di filtraggio - come i classificatori addestrati a distinguere tra testo umano e testo generato dal modello - che assicurano che il nostro dialogo sia sensato, coerente con lo stato attuale del gioco e con i messaggi precedenti e strategicamente valido.
Strategia e pianificazione consapevoli del dialogo
In passato, gli agenti sovrumani nei giochi avversari come gli scacchi, il Go e il poker sono stati creati attraverso l'apprendimento per rinforzo (RL) del gioco autonomo: gli agenti imparano le politiche ottimali giocando milioni di partite contro altre copie di se stessi. Tuttavia, i giochi che prevedono la cooperazione richiedono la modellazione di ciò che gli esseri umani faranno nella vita reale, piuttosto che la modellazione di ciò che dovrebbero fare se fossero copie perfette del bot. In particolare, Meta ha cercato di ottenere che CICERO faccia piani coerenti con il dialogo avuto con gli altri giocatori.

L'approccio classico alla modellazione umana è l'apprendimento supervisionato, in cui l'agente viene addestrato con dati etichettati, come un database di azioni di giocatori umani in partite passate. Tuttavia, affidarsi esclusivamente all'apprendimento supervisionato per scegliere le azioni in base al dialogo passato porta a un agente relativamente debole e altamente sfruttabile. Ad esempio, un giocatore potrebbe dire all'agente: "Sono contento che abbiamo concordato che sposterai la tua unità da Parigi!". Poiché messaggi simili appaiono nei dati di addestramento solo quando è stato raggiunto un accordo, l'agente potrebbe effettivamente spostare la sua unità da Parigi, anche se farlo è un chiaro errore strategico.

Per risolvere questo problema, CICERO esegue un algoritmo di pianificazione iterativo che bilancia la coerenza del dialogo con la razionalità. L'agente prevede innanzitutto la politica di ognuno per il turno corrente, in base al dialogo che ha condiviso con gli altri giocatori, e prevede anche quale sarà la politica degli altri giocatori. Poi esegue un algoritmo di pianificazione sviluppato dai ricercatori di Meta, chiamato piKL, che migliora iterativamente queste previsioni cercando di scegliere nuove politiche che abbiano un valore atteso più alto in base alle politiche previste dagli altri giocatori, cercando anche di mantenere le nuove previsioni vicine a quelle originali. Nei laboratori di Meta i ricercatori hanno scoperto che piKL modella meglio il gioco umano e porta a politiche migliori per l'agente rispetto al solo apprendimento supervisionato.

Generare un dialogo naturale e mirato
In Diplomacy, il modo in cui un giocatore parla con gli altri può essere ancora più importante di come muove i suoi pezzi. CICERO è in grado di parlare in modo chiaro e persuasivo quando si tratta di strategie con altri giocatori. Ad esempio, in una partita dimostrativa, CICERO ha chiesto a un giocatore un sostegno immediato su una parte del tabellone, mentre ha fatto pressione su un altro affinché prendesse in considerazione un'alleanza più avanti nel gioco.

In questi scambi, CICERO cerca di eseguire la sua strategia proponendo mosse a tre giocatori diversi. Nel secondo dialogo, l'agente è in grado di spiegare all'altro giocatore perché dovrebbe cooperare e in che modo sarà reciprocamente vantaggioso. Nel terzo, CICERO sollecita informazioni e pone le basi per le mosse future.
Dove c'è ancora spazio per i miglioramenti
È importante riconoscere che CICERO a volte genera anche un dialogo incoerente che può compromettere i suoi obiettivi. Nell'esempio seguente, in cui CICERO giocava come Austria, l'agente contraddice il suo primo messaggio in cui chiede all'Italia di spostarsi a Venezia. La nostra suite di filtri mira a rilevare questo tipo di errori, ma non è perfetta.

La diplomazia come sandbox per il progresso dell'interazione uomo-AI
L'emergere di sistemi di dialogo orientati agli obiettivi in un gioco che implica sia la cooperazione che la competizione solleva importanti sfide sociali e tecniche per allineare l'IA alle intenzioni e agli obiettivi umani. La diplomazia offre un ambiente particolarmente interessante per lo studio di questo aspetto, perché il gioco richiede di lottare con obiettivi contrastanti e di tradurre questi obiettivi complessi in linguaggio naturale. Per fare un semplice esempio, un giocatore potrebbe scegliere di scendere a compromessi su guadagni a breve termine per mantenere un alleato, con la possibilità che questo alleato lo aiuti a raggiungere una posizione ancora migliore nel turno successivo.

A Meta sono consapevoli che, sebbene abbiano fatto notevoli passi avanti in questo lavoro, sia la capacità di allineare in modo robusto i modelli linguistici con intenzioni specifiche, sia la sfida tecnica (e normativa) di decidere su tali intenzioni rimangono problemi aperti e importanti. Con l'open sourcing del codice di CICERO, i tecnici di Meta sperano che che i ricercatori di AI possano continuare a basarsi sul loro lavoro in modo responsabile. I ricercatori di Meta hanno fatto i primi passi per individuare e rimuovere i messaggi tossici in questo nuovo dominio, utilizzando il modello di dialogo per la classificazione a colpo zero. Leggendo le loro stesse parole si vede come ora i ricercatori si auguriano che Diplomacy possa servire come sandbox sicuro per far progredire la ricerca sull'interazione uomo-IA.

Direzioni future
Sebbene CICERO sia in grado di giocare solo a Diplomacy, la tecnologia alla base di questo risultato è rilevante per molte applicazioni del mondo reale. Il controllo della generazione del linguaggio naturale attraverso la pianificazione e la RL potrebbe, ad esempio, ridurre le barriere di comunicazione tra gli esseri umani e gli agenti dotati di intelligenza artificiale. Per esempio, gli assistenti AI di oggi eccellono in semplici compiti di risposta alle domande, come ad esempio informarvi sul tempo, ma cosa succederebbe se potessero mantenere una conversazione a lungo termine con l'obiettivo di insegnarvi una nuova abilità? In alternativa, immaginate un videogioco in cui i personaggi non giocanti (PNG) possano pianificare e conversare come fanno le persone, comprendendo le vostre motivazioni e adattando la conversazione di conseguenza, per aiutarvi nella vostra missione di assalto al castello.
Se a Meta sono, giustamente, entusiasti del potenziale dei futuri progressi in queste aree e di vedere come altri svilupperanno la ricerca, la potenza e i limiti di CICERO ci fanno guardare con la prudenza dell'algoretica a strumenti così efficaci ma anche così facilmente usabili non come strumenti ma come armi.



TK999 popped up in a few threads I was reading, so I clicked around just to see what the site feels like, not really to dig into specific games. First thing I noticed is it’s pretty easy to get a quick sense of what’s there because the pages don’t feel cluttered, and the categories are laid out in a way that’s simple to scan. I also liked that it seems built to work smoothly on mobile as well as desktop, so you’re not constantly zooming or fighting weird spacing. I didn’t test deposits or anything like that, but the overall setup gave me the impression they’ve put effort into keeping things straightforward. The way the game info is grouped into…
https://winbd.buzz/ popped up in a couple threads, so I clicked in mostly out of curiosity to see what the page looks like. I didn’t really dig into any games or anything like that, just skimmed around to get a feel for it. What I liked right away is that the layout doesn’t feel messy—stuff is broken into clear blocks so your eyes can jump around without getting lost. Also, the main menu is easy to spot and doesn’t make you hunt for where to go next, which is honestly all I want on a first visit. Even just scrolling a bit, it felt pretty straightforward to tell what’s where because the content is grouped into separate sections and the navigation…
happyluke mình lướt thấy nhắc nhiều nên tiện bấm vào coi thử, kiểu tò mò thôi. Vào trang cái là thấy giao diện khá thoáng, mấy khối nội dung tách bạch nên đọc nhanh vẫn hiểu đang nói gì, không bị rối mắt. Mình để ý phần giới thiệu họ có ghi rõ giấy phép PAGCOR, đặt ngay chỗ dễ nhìn nên cảm giác đỡ lấn cấn hơn khi xem thông tin. Menu trên cùng cũng dễ bấm, chuyển qua lại mượt, không phải mò lâu mới ra mục cần. Nói chung nhìn như họ chăm chút phần trình bày, tiêu đề từng box nổi rõ và bố cục gọn gàng trên trang.
jbo dạo này mình thấy nhắc nhiều nên cũng bấm vào coi thử cho biết. Vừa vào là thấy họ giới thiệu khá kỹ, kiểu nhấn mạnh đây là thương hiệu giải trí trực tuyến lớn ở châu Á nên đọc lướt cũng hiểu họ muốn nói gì. Mình để ý nhất là phần nói về giao dịch, họ ghi thanh toán nhanh cỡ 3 phút nên nhìn cũng yên tâm hơn chút (ít nhất là họ dám ghi rõ). Trang không bị rối, nội dung chia thành từng khối, có tiêu đề rõ ràng nên kéo xuống đọc không mệt. Mấy đoạn giới thiệu lặp lại nhẹ nhưng nhờ có heading nên vẫn dễ định vị, kiểu “chuyển đến…
luckywin dạo này thấy mọi người nhắc nhiều quá nên mình cũng bấm vào coi thử cho biết. Vừa vào cái là thấy giao diện khá thoáng, chữ nhìn rõ, không bị rối kiểu nhồi quá nhiều thứ một lúc. Mình lướt nhanh thôi chứ không đọc kỹ, nhưng có để ý phần ưu đãi cho người mới hiện khá nổi, kiểu voucher 88k nên ai mới vào chắc cũng thấy ngay. Cách họ chia nội dung theo từng khối cũng dễ chịu, kéo xuống là mỗi đoạn tách riêng nên mắt đỡ mệt. Mình thích kiểu trình bày này vì xem vài phút vẫn nắm được đang có gì trên trang. Nhìn chung mấy tiêu đề và block nội…