• Paolo Benanti

Google Duplex: un AI per organizzare attività nel mondo reale telefonando


Lo scorso martedì 8 maggio Yaniv Leviathan, Principal Engineer e Yossi Matias, Vice President, Engineering, Google hanno postato su Google Ai Blog un post veramente impressionante su cosa sono riusciti a realizzare con le AI. Ne riproponiamo qui un estratto in traduzione per l'importanza dello scenario che questo sistema apre.

Un obiettivo di lunga data dell'interazione uomo-macchina è stato quello di consentire alle persone di avere una conversazione naturale con i computer, come farebbero tra di loro. Negli ultimi anni, abbiamo assistito a una rivoluzione nella capacità dei computer di comprendere e generare discorsi naturali, in particolare con l'applicazione delle deep neural networks (si pensi alla ricerca vocale di Google, WaveNet). Tuttavia, anche con i moderni sistemi di ultima generazione, è spesso frustrante dover parlare con pompose voci computerizzate che non comprendono il linguaggio naturale. In particolare, i sistemi telefonici automatizzati stanno ancora lottando per riconoscere parole e comandi semplici. Non si impegnano in un flusso di conversazione e costringono il chiamante ad adattarsi al sistema anziché fare sì che il sistema si adegui al chiamante.

Oggi annunciamo Google Duplex, una nuova tecnologia per condurre conversazioni naturali per svolgere attività "reali" al telefono. La tecnologia è diretta al completamento di compiti specifici, come la pianificazione di determinati tipi di appuntamenti. Per tali compiti, il sistema rende l'esperienza della conversazione il più naturale possibile, consentendo alle persone di parlare normalmente, come farebbero con un'altra persona, senza doversi adattare a una macchina.

Uno degli approfondimenti chiave della ricerca è stato quello di vincolare Duplex a domini chiusi, che sono abbastanza ristretti da poter essere esplorati in modo approfondito. Duplex può effettuare conversazioni naturali solo dopo essere stato profondamente addestrato in tali domini. Non può condurre conversazioni generali.

Ecco alcuni esempi di duplex che fanno telefonate (usando voci diverse):

  • Duplex che pianifica un appuntamento per un parrucchiere: qui

  • Duplex che chiama un ristorante: qui

Sebbene sembrino naturali, questi e altri esempi sono conversazioni tra un sistema di computer completamente automatico e attività reali.

La tecnologia Google Duplex è costruita per sembrare naturale, per rendere confortevole la conversazione. Per noi è importante che utenti e aziende abbiano una buona esperienza con questo servizio, e la trasparenza è una parte fondamentale di questo. Vogliamo essere chiari sull'intenzione dell'invito affinché le aziende comprendano il contesto. Sperimenteremo il giusto approccio nei prossimi mesi.

Condurre conversazioni naturali Ci sono diverse sfide nel condurre conversazioni naturali: il linguaggio naturale è difficile da capire, il comportamento naturale è difficile da modellare, le aspettative di latenza richiedono un'elaborazione veloce e la generazione di un discorso dal suono naturale, con le intonazioni appropriate, è difficile.

Quando le persone parlano tra loro, usano frasi più complesse di quando parlano ai computer. Spesso si correggono a metà frase, sono più prolissi del necessario, o omettono parole e si affidano invece al contesto; esprimono anche una vasta gamma di intenti, a volte nella stessa frase, ad esempio, "Quindi umm Martedì a Giovedi siamo aperti dalle 11 alle 2, e poi riapriamo dalle 4 alle 9, e poi Venerdì, Sabato, Domenica noi ... o Venerdì Sabato siamo aperti dalle 11 alle 9 e poi domenica siamo aperti dall'1 alle 9".

  • Esempio di dichiarazione complessa: qui

Nel linguaggio spontaneo naturale le persone parlano più velocemente e meno chiaramente di quanto fanno quando parlano con una macchina, quindi il riconoscimento vocale è più difficile e vediamo tassi di errore più elevati. Il problema è aggravato durante le telefonate, che spesso hanno rumori di sottofondo e problemi di qualità del suono.

Nelle conversazioni più lunghe, la stessa frase può avere significati molto diversi a seconda del contesto. Ad esempio, al momento della prenotazione la frase "Ok per 4" può significare l'orario della prenotazione o il numero di persone. Spesso il contesto pertinente potrebbe essere diverse frasi indietro, un problema che viene aggravato dall'aumentato tasso di errore delle parole nelle telefonate.

Decidere cosa dire è una funzione sia del compito che dello stato della conversazione. Inoltre, ci sono alcune pratiche comuni nelle conversazioni naturali - protocolli impliciti che includono elaborazioni ("per il prossimo venerdì" "per quando?" "Per il venerdì della prossima settimana, il 18."), sincronizzazioni ("puoi sentirmi?") , interruzioni ("il numero è 212-" "scusa puoi ricominciare?") e pause ("puoi attendere in linea? [pausa] grazie!" con un significato diverso per una pausa di 1 secondo contro 2 minuti).

Dentro Duplex Le conversazioni di Duplex Google Duplex suonano naturali grazie ai progressi nella comprensione , interazione , tempistica e conversazione.

Al centro di Duplex è una rete neurale ricorrente (RNN) progettata per far fronte a queste sfide, costruita utilizzando TensorFlow Extended (TFX). Per ottenere la sua alta precisione, abbiamo addestrato l'RNN di Duplex su un corpus di dati di conversazione telefonica anonimizzati. La rete utilizza l'output della tecnologia di riconoscimento vocale automatico (ASR) di Google, nonché le funzionalità dell'audio, la cronologia della conversazione, i parametri della conversazione (ad esempio il servizio desiderato per un appuntamento o l'ora corrente del giorno) e altro ancora. Abbiamo addestrato il nostro modello di comprensione separatamente per ogni attività, ma abbiamo sfruttato il corpus condiviso attraverso le attività. Infine, abbiamo utilizzato l'ottimizzazione dell'iperparametro da TFX per migliorare ulteriormente il modello.

L'audio in arrivo viene elaborato tramite un sistema ASR. Questo produce un testo che viene analizzato con dati di contesto e altri input per produrre un testo di risposta che viene letto ad alta voce tramite il sistema TTS.

  • Interruzioni di gestione duplex: qui

  • Elaborazione duplex: qui

  • Duplex che risponde a una sincronizzazione: qui

Suonare naturale

Usiamo una combinazione di un motore concatenante text to speech (TTS) e un motore TTS di sintesi (usando Tacotron e WaveNet) per controllare l'intonazione a seconda della circostanza. Il sistema sembra anche più naturale grazie all'incorporazione delle disfluenze vocali (ad es. "Hmm" e "uh"). Questi vengono aggiunti quando si combinano unità sonore molto diverse nel TTS concatenativo o si aggiungono attese sintetiche, che consentono al sistema di segnalare in modo naturale che è ancora in elaborazione. (Questo è ciò che le persone spesso fanno quando raccolgono i loro pensieri.) Negli studi degli utenti, abbiamo scoperto che le conversazioni che utilizzano queste disfluenze suonano più familiari e naturali.

Inoltre, è importante per la latenza per soddisfare le aspettative della gente. Ad esempio, dopo che le persone dicono qualcosa di semplice, ad esempio "ciao?", Si aspettano una risposta immediata e sono più sensibili alla latenza. Quando rileviamo che è richiesta una bassa latenza, utilizziamo modelli più veloci e a bassa affidabilità (ad es. Riconoscimento vocale o endpoint). In casi estremi, non aspettiamo nemmeno il nostro RNN, e invece usiamo approssimazioni più rapide (di solito associate a risposte più esitanti, come farebbe una persona se non capissero appieno la loro controparte). Questo ci permette di avere meno di 100 ms di latenza di risposta in queste situazioni. È interessante notare che in alcune situazioni, abbiamo scoperto che era utile introdurre più latenza per rendere la conversazione più naturale, ad esempio quando si risponde a una frase davvero complessa.

Operazione di sistema Il sistema Google Duplex è in grado di effettuare conversazioni sofisticate e completa la maggior parte dei suoi compiti in modo completamente autonomo , senza coinvolgimento umano. Il sistema ha una capacità di autocontrollo che gli consente di riconoscere le attività che non è in grado di completare in modo autonomo (ad esempio, programmare un appuntamento insolitamente complesso). In questi casi, segnala a un operatore umano, che può completare l'operazione.

Per addestrare il sistema in un nuovo dominio, utilizziamo un addestramento supervisionato in tempo reale. Questo è paragonabile alle pratiche di allenamento di molte discipline, in cui un istruttore supervisiona uno studente mentre sta facendo il suo lavoro, fornisce una guida secondo necessità e fa in modo che l'attività venga eseguita al livello di qualità dell'istruttore. Nel sistema Duplex, gli operatori esperti fungono da istruttori. Monitorando il sistema quando fa telefonate in un nuovo dominio, possono influenzare il comportamento del sistema in tempo reale secondo necessità. Ciò continua fino a quando il sistema non esegue il livello di qualità desiderato, a quel punto la supervisione si interrompe e il sistema può effettuare chiamate in modo autonomo.

Vantaggi per le aziende e gli utenti Le aziende che fanno affidamento su prenotazioni di appuntamenti supportate da Duplex e che non sono ancora supportate dai sistemi online possono trarre vantaggio da Duplex consentendo ai clienti di prenotare tramite l'Assistente Google senza dover modificare pratiche quotidiane o formare dipendenti. L'uso di Duplex potrebbe anche ridurre la mancata presentazione agli appuntamenti, ricordando ai clienti i loro appuntamenti imminenti in modo da consentire una facile cancellazione o riprogrammazione.

  • Duplex chiama un ristorante: qui

In un altro esempio, i clienti chiamano spesso le aziende per informarsi sulle informazioni che non sono disponibili online, come le ore di funzionamento durante una vacanza. Duplex può chiamare l'azienda per informarsi sugli orari di apertura e rendere le informazioni disponibili online con Google, riducendo il numero di tali chiamate ricevute dalle aziende, e allo stesso tempo rendendo l'informazione più accessibile a tutti. Le aziende possono operare come sempre, non ci sono curve di apprendimento o modifiche da apportare per trarre vantaggio da questa tecnologia.

  • Duplex si informa per le vacanze: qui

Per gli utenti, Google Duplex semplifica le attività supportate. Invece di fare una telefonata, l'utente interagisce semplicemente con l'Assistente Google, e la chiamata avviene completamente in background senza alcun coinvolgimento dell'utente.

Un utente chiede all'Assistente Google un appuntamento, che l'Assistente pianifica facendo in modo che Duplex inviti l'attività.

Un altro vantaggio per gli utenti è che Duplex consente la comunicazione delegata con i fornitori di servizi in modo asincrono, ad esempio richiedendo prenotazioni durante le ore di chiusura o con connettività limitata. Può anche aiutare ad affrontare l'accessibilità e le barriere linguistiche, ad esempio consentendo agli utenti con problemi di udito o agli utenti che non parlano la lingua locale di eseguire attività telefoniche.

Quest'estate inizieremo a testare la tecnologia Duplex all'interno dell'Assistente Google , per aiutare gli utenti a prenotare ristoranti, pianificare appuntamenti per parrucchieri e trascorrere ore di ferie al telefono.

Yaniv Leviathan, capo di Google Duplex, e Matan Kalman, direttore tecnico del progetto, godono di un pasto prenotato tramite una chiamata da Duplex.

  • Chiamata duplex per prenotare il pasto in foto: qui

Permettere alle persone di interagire con la tecnologia con la naturalezza con cui interagiscono tra loro è stata una promessa da lungo tempo. Google Duplex fa un passo in questa direzione, rendendo l'interazione con la tecnologia tramite conversazioni naturali una realtà in scenari specifici. Speriamo che questi progressi tecnologici contribuiranno infine a migliorare in modo significativo l'esperienza delle persone nelle interazioni quotidiane con i computer.

Le potenziali applicazioni di tecnologie come questa hanno portato alcuni a chiedersi se reti di IA simili potrebbero significare "la fine della realtà come la conosciamo ". Qualunque cosa questo significhi. Mentre è improbabile che vedremo la fine di qualsiasi realtà, potremmo vedere la creazione di realtà alternative a pieno titolo. Non è la prima volta che nuove tecnologie fanno nascere delle paure. Quello che è notevole come le AI siano sempre più in grado di confondere il nostro sistema cognitivo non permettendoci di distinguere un umano da una macchina. Allora forse la realtà non finirà ma questa realtà ci interroga.

#AI #Design #tecnologia #design #bot

72 visualizzazioni