Sound on and play
Se la prossima volta che ascoltate la radio in auto vi viene il dubbio che il presentatore, stile “avviso ai naviganti”, sia un po’ “robotico”, può darsi che ci abbiate azzeccato. Anche se visti i progressi della tecnologia è probabile che se fosse veramente un robot non ve ne accorgereste. Basta ascoltare ANDY, acronimo di Artificial Neural Disk-JockeY, per convincersene. ANDY è un avatar audiosintetico del vero Andy, ossia Andy Chanley. Andy l’umano è un famoso DJ della stazione pubblica 88.5 KCSN nella California del Sud (Los Angeles e dintorni) che ha prestato la propria voce per addestrare il software di machine learning sviluppato dalla start-up di Seattle WellSaid Labs. WellSaid, che è uno spin-off dell’Allen Institute for AI (AI2), creato dal cofondatore di Microsoft Paul Allen, sviluppa un sistema di sintesi vocale partendo da testo (text-to-speech) che utilizzando tecniche di intelligenza artificiale vuole arrivare a superare i concorrenti nel settore sia sul fronte della naturalezza che del costo. Una delle caratteristiche più interessanti è la possibilità di scegliere il tone of voice, ossia il contenuto emotivo del parlato., un punto dove le tecnologie TTS classiche spesso falliscono. WellSaid offre il suo sistema come servizio (gratuito e a pagamento) sul suo sito web, dove sono disponibili già diversi avatar, alcuni con la scelta tra tono narrativo e promozionale. Uno di questi, Alana B. è quello che vi porta i nostri auguri audio in inglese. Il sito di WellSaid permette anche, a pagamento, di creare il proprio avatar.
Ma perché da Seattle sono scesi a Los Angeles per cercare un DJ? Perché ANDY è al centro dell’accordo tra WellSaid e un’altra start-up, l’angelena Super Hi-Fi (SHF), che come mission ha di utilizzare l’IA per offrire ai servizi audio, siano essi, streaming, radio classiche o web-radio, persino agenzie di stampa (l’Associated Press è tra i loro clienti) contenuti automatizzati inseriti tra un brano audio o musicale e l’altro. Si va dalle pubblicità, agli stacchetti musicali, ai notiziari registrati, ma NHF ora vuole estendere la propria offerta ai contenuti parlati generati con sintesi vocale. Da qui l’accordo con WellSaid e l’arruolamento di ANDY, che ora è pronto a presentare brani e dischi, ma anche a dare le notizie sul traffico, le breaking news, le previsioni del tempo, tutto interpretando con il giusto tono emotivo il testo che degli autori umani gli passano. Per avere un’idea delle possibilità, pensate a un servizio di streaming che, a scelta, offra anche l’annuncio parlato dei titoli delle canzoni, ma anche una breve, o lunga, presentazione, aneddoti, eccetera, esattamente come avviene in radio. E dal momento che tutto quello di cui c’è bisogno sono dei testi, il servizio può essere configurato in modo personalizzato per area geografica, ad esempio dando il traffico solo di una specifica zona. Usando però una sola voce di sintesi replicabile all’infinito.
Dal momento che buona parte di testi come le quotazioni dei mercati, i bollettini metereologici, le condizioni del traffico, sono già oggi generati da redattori IA, il passo successivo è che dietro alla voce ci sia un’IA in grado di creare da sé i contenuti, per esempio andando in rete per reperire le fonti. È già stato fatto e la qualità cresce di mese in mese. Se la cosa vi può sembrare inquietante, alla fine si tratta solo di aggiungere una voce simil-umana ad un contenuto sintetizzato. Un discorso diverso è la possibilità di realizzare deep-fake vocali senza autorizzazione (Andy Chanley conserva i diritti sulla sua voce e percepisce royalties per il suo utilizzo). Oggi esistono sistemi TTS che richiedono mezz’ora di parlato per imitare passabilmente una voce specifica, usando anche fonemi non compresi nella registrazione originale.
Come diceva Rick Deckart, “i replicanti sono come ogni altra macchina. Possono essere un beneficio o un pericolo”. Queste applicazioni dell’IA lo sono entrambi. Ma bisognerà imparare a conviverci. I vantaggi sono troppo forti, a fronte di investimenti limitati. WellSaid Labs, fondata nel 2018, si sostiene con un grant iniziale dell’Allen Institute e del fondo Voyager, e ha ricevuto solo lo scorso giugno un finanziamento (early stage) da 10 milioni di dollari, spiccioli se si considerano le cifre che girano oggi nel venture capital, da un consorzio di investitori.
D’altro canto, la sintesi della voce umana è più antica dei computer. Pochi sanno che nel 1939 i Bell Labs presentarono alla World Fair di New York il Voder, un sintetizzatore della voce umana che simulava il tratto vocale umano con componenti elettronici analogici e veniva comandato da una speciale tastiera su cui una dimostratrice inseriva i fonemi. Il risultato veniva riprodotto da un altoparlante. La macchina disponeva anche di un comando a pedale che regolava l’altezza della voce, per cui era possibile sintetizzare diverse voci. Già allora apparvero articoli allarmanti….
Comments