Voder: la prima macchina parlante al mondo

di 

voder-5_1200x700

Quella voce nel tuo navigatore GPS, l’assistente virtuale nel tuo smartphone e le risposte automatiche che ottieni quando componi un numero di assistenza telefonica aziendale non sono voci reali. In altre parole, non esiste un grande database di parole pronunciate che il computer raccolga e li leghi insieme per creare una frase. Sono generati al volo dal computer, eppure suonano così naturali, così umani, che il più delle volte sono completamente indistinguibili da quelli di una persona reale.

Le voci umane sono molto più complicate, acusticamente, rispetto a, ad esempio, l’abbaiare di un cane o lo schianto di un piatto. La varietà stessa è sbalorditiva. Come i volti umani, non ci sono due voci che suonano esattamente simili. Aggiungete a ciò le varie inflessioni ed emozioni, gli accenti sulle sillabe, gli accenti. Replicare le sfumature del discorso è tutt’altro che facile. È piuttosto un risultato che siamo in grado di sintetizzare la voce umana a tutti e con tale precisione.

Uno dei primi tentativi di produrre un discorso sintetico fu fatto più di duecento anni fa, nel 1779, dal professore russo Christian Kratzenstein. Kratzenstein costruì un apparato costituito da un numero di canne vibranti che erano acusticamente simili al tratto vocale umano. Il suo dispositivo poteva produrre artificialmente le cinque vocali lunghe.

Ricostruzione di Wheatstone della macchina parlante di von Kempelen

Ricostruzione di Wheatstone della macchina parlante di von Kempelen

Qualche anno dopo, nel 1791, un inventore di Vienna chiamato Wolfgang von Kempelen costruì una macchina più dettagliata modellata sui vari organi umani che rendono possibile la parola. La macchina aveva un paio di soffietti per simulare i polmoni, una canna vibrante che fungeva da corde vocali, un tubo di cuoio per il tratto vocale, due narici, lingue di cuoio e labbra. Manipolando la forma del tubo di cuoio e la posizione delle lingue e delle labbra, von Kempelen era in grado di produrre consonanti e vocali. Quasi mezzo secolo dopo, Charles Wheatstone costruì una versione migliorata della macchina parlante di von Kempelen che poteva pronunciare la maggior parte dei suoni della consonante e persino un paio di parole complete.

Il primo dispositivo da considerare un vero sintetizzatore vocale fu il VODER (Voice Operating Demonstrator) sviluppato da Homer Dudley dei Bell Labs negli anni ’30. Era una macchina piuttosto complicata con quattordici tasti simili a un pianoforte, una barra controllata dal polso e un pedale che l’operatore poteva manipolare e far parlare la macchina. Sembrava molto robotico, come “uno straniero che parla sott’acqua”, come descritto da Lisa Guernsey del New York Times .

diagramma schematico di voder

In effetti, la “voce robotica” che sentiamo spesso nei vecchi film di fantascienza e nel dramma televisivo è probabilmente derivata da VODER. “Una volta che la vera voce della macchina era entrata nella coscienza pubblica, il luogo e la forma nella rappresentazione fittizia non sarebbero mai stati gli stessi”, scrive Ben Fino-Radin di Rhizome . “Dopo quel giorno del 1939, sapemmo in particolare quanto suonasse un linguaggio disumano”.

Il sito web whatisthevoder.com descrive come funzionava il VODER:

Un operatore selezionerebbe uno dei due suoni di base usando la barra del polso: un tono di ronzio e un suono sibilante. Il tono di ronzio era il mattone di base per suoni di vocali e suoni di tipo nasale. Il suono sibilante era l’elemento fondamentale per quei suoni associati alle consonanti.

Questi suoni sono stati quindi passati attraverso una serie di filtri che sono stati selezionati dall’utente selezionando i tasti appropriati sulla tastiera. Questi suoni sono stati combinati e inviati attraverso un altoparlante. Per i suoni non riproducibili dal ronzio o dai rumori sibilanti, come “p”, “d”, “j” e “ch”, i filtri aggiuntivi erano selezionabili.

Parole diverse potrebbero essere combinate in diverse frasi basate sulla manipolazione di chiavi e suoni. Potresti anche aggiungere diverse espressioni e toni (controllati dal pedale) in base al tipo di domanda che viene posta.

La signora Helen Harper, che era l’operatore centrale del VODER durante la sua dimostrazione alla Fiera mondiale di New York del 1939, ci dà un’idea di quanto fosse difficile padroneggiare la bestia.

“Ad esempio,” sentiamo la signora Harper che parla in un video, “nel produrre la parola” concentrazione “sul VODER, devo formare tredici diversi suoni in successione e fare cinque movimenti su e giù della barra del polso e variare il posizione del pedale da tre a cinque volte secondo quale espressione voglio che il VODER dia la parola. E, naturalmente, tutto ciò deve essere fatto con il giusto tempismo. “

Harper ha impiegato un anno di pratica costante prima di imparare a utilizzare la macchina con precisione. Fino a trecento ragazze si sono sottoposte all’addestramento per diventare operatori, ma meno di trenta hanno acquisito le competenze giuste.

Un abile operatore come la signora Harper può far parlare VODER in qualsiasi lingua, moo come una mucca o un grugnito come un maiale. Può persino farla cantare, come dimostrato nel seguente video.

Checkout whatisthevoder.com per più dimostrazione delle capacità vocali del voder.

dimostrazione di voder

tastiera del voder

La tastiera di Voder.

dimostrazione di voder

Dimostrazione di Voder dei Bell Labs nel 1939 a New York World’s Fair.

Fonte: Amusingplanet

Annunci