BETA, la rivista ipertestuale tecnica
BETA, la rivista ipertestuale tecnicaBarra BETA
Sommario Abbonamenti a BETA Redazione Liste/Forum Informazioni Indici BETA La rivista ipertestuale tecnica Collegamento al sito Web
BETA - Approfondimenti

BETA 2499.7 - Approfondimenti - Filtraggio di segnali vocali con tecniche caotiche

Filtraggio di segnali vocali con tecniche caotiche

Parte II

Lorenzo Matassini
Articolista Collaboratore, BETA

    Il filtro appena descritto può essere rigorosamente formulato come un problema di minimizzazione vincolata e viene implementato tramite il seguente algoritmo:

  1. a partire dalla serie temporale s_n si costruiscono i vettori di embedding;
  2. per ogni vettore di embedding, rappresentato da un punto nello spazio di embedding, si identificano tutti quei punti la cui distanza è inferiore ad un certa soglia;
  3. si individuano le direzioni principali su cui si distribuiscono i punti del passo precedente; la distinzione tra componente stocastica e componente deterministica avviene esattamente con questa operazione;
  4. si proietta ciascun vettore di embedding nell'iperpiano identificato da queste direzioni principali;
  5. l'intero ciclo viene ripetuto fino al soddisfacimento di una certa condizione di convergenza.

proiezione
Fig.1: Filtraggio di segnali vocali con tecniche caotiche Proiezione
 

Una rappresentazione schematica del funzionamento dell'algoritmo è fornita in figura PROIEZIONE, dove il punto alla base della freccia è il vettore di embedding che deve attualmente essere corretto, il quadrato rappresenta la porzione di spazio che si considera per cercare punti nelle sue vicinanze, la traiettoria curvilinea è l'attrattore in assenza di rumore, la linea retta è un'approssimazione dello stesso a partire dalla serie temporale rumorosa (tutti gli altri punti della figura).

Proprietà della voce

    In figura FONEMA è rappresentata una tipica serie temporale registrata attraverso un microfono in formato .wav e poi convertita in formato ASCII tramite il software sox. La serie appare altamente non stazionaria: per quanto riguarda la varianza, ad esempio, si notano zone in cui il segnale ha una piccola variabilità e zone in cui l'escursione in ampiezza è maggiore. Un segnale vocale può essere suddiviso in fonemi, unità logiche approssimativamente stazionarie e di medio-bassa complessità. La figura FONEMI mostra uno zoom della serie precedente effettuato in due zone distinte. Si noti come il segnale sia pressoché periodico all'interno di un fonema (permettendo di ipotizzare l'esistenza di un attrattore), ma cambi drasticamente tra un fonema ed un altro, garantendo che in spazi di embedding di dimensione sufficientemente elevata due fonemi giacciano in iperpiani ad intersezione nulla.

fonema
Fig.2: Filtraggio di segnali vocali con tecniche caotiche Fonema
 
fonema
Fig.3: Filtraggio di segnali vocali con tecniche caotiche Fonemi
 

La lunghezza tipica di un fonema varia da 50 a circa 150 ms, mentre la sotto-struttura che si ripete al suo interno copre una distanza temporale dell'ordine di qualche ms. Nella figura FONEMI, ad esempio, il fonema superiore presenta 8 ripetizioni, quello inferiore 10; essendo il segnale campionato a 22,05 KHz, i 1000 punti visualizzati corrispondono a circa 45 ms. Ecco che nel primo caso il sub-fonema ha una lunghezza di circa 5,5 ms, nel secondo 4,5 ms.

Per garantire una corretta ricostruzione dell'attrattore occorre che ogni vettore copra una finestra temporale di lunghezza pari ad almeno un sub-fonema, essendo questa la più piccola struttura che mostra periodicità nella voce umana. La lunghezza di queste unità varia tra circa 80 e 150 punti. Lavorare in spazi di dimensione così elevata è computazionalmente troppo oneroso, ma saltando alcuni campioni (considerando ad esempio un elemento della serie temporale ogni 3 o 4) è possibile operare una drastica riduzione.

Recenti studi e simulazioni hanno dimostrato come i gradi di libertà associati ad una fonazione prolungata di una vocale (uno dei più semplici segnali producibili) siano 3 per una voce normale e 5 per un soggetto affetto da patologie alle corde vocali. Un'intera frase mostra una complessità troppo maggiore a causa della non-stazionarietà e non può essere facilmente analizzata. Ma è lecito supporre che i gradi di libertà coinvolti in un sub-fonema non superino la decina. Per il teorema di Takens un embedding di dimensione 20 è sufficiente e poiché è richiesto che due attrattori corrispondenti a due fonemi distinti non presentino intersezioni, dobbiamo considere alcune dimensioni aggiuntive, un over-embedding in altre parole.

Analizzando varie frasi e confrontando i risultati del filtraggio, siamo giunti alla conclusione che lo spazio di embedding ottimale viene ottenuto considerando un elemento della serie ogni 5 fino a coprire una finestra di 125 punti (cioè con un valore di m pari a 25). Tutti i risultati presentati di seguito sono stati ottenuti con questi valori dei due parametri principali.


Collegamento d'articolo

Parte I | Parte II | Parte III | Parte IV
Successivo: Parte III


Articoli correlati

Altri Articoli della stessa Rubrica...

Siti Web

Elenco di siti consigliati da BETA... (est.)


Lorenzo Matassini è Ricercatore presso il Max Planck Institut di Dresda , Dottore in Ingegneria Informatica, Collaboratore di BETA dal 2000 è raggiungibile su Internet tramite la redazione oppure all'indirizzo lorenzo@mpipks-dresden.mpg.de.

Ultima revisione:
URL: http://www.beta.it/beta/bs029801/2499.7/b2499lm1.htm

Copyright © 1995-2000 BETA, tutti i diritti sono riservati. E' vietata la riproduzione senza autorizzazione dell'editore o dell'autore dentro i termini e le condizioni della Licenza Pubblica BETA (LPB)

BETA La rivista ipertestuale tecnica (http://www.beta.it/beta)email info@beta.it
BETA: Frontespizio | Abbonamenti | Redazione | Liste/Forum | Indici | Guida | Copyright