Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Tratamiento Digital de Voz

Prof. Luis A. Hernández Gómez

ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema6b.ppt

Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones

Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor

Inputspeech

Speakeridentity

VQ codebooks

FeatureextractionFeature

extraction DecisionDecisionAccumulationAccumulationVQ distortionVQ distortion

jkyodyodyoQ

con

oQ

yyy

ooo

kjj

T

tt

L

M

LL

T

),(),(

D

or Lpara LocutAcumulada Distancia

}.... ,,{VQ

Locutor Ldel VQ elpara DistanciadeMedida

Ceps) CepsCeps :sticas(caracterí

nesObservacio deSecuencia } ... ,,{

1

L

21

L

21O

Independencia de Texto

Observaciones independientes

Reconocimiento de Locutor mediante CV El cuantificador vectorial “representa” la distribución estadística de los datos Otras técnicas de entrenamiento:

Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN(técnicas de gradiente -> Redes Neuronales)


Por la técnica de clasificación... Clasificadores paramétricos (I):

Son los más utilizados en Reconocimiento


acústica adprobabilid :)/(

Lenguajede Modelo-Gramática

fraseuna pronuncie se que de adprobabilid

HABLAde IENTO RECONOCIMEn

esequiprobal Locutores

)(

ilocutor elsea que de prioria adprobabilid :)(

interviene no :)(

)(

)()/()/(

)/( :necesita bayesianoor Clasificad

i

i

i

iii

i

O

O

O

OO

O

p

p

p

p

p

ppp

p

Por la técnica de clasificación... Clasificadores paramétricos (II):

Utilizan una representación paramétrica explícita de la probabilidad acústica:

Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}

Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.


)/( iOp

)/( iOp


)/( iOp

)/( iOp

Clasificadores paramétricos: GMM (Gaussian Mixture Models)

Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:


ticas)caracterís vector D(dimensión Normal óndistribuci ,

1)a igual es pesos de(suma imezcla la para peso

imezcla la de diagonal) nte(generalme scovarianza de matriz

imezcla la de medias de vector

mezclas de número

siendo,

,)/(1

ii

i

i

i

ii

M

ii

N

c

M

Ncp

Σμ

Σ

μ

ΣμO o



La combinación de gaussianas se aproxima a la distribución de los datos.


oΣμO ii

M

ii Ncp ,)/(

1

Identificación con GMMs


• • •Feature

extractionFeature

extractionMaximumselection

Maximumselection

Speechwave

Identificationresult

(Speaker ID)

)/( 1Op

)/( 2Op

)/( LOp

T

tt

T

tt

T

op

op

p

tudVerosimili

ooo

1i

1i

i

21

)]/(log[

logaritmos utilizando o

)/(

)/(

i"" Locutor elpara acumulada""


nesObservacio deSecuencia } ... ,,{

O

O


Verificación con GMMs : Normalización

• Likelihood ratiolog L(O) log p(O= c) log p(O c)

c : identidad supuesta

• A posteriori probabilitylog L(O) log p(O = c) log p(O )

Ref : locutor de referencia o cohorte de locutores

• Modelo Universallog L(O) log p(O = c) log p(O

UBM)

UBM : Universal Background Model

• Likelihood ratiolog L(O) log p(O= c) log p(O c)

c : identidad supuesta

• A posteriori probabilitylog L(O) log p(O = c) log p(O )

Ref : locutor de referencia o cohorte de locutores

• Modelo Universallog L(O) log p(O = c) log p(O

UBM)

UBM : Universal Background Model

SRefSRef



¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar

Técnicas de Entrenamiento:ML (Maximum Likelihood)MAP (Maximun a posteriori)Similares resultados si no hay información a priori, pero MAP válida para adaptación


oΣμO ii

M

ii Ncp ,)/(

1

Entrenamiento ML


ion) Maximizaton(Expectati EM Iterativo Algoritmo

)]/(log[ max argˆ

:eequivalent es que lo o

)/( max argˆ

:maximiza que el es para MLestimador El


} ... ,,{

ENTO ENTRENAMIde nesObservacio deSecuencia una Dada

1

21

T

tt

T

op

p

ooo

O

O


-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

-15 -10 -5 0 5 10 15 200

0.01

0.02

0.03

0.04

0.05

0.06

0.07

0.08

0.09

0.1

Reconocimiento de Locutor => Reconocimiento de Habla

Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto

PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”)

Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)

Tratamiento Digital de VozTratamiento Digital de Voz

Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)


C A S A

ENVENTANADO

V3 V4 V5 V6V2V1 PATRÓN}{

ANÁLISIS

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)

ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario

RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer.


PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco

SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)

),()Re,Re( ReRe fi

coi oodfPcoPd


1 5 6 7 8432

5

4

3

2

1PALABRAA RECONOCER(TIEMPO)

PATRÓNDE REFERENCIA(TIEMPO)

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping


Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica)

g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)}

1 < i < I ( nº tramas de Preco )

1 < j < J ( nºtramas de Pref )

g(i,j)

g(i,j-1)g(i-1,j-1)

g(i-1,j)

La distancia entrel el PRef y el PReco d(PRef, PReco) será:

d(Preco, Pref) = g(I,J) / I+J

Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)


1 5 6 7 8432

5

4

3

2

1PALABRAA RECONOCER(TIEMPO)

PATRÓNDE REFERENCIA(TIEMPO)

Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/ con secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado

Reconocimiento de HablaReconocimiento de Habla

Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...

Documents

Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...