Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
-
Upload
paquita-velarde -
Category
Documents
-
view
0 -
download
0
Transcript of Tratamiento Digital de Voz Prof. Luis A. Hernández Gómez ftp.gaps.ssr.upm.es/pub/TDV/DOC/...
Tratamiento Digital de Voz
Prof. Luis A. Hernández Gómez
ftp.gaps.ssr.upm.es/pub/TDV/DOC/Tema6b.ppt
Dpto. Señales, Sistemas y Dpto. Señales, Sistemas y RadiocomunicacionesRadiocomunicaciones
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Inputspeech
Speakeridentity
VQ codebooks
FeatureextractionFeature
extraction DecisionDecisionAccumulationAccumulationVQ distortionVQ distortion
jkyodyodyoQ
con
oQ
yyy
ooo
kjj
T
tt
L
M
LL
T
),(),(
D
or Lpara LocutAcumulada Distancia
}.... ,,{VQ
Locutor Ldel VQ elpara DistanciadeMedida
Ceps) CepsCeps :sticas(caracterí
nesObservacio deSecuencia } ... ,,{
1
L
21
L
21O
Independencia de Texto
Observaciones independientes
Reconocimiento de Locutor mediante CV El cuantificador vectorial “representa” la distribución estadística de los datos Otras técnicas de entrenamiento:
Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN(técnicas de gradiente -> Redes Neuronales)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Por la técnica de clasificación... Clasificadores paramétricos (I):
Son los más utilizados en Reconocimiento
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
acústica adprobabilid :)/(
Lenguajede Modelo-Gramática
fraseuna pronuncie se que de adprobabilid
HABLAde IENTO RECONOCIMEn
esequiprobal Locutores
)(
ilocutor elsea que de prioria adprobabilid :)(
interviene no :)(
)(
)()/()/(
)/( :necesita bayesianoor Clasificad
i
i
i
iii
i
O
O
O
OO
O
p
p
p
p
p
ppp
p
Por la técnica de clasificación... Clasificadores paramétricos (II):
Utilizan una representación paramétrica explícita de la probabilidad acústica:
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
)/( iOp
)/( iOp
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
)/( iOp
)/( iOp
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
ticas)caracterís vector D(dimensión Normal óndistribuci ,
1)a igual es pesos de(suma imezcla la para peso
imezcla la de diagonal) nte(generalme scovarianza de matriz
imezcla la de medias de vector
mezclas de número
siendo,
,)/(1
ii
i
i
i
ii
M
ii
N
c
M
Ncp
Σμ
Σ
μ
ΣμO o
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
La combinación de gaussianas se aproxima a la distribución de los datos.
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
oΣμO ii
M
ii Ncp ,)/(
1
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Identificación con GMMs
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
• • •Feature
extractionFeature
extractionMaximumselection
Maximumselection
Speechwave
Identificationresult
(Speaker ID)
)/( 1Op
)/( 2Op
)/( LOp
T
tt
T
tt
T
op
op
p
tudVerosimili
ooo
1i
1i
i
21
)]/(log[
logaritmos utilizando o
)/(
)/(
i"" Locutor elpara acumulada""
Ceps) CepsCeps :sticas(caracterí
nesObservacio deSecuencia } ... ,,{
O
O
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Verificación con GMMs : Normalización
• Likelihood ratiolog L(O) log p(O= c) log p(O c)
c : identidad supuesta
• A posteriori probabilitylog L(O) log p(O = c) log p(O )
Ref : locutor de referencia o cohorte de locutores
• Modelo Universallog L(O) log p(O = c) log p(O
UBM)
UBM : Universal Background Model
• Likelihood ratiolog L(O) log p(O= c) log p(O c)
c : identidad supuesta
• A posteriori probabilitylog L(O) log p(O = c) log p(O )
Ref : locutor de referencia o cohorte de locutores
• Modelo Universallog L(O) log p(O = c) log p(O
UBM)
UBM : Universal Background Model
SRefSRef
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar
Técnicas de Entrenamiento:ML (Maximum Likelihood)MAP (Maximun a posteriori)Similares resultados si no hay información a priori, pero MAP válida para adaptación
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
oΣμO ii
M
ii Ncp ,)/(
1
Entrenamiento ML
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
ion) Maximizaton(Expectati EM Iterativo Algoritmo
)]/(log[ max argˆ
:eequivalent es que lo o
)/( max argˆ
:maximiza que el es para MLestimador El
Ceps) CepsCeps :sticas(caracterí
} ... ,,{
ENTO ENTRENAMIde nesObservacio deSecuencia una Dada
1
21
T
tt
T
op
p
ooo
O
O
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Reconocimiento de Locutor => Reconocimiento de Habla
Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto
PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”)
Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
C A S A
ENVENTANADO
V3 V4 V5 V6V2V1 PATRÓN}{
ANÁLISIS
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)
ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario
RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer.
Tratamiento Digital de VozTratamiento Digital de Voz
PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco
SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)
),()Re,Re( ReRe fi
coi oodfPcoPd
Tratamiento Digital de VozTratamiento Digital de Voz
1 5 6 7 8432
5
4
3
2
1PALABRAA RECONOCER(TIEMPO)
PATRÓNDE REFERENCIA(TIEMPO)
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping
Tratamiento Digital de VozTratamiento Digital de Voz
Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica)
g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)}
1 < i < I ( nº tramas de Preco )
1 < j < J ( nºtramas de Pref )
g(i,j)
g(i,j-1)g(i-1,j-1)
g(i-1,j)
La distancia entrel el PRef y el PReco d(PRef, PReco) será:
d(Preco, Pref) = g(I,J) / I+J
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
1 5 6 7 8432
5
4
3
2
1PALABRAA RECONOCER(TIEMPO)
PATRÓNDE REFERENCIA(TIEMPO)
Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/ con secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado
Reconocimiento de HablaReconocimiento de Habla