Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez...
-
Upload
abella-jordan -
Category
Documents
-
view
215 -
download
0
Transcript of Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez...
![Page 1: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/1.jpg)
Logo delDepartamento
o Instituto
Sistemas de Interacción Natural Sistemas de Interacción Natural (4e)(4e)
Luis Hernández GómezLuis Hernández Gómez
[email protected]@gaps.ssr.upm.es
![Page 2: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/2.jpg)
SPEECH & LANGUAGE TECHNOLOGIESSPEECH & LANGUAGE TECHNOLOGIES
4a: Speech production and analysis
4b: Speech perception
4c: Speech Analysis
4d: Text-to-Speech
4e: Speech Recognition
4f: Dialog Systems
Digital Speech Processing CourseProf. Lawrence Rabiner
http://www.caip.rutgers.edu/~lrr/
![Page 3: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/3.jpg)
Tema 6: Reconocimiento de Voz
Principios de Reconocimiento de Habla y de Locutor Tecnología de Reconocimiento de Locutor Tecnología de Reconocimiento de Habla
Tratamiento Digital de VozTratamiento Digital de Voz
![Page 4: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/4.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: ¿qué se dice?
La variedad de locutores (¿quién lo dice?): “ruido”(Acentos, variedades dialectales, etc.)
Reconocimiento de Locutor: ¿quién lo dice?
La variedad de mensajes hablados (¿qué se dice?): “ruido”
variación intra-locutor variación inter-locutores
![Page 5: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/5.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: Características Dependiente / Independiente de Locutor Tamaño del Vocabulario “Tipos de Reconocimiento”:
Habla aislada, palabras en contexto (word spotting), habla natural, lenguaje natural, habla espontánea, ...
Otros: Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...
Prestaciones
![Page 6: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/6.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: Dependiente/Independiente del Locutor
Dependiente de Locutor: por ejemplo, sistemas de dictado. Independiente de Locutor: aplicaciones telefónicas. Cada vez mayor importancia de las “Técnicas de Adaptación al Locutor”
Reducción de la cantidad de voz para la adaptación. Adaptación supervisada / no-supervisada. Adaptación también al entorno de ruido. Adaptación a “habla espontánea”.
![Page 7: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/7.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: Tamaño del Vocabulario El vocabulario DEBE estar pre-fijado (en muchas ocasiones es muy importante la gestión dinámica de vocabularios : entradas variables) El diseño del vocabulario puede “olvidar” palabras: palabras fuera del vocabulario (OOV out-of-vocabulary). Cómo detectar e incorporar esas palabras es de gran importancia. Las prestaciones del Reconocedor son dependientes del tamaño del vocabulario:
Pequeño (< 100), medio (<1000), grande (>1000 -- 1M) PERO es muy importante (muchas veces más que el número de palabras):
o El grado de similitud acústica entre palabras (ej.: teléfonos)o La GRAMÁTICA de reconocimiento. La gramática restringe la secuencia de palabras a reconocer.
![Page 8: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/8.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: ”Tipo” de Reconocimiento(terminología imprecisa)
Habla aislada: lista de palabras (directorio de nombres) Palabras en contexto (word spotting): “con Juan Pérez por favor” Habla natural: “dictado natural,” u “órdenes naturales” (“quiero que me digas qué películas ponen hoy”) Lenguaje natural: suele asociarse a la identificación de entidades semánticas:<solicitud de información>quiero que me digas qué
<tipo de información>películas</tipo de información>
ponen<tiempo>hoy</tiempo></solicitud de
información> Habla espontánea: “disfluencias” : “..eh quiero que me des, que me diga.. digas qué... pone... las películas de hoy”
![Page 9: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/9.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Habla: Características Más otros....
Entorno de Ruido: móviles, cabinas, automóvil, ... Sistema de comunicación: GSM, manos-libres, VoIP, ...
DIFICULTAD de medir “realmente” las prestaciones de un sistema de reconocimiento (en laboratorio en aplicaciones)
Errores de Reconocimiento: Tasa de Error (Sustituciones / Inserciones / Elisiones (borrados)) Rechazo: Falsa Aceptación / Falso Rechazo => INFLUYE en la Tasa de Error.
Ruidos Palabras OOV (fuera del vocabulario)
Medidas de Confianza: “seguridad” del resultado de reconocimiento (ejemplo: Adaptación no-supervisada)
![Page 10: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/10.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Locutor: Características Dependiente / Independiente de Texto Población cerrada / abierta “Modos de Funcionamiento”:
VERIFICACIÓN IDENTIFICACIÓN (Detección; Autenticación)
Otros: Entorno de Ruido..., Sistema de comunicaciones, ...VARIABILIDAD ENTRE SESIONES
Prestaciones
![Page 11: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/11.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Rec. de Locutor: Dependiente/Independiente de Texto Dependiente Texto:
Texto fijo: locución pre-establecida (clave de acceso) Texto variable (vocabulario fijo): se pide que el locutor pronuncie una clave generada aleatoriamente (text prompted); objetivos: evitar grabaciones y “clave en voz alta”
Independiente de Texto: el locutor puede emplear cualquier locución, sin restricciones (duración, riqueza fonética ? Imaginación ? => tipo de aplicación: Acústica Forense)
Importancia de la estrategia de diálogo (factores humanos): preguntas sucesivas (nombre, apellidos, fecha de nacimiento, ...) Reconocimiento de Locutor Sistemas de Verificación de Información Verbal (complementarios? Fases diferentes ?)
![Page 12: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/12.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Locutor: Población cerrada/abierta Población cerrada: reconocimiento entre un conjunto cerrado de usuarios; “el impostor está en casa”.
Población abierta: reconocimiento “abierto” a impostores externos a los “locutores reconocibles”
![Page 13: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/13.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Locutor: Modos de funcionamiento VERIFICACIÓN: decidir si una persona es quien dice ser utilizando su “huella vocal” (ej.: tecleo mi password y el sistema me pide que hable para comprobar que soy yo: se contrasta la voz dubitada contra una sola “huella vocal” –la del password-)
IDENTIFICACIÓN: decidir si la voz de una persona pertenece a algun locutor de una población de locutores identificados. (se compara la voz dubitada con todas las huellas vocales de la población “indubitada”)
(DETECCIÓN: localización de un locutor en una grabación de audio – AUTENTICACIÓN: mediante verificación/identificación)
![Page 14: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/14.jpg)
Reconocimiento de VozReconocimiento de Voz Principios de Reconocimiento de Habla y de Locutor
Reconocimiento de Locutor: Prestaciones Otros:
Entorno de Ruido... Sistema de comunicación... VARIABILIDAD ENTRE SESIONES
Errores de Reconocimiento: tasas de: Falsa Aceptación FA: un impostor vulnera el sistema Falso Rechazo FR: un usuario no es reconocido
“Aciertos” de Reconocimiento: Rechazo correcta: un impostor es rechazado Aceptación correcta: un usuario es reconocido
El coste de cada tipo de error depende de la aplicación (por ejemplo: mayor, menor seguridad) TAMBIÉN en aplicaciones reales: FTE Fail-to-enroll; imposibilidad de entrenarse en el sistema
![Page 15: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/15.jpg)
Four conditional probabilitiesin speaker verification
0012-09
Input utteranceDecision condition condition
s n (customer) (impostor)
S (accept)
N (reject)
P(S | s) P(S | n)
P(N | s) P(N | n)
![Page 16: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/16.jpg)
Relationship between error rate and decision criterion (threshold) in speaker verification
0012-10
Err
or r
ate
Decision criterion (Threshold)
1
0
FR= P (N | s)
FA= P (S | n)
a c b
Equal Error Rate
EER
![Page 17: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/17.jpg)
Receiver operating characteristic (ROC) curves; performance examples of three speaker verification systems: A, B, and D
0012-11
1
10 P (S | n)
P (
S |
s)A
B
Da
b
![Page 18: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/18.jpg)
Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)Curvas ROC Curvas DEC
![Page 19: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/19.jpg)
Reconocimiento de VozReconocimiento de Voz Reconocimiento de Locutor: Prestaciones (http://www.nist.gov/speech)
We have found it useful in speech applications to use a variant of this which we call the DET (Detection Error
Tradeoff) Curve, described below.
In the DET curve we plot error rates on both axes, giving uniform treatment to both types of error, and use a scale for both axes which spreads out the plot and better distinguishes different well performing systems and usually produces plots that are close to linear.
![Page 20: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/20.jpg)
Recognition error rates as a function of population size in speaker identification and verification
0103-23
20
10
5
2
1
0.5
0.2
0.12 5 10 20 50 100
Male Female
IdentificationVerification
Rec
ogni
tion
err
or r
ate
(%)
Size of population
![Page 21: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/21.jpg)
Reconocimiento de VozReconocimiento de Voz
Reconocimiento de Locutor: Prestaciones (La Granja)
SHEEP, GOATS, LAMBS and WOLVESA Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4,1 National Institute of Standards and Technology, 2 The Johns Hopkins University3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International
![Page 22: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/22.jpg)
Reconocimiento de VozReconocimiento de Voz
Reconocimiento de Locutor: Prestaciones (La Granja)
Sheep (ovejas) – Sheep comprise our default speaker type. In our model, sheep dominate the population and systems perform nominally well for them.
Goats (cabras) – Goats, in our model, are those speakers who are particularly difficult to recognize. Goats tend to adversely affect the performance of systems by accounting for a disproportionate share of the missed detections. The goat population can be an especially important problem for entry control systems, where it is important that all users be reliably accepted.
![Page 23: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/23.jpg)
Reconocimiento de VozReconocimiento de Voz
Lambs (corderos) – Lambs, in our model, are those speakers who are particularly easy to imitate. That is, a randomly chosen speaker is exceptionally likely to be accepted as a lamb. Lambs tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if lambs can be identified, either through trial and error or through correlation with other directly observable characteristics.
Wolves (lobos) – Wolves, in our model, are those speakers who are particularly successful at imitating other speakers. That is, their speech is exceptionally likely to be accepted as that of another speaker. Wolves tend to adversely affect the performance of systems by accounting for a disproportionate share of the false alarms. This represents a potential system weakness, if wolves can be identified and recruited to defeat systems.
![Page 24: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/24.jpg)
Tecnología de Reconocimiento de Locutor Estructura de un Sistema de Reconocimiento de Locutor
Tratamiento Digital de VozTratamiento Digital de Voz
ResultadoReconocimiento
Señalde Voz
Entrenamiento
Reconocimiento
ExtracciónDe
Características
Modelos/Patronesde referencia
para cada Locutor
Comparación(Distancia)
Speech Recognition Technology in theUbiquitous/Wearable Computing Environment Sadaoki Furui
http://www.furui.cs.titech.ac.jp/
![Page 25: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/25.jpg)
Tecnología de Reconocimiento de Locutor Otros aspectos importantes:
Tratamiento Digital de VozTratamiento Digital de Voz
ResultadoReconocimiento
Señalde Voz
ExtracciónDe
Características
Modelos/Patronesde referencia
para cada Locutor
Comparación(Distancia)
Detector deActividad
CanceladorDe
Ecos
“Compensación”De
Ruido
![Page 26: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/26.jpg)
Identificación
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
• • •
SimilaritySimilarity
SimilaritySimilarity
SimilaritySimilarity
Referencetemplate or model
(Speaker #N)
Referencetemplate or model
(Speaker #N)
Referencetemplate or model
(Speaker #2)
Referencetemplate or model
(Speaker #2)
Referencetemplate or model
(Speaker #1)
Referencetemplate or model
(Speaker #1)
FeatureextractionFeature
extractionMaximumselection
Maximumselection
Speechwave
Identificationresult
(Speaker ID)
![Page 27: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/27.jpg)
Verificación
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Speechwave
Identificationresult
(Accept / Reject)
Speaker ID(#M)
SimilaritySimilarity
Referencetemplate or model
(Speaker #M)
Referencetemplate or model
(Speaker #M)
FeatureextractionFeature
extraction DecisionDecision
ThresholdThreshold
![Page 28: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/28.jpg)
Decisión
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Distance
Intra-speaker distance
Inter-speaker distance
DB
DB
Dis
trib
utio
n
![Page 29: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/29.jpg)
Objetivo: obtener un modelo del locutor Para discriminación, no para codificación ni síntesisMarco de Trabajo: Reconocimiento de PatronesEl clasificador óptimo es el clasificador de Bayes
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
contrario caso en (rechazo) ˆ
)/( y )/ˆ(max)/( si ˆ :iónClasificac
,......, ,....,
Clases ------- nesObservacio
o
iˆii
L212
OOO
oooO 1
ppp
T
![Page 30: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/30.jpg)
“Todo” lo necesario es conocer la función de probabilidad
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
O
)/( 1 Op)/( 2 Op
)/( 3 Op
Rechazo Clase 1 Clase 2 Clase 3 Clase 2 Rechazo
![Page 31: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/31.jpg)
“Todo” lo necesario es conocer la función de probabilidad
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
O
)/( 1 Op
)/( 2 Op
)/( OLp
...
.
.
.
Max Rechazo ̂
![Page 32: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/32.jpg)
PERO: la función de probabilidad “nunca” se conoce: forma paramétrica desconocida y cantidad de datos de estima (entrenamiento) limitados
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
O
)/( 1 Op
)/( 2 Op
)/( OLp
...
.
.
.
Max Rechazo ̂
NO UN CLASIFICADOR ÚNICONO UN CLASIFICADOR ÚNICOFunciones deFunciones deDiscriminaciónDiscriminación
![Page 33: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/33.jpg)
De una forma simplificada podemos considerar:Por la técnica de clasificación:
Clasificadores no-paramétricos Clasificadores paramétricos (Discriminativos)
Atendiendo al tipo de información empleada: Clasificadores a partir de información a largo plazo Clasificadores a partir de información a corto plazo
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 34: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/34.jpg)
0012-13
(b) short-term information based method
Inputspeech
Speakeridentity
Paterns
FeatureextractionFeature
extraction DecisionDecisionAccumulationAccumulationParametric orNon-ParametricParametric or
Non-Parametric
(a) Long-term-statistics-based method
Inputspeech
Speakeridentity
Reference templatesor models
FeatureextractionFeature
extraction DecisionDecisionDistance
orsimilarity
Distanceor
similarity
Long-termstatistics
Long-termstatistics
Average, variance,correlation, MAR
![Page 35: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/35.jpg)
Por la técnica de clasificación... Clasificadores no-paramétricos:
No hacen ninguna hipótesis sobre el modelo de distribución de la voz del locutor
Se basan completamente en los datos de entrenamiento
Un ejemplo típico serían los sistemas de Reconocimiento Un ejemplo típico serían los sistemas de Reconocimiento Independientes del Locutor basados en Cuantificación VectorialIndependientes del Locutor basados en Cuantificación Vectorial
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 36: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/36.jpg)
Vector quantization (VQ)-based text-independent speaker recognition
0103-19
Spectral envelopes Speaker-specific codebook
![Page 37: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/37.jpg)
Cuantificador Vectorial
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Representa el conjunto de vectores de ENTRENAMIENTO XX={x1,x2, ... xN} por un
número pequeño de representantes (centroides) YY={y1, y2, ... yM} (M<N)
• Fase 1. Determinación de los representantes– Medida de distancia d(xi, yj)
– Entrenamiento: Codebook YY
• Fase 2. Asignación del centroide más próximo– Cuantificación de una observación o jkyodyodyoQ kjj ),(),(
![Page 38: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/38.jpg)
Entrenamiento CV algoritmo LBG
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Primer centroide
D? N?
Duplicación
Asignación de vectores
Cálculo de centroides
SISI
NO
NO
![Page 39: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/39.jpg)
Cuantificación
Asunción Moreno
Universidad Politécnica de Cataluña
![Page 40: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/40.jpg)
Entrenamiento
x
y
![Page 41: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/41.jpg)
Entrenamiento
x
y
![Page 42: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/42.jpg)
Entrenamiento
x
y
![Page 43: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/43.jpg)
Entrenamiento
x
y
![Page 44: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/44.jpg)
Entrenamiento
x
y
![Page 45: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/45.jpg)
Entrenamiento
x
y
![Page 46: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/46.jpg)
Entrenamiento
x
y
![Page 47: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/47.jpg)
Entrenamiento
x
y
![Page 48: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/48.jpg)
Entrenamiento
x
y
![Page 49: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/49.jpg)
Entrenamiento
x
y
![Page 50: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/50.jpg)
Entrenamiento
x
y
![Page 51: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/51.jpg)
Entrenamiento
x
y
![Page 52: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/52.jpg)
Cuantificación
x
y
![Page 53: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/53.jpg)
VQ Performance on Unseen Data
Ramachandran & Mamone (eds) ‘Modern Methods of Speech Processing’ Kluer Academic, 1995
![Page 54: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/54.jpg)
Reconocimiento de VozReconocimiento de Voz
Reconocimiento de Locutor: Prestaciones (La Granja)
SHEEP, GOATS, LAMBS and WOLVESA Statistical Analysis of Speaker Performance
in the NIST 1998 Speaker Recognition Evaluation
George Doddington 1,2,3,5, Walter Liggett1, Alvin Martin1, Mark Przybocki1, Douglas Reynolds 3,4,1 National Institute of Standards and Technology, 2 The Johns Hopkins University3 U.S. Department of Defense, 4 MIT Lincoln Laboratory, 5 SRI International
![Page 55: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/55.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Inputspeech
Speakeridentity
VQ codebooks
FeatureextractionFeatureextraction DecisionDecisionAccumulationAccumulationVQ distortionVQ distortion
jkyodyodyoQ
con
oQ
yyy
ooo
kjj
T
tt
L
M
LL
T
),(),(
D
or Lpara LocutAcumulada Distancia
}.... ,,{VQ
Locutor Ldel VQ elpara DistanciadeMedida
Ceps) CepsCeps :sticas(caracterí
nesObservacio deSecuencia } ... ,,{
1
L
21
L
21O
Independencia de Texto
Observaciones independientes
![Page 56: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/56.jpg)
Reconocimiento de Locutor mediante CV El cuantificador vectorial “representa” la distribución estadística de los datos Otras técnicas de entrenamiento:
Entrenamiento Discriminativo: el objetivo no es el minimizar el error de cuantificación sino el Error de CLASIFICACIÓN(técnicas de gradiente -> Redes Neuronales)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 57: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/57.jpg)
Por la técnica de clasificación... Clasificadores paramétricos (I):
Son los más utilizados en Reconocimiento
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
acústica adprobabilid :)/(
Lenguajede Modelo-Gramática
fraseuna pronuncie se que de adprobabilid
HABLAde IENTO RECONOCIMEn
esequiprobal Locutores
)(
ilocutor elsea que de prioria adprobabilid :)(
interviene no :)(
)(
)()/()/(
)/( :necesita bayesianoor Clasificad
i
i
i
iii
i
O
O
O
OO
O
p
p
p
p
p
ppp
p
![Page 58: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/58.jpg)
Por la técnica de clasificación... Clasificadores paramétricos (II):
Utilizan una representación paramétrica explícita de la probabilidad acústica:
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
Proporciona un formalismo matemático consistente para técnicas de adaptación a diferentes condiciones y entornos.
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
)/( iOp
)/( iOp
![Page 59: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/59.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
)/( iOp
)/( iOp
![Page 60: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/60.jpg)
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Representación paramétrica explícita de la probabilidad acústica como suma de fdp gaussianas:
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
ticas)caracterís vector D(dimensión Normal óndistribuci ,
1)a igual es pesos de(suma imezcla la para peso
imezcla la de diagonal) nte(generalme scovarianza de matriz
imezcla la de medias de vector
mezclas de número
siendo,
,)/(1
ii
i
i
i
ii
M
ii
N
c
M
Ncp
Σμ
Σ
μ
ΣμO o
![Page 61: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/61.jpg)
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
La combinación de gaussianas se aproxima a la distribución de los datos.
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
oΣμO ii
M
ii Ncp ,)/(
1
![Page 62: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/62.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 63: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/63.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 64: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/64.jpg)
Identificación con GMMs
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
• • •Feature
extractionFeatureextraction
MaximumselectionMaximumselection
Speechwave
Identificationresult(Speaker ID)
)/( 1Op
)/( 2Op
)/( LOp
T
tt
T
tt
T
op
op
p
tudVerosimili
ooo
1i
1i
i
21
)]/(log[
logaritmos utilizando o
)/(
)/(
i"" Locutor elpara acumulada""
Ceps) CepsCeps :sticas(caracterí
nesObservacio deSecuencia } ... ,,{
O
O
![Page 65: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/65.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
Verificación con GMMs : Normalización
• Likelihood ratiolog L(O) log p(O= c) log p(O c)
c : identidad supuesta
• A posteriori probabilitylog L(O) log p(O = c) log p(O )
Ref : locutor de referencia o cohorte de locutores
• Modelo Universallog L(O) log p(O = c) log p(O
UBM)
UBM : Universal Background Model
• Likelihood ratiolog L(O) log p(O= c) log p(O c)
c : identidad supuesta
• A posteriori probabilitylog L(O) log p(O = c) log p(O )
Ref : locutor de referencia o cohorte de locutores
• Modelo Universallog L(O) log p(O = c) log p(O
UBM)
UBM : Universal Background Model
SRefSRef
![Page 66: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/66.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 67: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/67.jpg)
Clasificadores paramétricos: GMM (Gaussian Mixture Models)
Los parámetros de se estiman a partir de los datos de entrenamiento XX={x1,x2, ... xN}
¡¡IMPORTANTE!!: Cantidad de datos de entrenamiento Número de Parámetros a estimar
Técnicas de Entrenamiento:ML (Maximum Likelihood)MAP (Maximun a posteriori)Similares resultados si no hay información a priori, pero MAP válida para adaptación
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
oΣμO ii
M
ii Ncp ,)/(
1
![Page 68: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/68.jpg)
Entrenamiento ML
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
ion) Maximizaton(Expectati EM Iterativo Algoritmo
)]/(log[ max argˆ
:eequivalent es que lo o
)/( max argˆ
:maximiza que el es para MLestimador El
Ceps) CepsCeps :sticas(caracterí
} ... ,,{
ENTO ENTRENAMIde nesObservacio deSecuencia una Dada
1
21
T
tt
T
op
p
ooo
O
O
![Page 69: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/69.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
-15 -10 -5 0 5 10 15 200
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0.1
![Page 70: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/70.jpg)
Tecnología de Reconocimiento de LocutorTecnología de Reconocimiento de Locutor
![Page 71: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/71.jpg)
Reconocimiento de Locutor => Reconocimiento de Habla
Hasta ahora: El orden de la secuencia de sonidos NO IMPORTABA => Independiente de Texto
PERO: En Reconocimiento de Locutor dependiente de texto En Reconocimiento de Habla La secuencia de sonidos sí importa (“casa” “saca”)
Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
![Page 72: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/72.jpg)
Reconocimiento de Locutor => Reconocimiento de Habla Primera Aproximación: Alineamiento Temporal + Medida de Distancia (DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
C A S A
ENVENTANADO
V3 V4 V5 V6V2V1 PATRÓN}{
ANÁLISIS
![Page 73: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/73.jpg)
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)
ENTRENAMIENTO: se obtiene y almacena un patrón de refrencia (PRef) para cada una de las palabras del vocabulario
RECONOCIMIENTO: se obtiene el patrón de la palabra a reconocer (PReco). La palabra reconocida será la correspondiente al patrón de referencia más parecido (menor distancia) al patrón a reconocer.
Tratamiento Digital de VozTratamiento Digital de Voz
PROBLEMA: PRef TIENE DISTINTA DURACIÓN TEMPORAL QUE PReco
SOLUCIÓN: DEFORMAR EL EJE DE TIEMPOS ESTIRÁNDOLO O ENCOGIÉNDOLO (TÉCNICAS DE PROGRAMACIÓN DINÁMICA)
),()Re,Re( ReRe fi
coi oodfPcoPd
![Page 74: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/74.jpg)
Tratamiento Digital de VozTratamiento Digital de Voz
1 5 6 7 8432
5
4
3
2
1PALABRAA RECONOCER(TIEMPO)
PATRÓNDE REFERENCIA(TIEMPO)
![Page 75: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/75.jpg)
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping
Tratamiento Digital de VozTratamiento Digital de Voz
Cálculo distancia acumulada g(i,j) según el “camino óptimo” (Programación Dinámica)
g(i,j) = d(i,j) + min { g(i-1,j), g(i-1,j-1), g(i,j-1)}
1 < i < I ( nº tramas de Preco )
1 < j < J ( nºtramas de Pref )
g(i,j)
g(i,j-1)g(i-1,j-1)
g(i-1,j)
La distancia entrel el PRef y el PReco d(PRef, PReco) será:
d(Preco, Pref) = g(I,J) / I+J
![Page 76: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/76.jpg)
Reconocimiento de Locutor => Reconocimiento de Habla DTW Dynamic Time Warping)
Tratamiento Digital de VozTratamiento Digital de Voz
1 5 6 7 8432
5
4
3
2
1PALABRAA RECONOCER(TIEMPO)
PATRÓNDE REFERENCIA(TIEMPO)
![Page 77: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/77.jpg)
Tecnología Dominante: HMM (Hidden Markov Models) Clasificador Paramétrico: p(O/ con secuencia de sonidos, palabras, frases,... Primera Aproximación: Estados + GMMs por Estado
Reconocimiento de HablaReconocimiento de Habla
![Page 78: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/78.jpg)
HMM (Hidden Markov Models) IMPORTA la secuencia de sonidos DEFINICIÓN DE UN HMM :
Topología (izquierda – derecha; saltos; no. estados)
Probabilidades de transión entre estados aij
Probabilidades de comenzar en el estado i: i
Probabilidades de observación de cada estado bi(Ot)
Reconocimiento de HablaReconocimiento de Habla
a55a11 a22 a33 a44
a24
a23 a34 a45
a13 a35
a12
Caso sencillo: HMM de una palabra L: L
![Page 79: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/79.jpg)
HMM (Hidden Markov Models)
Reconocimiento de HablaReconocimiento de Habla
a55a11 a22 a33 a44
a24
a23 a34 a45
a13 a35
a12
Caso sencillo: HMM de una palabra i: i
No. Estados: ¿no. sonidos ? ¿no. Medio de tramas / sonido?
“lógica propia del modelado HMM”
i = “siete” S1=/s/ S2=/i/ S3=/e/ S4=/t/ S5=/e/
![Page 80: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/80.jpg)
HMM (Hidden Markov Models)
Reconocimiento de HablaReconocimiento de Habla
a55a11 a22 a33 a44
a24
a23 a34 a45
a13 a35
a12
Caso sencillo: HMM de una palabra L: L
aij : duración de los sonidos en cada estado (?)
Probabilidad de comenzar en el estado i: i
Izquierda – derecha: 1 =1 ; i =0 i != 0
)(,, tL
iLL
w obAL
iaN
jij
11
![Page 81: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/81.jpg)
HMM (Hidden Markov Models)
Reconocimiento de HablaReconocimiento de Habla
Probabilidades de observación de cada estado bi(Ot):
Continua (mezcla de gaussianas)
Discreta (Cuantificador vectorial + probabilidades centroides)
Semicontinua (gaussianas compartidas)
mezclas de numero
mezclas las de Pesos
) varianzassólo :diagonal nte(generalme
i estado elpara k gaussiana la de covarianza de Matriz
i estadopara k gaussiana la de medias devector
,)(1
K
c
NcOb
k
ik
ik
ik
ik
K
kkti
Σ
μ
Σμ o
mezclas de numero
mezclas las de Pesos
) varianzassólo :diagonal nte(generalme
i estado elpara k gaussiana la de covarianza de Matriz
i estadopara k gaussiana la de medias devector
,)(1
K
c
NcOb
k
ik
ik
ik
ik
K
kkti
Σ
μ
Σμ o
![Page 82: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/82.jpg)
HMM (Hidden Markov Models)
Reconocimiento de HablaReconocimiento de HablaR
esultad
oR
esultad
o
DECISOR
1
3...............................................................
L
RECONOCIMIENTO
P(O/ 1)
P(O/ )
P(O/ 3)
P(O/ L)
MÁ
XIM
O
2
Rechazo
Confianza
N-Best
![Page 83: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/83.jpg)
Eduardo Lleida Solano
Dpt. de Ingeniería Electrónica y Comunicaciones
Universidad de Zaragoza
![Page 84: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/84.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
Las Bases
Utilizando la fórmula de Bayes
)(
)()|()|(
OP
WPWOPOWP
P(W) ... Probabilidad de que la secuencia de palabras W sea pronunciada P(O|W) ... Probabilidad de que cuando una persona pronuncia la secuencia de palabras W obtengamos la secuencia de medidas acústicas O P(O) ... Probabilidad de la secuencia de medidas acústicas O
Fórmula del Reconocedor
)()|(arg WPWOPmaxWW
Modelo Acústico Modelo de Lenguaje
![Page 85: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/85.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
![Page 86: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/86.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
![Page 87: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/87.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
![Page 88: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/88.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza
![Page 89: Logo del Departamento o Instituto Sistemas de Interacción Natural (4e) Luis Hernández Gómez luis@gaps.ssr.upm.es.](https://reader036.fdocuments.in/reader036/viewer/2022062500/5665b4731a28abb57c918e1f/html5/thumbnails/89.jpg)
Grupo de Tecnologías de las Comunicaciones, Universidad de Zaragoza