SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML...

24
SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya “Estado actual del estándar SSML para la síntesis del habla dentro del ‘Speech Interface Framework’ desarrollado por el grupo de trabajo ‘Voice Browser’ del W3C”

Transcript of SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML...

Page 1: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

SSMLSpeech Synthesys markup language

Autor: Mario Rodríguez Boya

“Estado actual del estándar SSML para la síntesis del habla dentro del ‘Speech Interface Framework’ desarrollado por el

grupo de trabajo ‘Voice Browser’ del W3C”

Page 2: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 3: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Introducción

• Lenguaje de marcas basado en XML

• Especificación desarrollada por el Voice Browser Working Group

• Parte del W3C Speech Interface Framework

• Método estándar para la pronunciación, tono, volumen, velocidad …

• Generación automática (XSLT) o manual

Page 4: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 5: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla

• Análisis Gramatical

• Análisis de la Estructura

• Normalización del Texto

• Conversión del Texto a Fonemas

• Análisis Prosódico

• Generación de la Forma de Onda

Page 6: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla

• Análisis Gramatical– Se extraen las etiquetas del árbol– La estructura, etiquetas y atributos extraídos

serán utilizados en las etapas posteriores

Page 7: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla

• Análisis de la Estructura– Markup Support: <p> y <s>– Non-Markup Behaviour: Procesador de

Sintesis (por defecto)

Page 8: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla• Normalización del Texto

– Construcciones especiales (1/2, 100 € …)– Ambigüedad– Markup Support: <say-as>– Non-Markup Behaviour:

• Procesador de síntesis• Múltiples posibilidades• Análisis del contexto• Errores muy probables en la transformación

Page 9: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla• Conversión del Texto a Fonemas

– Deducir la pronunciación de las palabras– Distintos tipos de lenguajes Distintos tipos

de conversiones (uno a uno, muchos a uno...)– Markup Support: <phoneme>– Non-Markup Behaviour: procesador de

síntesis (diccionario de pronunciación)

Page 10: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla• Análisis Prosódico

– Prosodia: conjunto de rasgos del habla– Buena prosodia Voz humana natural y

comprensible– Markup Support: <emphasis>, <break> y

<prosody>– Non-Markup Behaviour: procesador de

síntesis muy efectivo al establecer los rasgos

Page 11: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Proceso de Síntesis del Habla• Generación de la Forma de Onda

– Llevada a cabo automáticamente por el procesador de síntesis (Non-Markup Behaviour)

– Se puede solicitar explícitamente (Markup Suport) una voz con determinadas cualidades (e.g. Voz de una mujer joven)

Page 12: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 13: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Formato de un Documento SSML

• DOCTYPE<!DOCTYPE speak PUBLIC "-//W3C//DTD SYNTHESIS 1.0//EN" "http://www.w3.org/TR/speech-synthesis/synthesis.dtd">

• Elemento Raíz: <speak> <?xml version="1.0"?><speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="en-US">

Page 14: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Formato de un Documento SSML<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis"

xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.w3.org/2001/10/synthesis http://www.w3.org/TR/speech-synthesis/synthesis.xsd" xml:lang="es"> <p>

<s> Tienes 4 mensajes.</s> <s> El primero es de Mario, recibido a las <break/> 3:45pm.</s>

<s> El asunto es <prosody rate="-20%">vacaciones</prosody> </s> </p></speak>

Page 15: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Formato de un Documento SSML …

<p>

<voice gender="female">

La canción habla de dos personas

</voice>

</p>

<p>

<voice gender="male">

Aquí tiene una muestra

<audio src="http://www.example.com/music.wav"/>

¿Le gustaría comprar la canción?

</voice>

</p>

Page 16: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 17: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Integración con otros Lenguajes

• Colabora con SMIL para descripción de aplicaciones multimedia con salida de voz

• Complementa a ACSS– Mayor funcionalidad que ACSS– ACSS controla mejor el aspecto espacial

• Junto con VoiceXML permite el desarrollo de navegadores de voz

Page 18: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 19: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Implementaciones Actuales

• Loquendo TTS

• Microsoft Speeh Server: aplicaciones de telefonía por voz

• OptimTalkv

• Voice Center

• Código Abierto: FreeTTS

Page 20: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 21: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Desafíos Futuros

• Normalización del texto– Homógrafos– Abreviaturas – Símbolos

• Implantación en navegadores Web

• Naturalización del habla– Prosodia– Comunicación fluida

Page 22: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Índice de Contenidos

• Introducción

• Proceso de Síntesis del Habla

• Formato de un Documento SSML

• Integración con otros Lenguajes

• Implementaciones Actuales

• Desafíos Futuros

• Conclusiones

Page 23: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Conclusiones

• Estándares del W3C Voice Browser Group sirven para interacción hombre-máquina de forma natural

• SSML ofrece control de la prosodia por parte del autor o automático

• Problemas en la inferencia de significado de símbolos y abreviaturas en distintos contextos

Page 24: SSML Speech Synthesys markup language Autor: Mario Rodríguez Boya Estado actual del estándar SSML para la síntesis del habla dentro del Speech Interface.

Fin

SSML“Estado actual del estándar SSML para la síntesis del habla dentro

del ‘Speech Interface Framework’ desarrollado por el agrupo de

trabajo ‘Voice Browser’ del W3C”

Autor: Mario Rodríguez Boya

Hola estudiantes del curso de doctorado “Tecnologías, estándares y servicios Web”, espero que les

haya gustado la presentación de Mario