iKono chat X

Saltar al contenido principal
Tecnología

Cómo seleccionar un servicio de TTS

Por abril 13, 2018abril20th, 2018Un comentario

En varias ocasiones hemos tenido la oportunidad de desarrollar soluciones que requieren un servicio de conversión de Texto a Audio. Esta tecnología es conocida como TTS por su sigla en inglés (Text To Speech). Ahora bien, si el proyecto a desarrollar requiere la incorporación de este tipo de tecnología, nos encontramos con una gran cantidad de alternativas tanto en calidad como en costos y voces.

Teniendo en cuenta lo anterior hemos querido realizar esta entrada con el ánimo de proporcionar algunos consejos que se deberían tener en cuenta a la hora de seleccionar un proveedor de este tipo de tecnologías.

 

Factores a considerar

Calidad 

Desde nuestro punto de vista este es el factor más importante. Lo ideal es que la voz sea lo menos robótica posible y que la velocidad, el pitch y el acento proporcionado sean adecuados, de forma tal que quien recibe el mensaje pueda entender con claridad. De igual manera, el servicio debe tener la capacidad de entender cantidades numéricas, fechas, siglas como API, SIP, etc., o incluso nombres como Microsoft o Google.
Ahora bien, debemos agregar que este punto es muy subjetivo y dependerá en gran medida del acento y tipo de voz.

Costo

Es claro que el costo es un factor muy importante, ya que aunque el servicio sea de muy buena calidad si los costos son muy elevados pueden volver al proyecto financieramente inviable. Incluso, en nuestra experiencia en proyectos de este tipo nos han solicitado cambiar el motor de TTS por factores de costo. Este punto es con seguridad el más difícil de comparar ya que cada proveedor cobra de manera diferente por los servicios. Algunos cobran por transacción mientras que otros cobran cierta cantidad por cada mil o millón de caracteres. De igual manera, gran parte de ellos ofrecen una capa gratuita en donde cada mes se tienen cierto número de transacciones o miles de caracteres gratis.

Algunas de las recomendaciones para resolver las dudas con respecto al costo son:

  • Tener claro el tamaño en caracteres y cantidad de transacciones que serán realizadas para poder comparar cada una de las alternativas. Por ejemplo, si se tiene una gran cantidad de transacciones de pocos caracteres es posible que sea mejor seleccionar un proveedor que cobre por caracteres en lugar de transacciones.
  • Realizar cache a las peticiones previamente realizadas disminuye ostensiblemente los costos, ya que por lo general los textos a reproducir se repiten constantemente. Esto además de disminuir costos, permite aumentar la velocidad de reproducción en aplicaciones en tiempo real, ya que no habrá necesidad de solicitar un audio que ya ha sido sintetizado.

Lenguajes y variante soportados

Dependiendo de lo que se quiera lograr, este punto puede tener mayor o menor relevancia. Al observar las herramientas nos encontramos que la mayoría de ellas tienen excelente soporte para inglés, pero la calidad y cantidad de variantes para español es bastante reducido y en muchos casos esto es importante. Por ejemplo, si queremos construir un IVR transaccional en Latinoamérica y el proveedor de TTS sólo cuenta con voces para español/España, con seguridad el acento no va a pasar desapercibido.

Uno de los mejores ejemplos es la recientemente expuesta API de Google para TTS, con un impresionante soporte para Inglés e incluso una amplia variedad de voces, así como la posibilidad de generar el audio con el tipo de voz WaveNet, una tecnología que permite que la voz suene bastante natural. Sin embargo, el soporte para español es bastante precario siendo ampliamente superador por Amazon Polly, Nuance o Watson de IBM.

En resumen…

Al seleccionar un proveedor de TTS la idea es hacer un análisis de costo beneficio entre cada uno de los factores expuestos anteriormente. Así, para uno de nuestros proyectos nos tomamos la tarea de realizar una comparación de algunas herramientas de TTS.

En este caso el texto utilizado es el siguiente:

«Hola Mauricio. Te estamos llamando del Banco Americano para recordar que al día de hoy tienes una deuda de $258.870. Te invitamos a ponerte al día antes del 20/04/2018 y así evitar ser reportado en las centrales de riesgo. Para mayor información puedes comunicarte al número telefónico 3148901850 o ingresar a nuestra página Web www.bancoamericano.com. Muchas gracias»

En cuanto a calidad, como hemos dicho, este punto es muy subjetivo y habrán personas que preferirán cierto servicio por encima de otro, sin embargo, desde nuestra perspectiva los mejores son:

  • Amazon Polly
  • IBM Watson
  • Microsoft Bing text to speech
  • Nuance (más conocido como Loquendo)
  • iSpeech

Considerando las necesidades del proyecto que estamos presentando como ejemplo, evaluamos que las transacciones realizadas tienen en promedio 500 caracteres, por lo que pudimos normalizar el costo de cada uno de los proveedores a dólares por transacción. Así, por ejemplo, pudimos concluir que Polly, que cobra 4 dólares por cada millón de caracteres (tendiendo 5 millones de caracteres mensuales en los primeros doce meses) nos costaría $0.002 dólares por transacción. Mientras que Nuance que cobra por transacción, independientemente del número de caracteres, nos costaría $0.008 dólares por transacción.

Cuando el proyecto que se va a desarrollar involucra la reproducción de audios en varios idiomas y variantes se debe tener en cuenta también, en la selección del proveedor, el número de lenguajes y voces soportados. Allí, Nuance, Amazon y Bing ofrecen una amplia alternativa, siendo Nuance el más diverso para el caso de español.

Así pues, realizamos la siguiente tabla comparativa:

Conclusión

En nuestro caso la decisión que tomamos para el desarrollo del proyecto que presentamos como ejemplo fue seleccionar a Polly por su relación costo/calidad. Puesto que si bien, Nuance, IBM y Bing pueden tener un poco de mejor calidad, el costo del servicio es muy alto en comparación con la calidad marginal obtenida. Al analizar a Google lo encontramos como la mejor alternativa si las locuciones sólo son en inglés e incluso vale la pena resaltar su nueva característica de voz WaveNet (que eleva la calidad por encima de los demás). Finalmente si la calidad no es un problema y no estás dispuesto a pagar un centavo por el TTS, Festival es una alternativa libre la cual podría ser considerada.

Únete a la discusión Un comentario

Deja una respuesta

es_ESSpanish
💬 Escríbenos