Desde el día de hoy, Google ha anunciado que la API Cloud Text-to-Speech (TTS) en una versión beta podrá reconocer siete idiomas y dialectos adicionales y, hablar con más de treinta nuevas voces sintetizadas por WaveNet.

Estas nuevas características estarán dirigidas a los usuarios de Google Cloud Platform (GCP) que en la actualidad disfrutan del servicio voz a texto y texto a voz.

31 nuevas voces generadas con WaveNet

El año pasado Google añadió 17 voces generadas con WaveNet, que es una red neuronal profunda de aprendizaje automático que permite generar audio en bruto, en 14 idiomas y sus variantes, introduciendo 26 voces con WaveNet.

Ahora, la compañía de Mountain View está presentando 31 nuevas voces generadas por WaveNet, para un total de 57, y 24 nuevas voces para un total de 106 voces soportadas por Cloud Text-to-Speech.

Nuevos idiomas se suman a la API de Google Cloud

Desde la fuente mencionan que estos nuevos 7 idiomas: danés, portugués, ruso, polaco, eslovaco, ucraniano y noruego Bokmål se sumarán a los ya existentes dentro de la API de Cloud Text-to-Speech para un total de 21 nuevos idiomas.

Nuevos dispositivos compatibles

La fuente reveló que estos ocho nuevo dispositivos serán compatibles con Cloud TTS:

  • Wearables (auriculares, smartwatch entre otros)
  • Microteléfonos
  • Auriculares
  • Altavoces Bluetooth pequeños (Google Home mini)
  • Altavoces Bluetooth medianos (Página de inicio de Google)
  • Sistemas de entretenimiento para el hogar (Google Home Max)
  • Altavoces de coche
  • Sistemas de respuesta de voz interactiva (IVR)

Cloud Text-to-Speech más asequible

Además de ello, Google está reduciendo el precio de Cloud Speech-to-Text, y es que ahora las tarifas para los modelos mejorados será de USD$ 0.009 por cada 15 segundos de audio, al menos para los usuarios empresariales que no optan por el programa de intercambio de datos con Google, mientras que los usuarios que sí acepten compartir sus registros solo deberán pagar USD$ 0.004 por 15 segundos para tener acceso al modelo estándar, y USD$ 0.006 por 15 segundos para los modelos mejorados.