La API Speech-to-Text de Google es el método más simple para realizar el reconocimiento de datos de voz de audio . Speech-to-Text puede procesar los datos de audio enviados en una solicitud sincrónica de hasta 1 minuto de voz.
Devuelve una respuesta después de que Speech-to-Text procesa y reconoce todo el audio. Una solicitud síncrona se bloquea, lo que significa que Speech-to-Text debe devolver una respuesta antes de que se procese la siguiente solicitud.
Speech-to-Text generalmente procesa audio más rápido que en tiempo real, procesando el audio en un promedio de 30 segundos en 15 segundos . En casos de mala calidad de audio, la solicitud de reconocimiento lleva un período considerablemente más largo.
Reconocimiento de voz de Google: beneficios de usar
El reconocimiento de voz de Google es lo último en precisión. Los algoritmos de redes neuronales de aprendizaje profundo más avanzados de Google se pueden aplicar al reconocimiento automático de voz (ASR).
A nivel mundial, también puede llegar a sus usuarios con reconocimiento de voz que admite más de 125 idiomas y variantes , e implementar el reconocimiento de voz en cualquier lugar que lo necesite, ya sea en la nube con la API o en el sitio con Speech-to-Text On-Prem.
Funciones del reconocimiento de voz de Google
Al ofrecer sugerencias y mejorar la precisión de la transcripción de palabras o frases comunes, puede configurar el reconocimiento de voz para transcribir términos y rarezas específicos del dominio.
También puede convertir automáticamente números hablados, usando clases, en direcciones, años, monedas y más .
Los modelos específicos de dominio se encuentran entre las características principales de Google Speech Recognition. Puede elegir entre una variedad de modelos calificados de control por voz , llamadas telefónicas y transcripción de video.
Por ejemplo, el modelo mejorado de llamadas telefónicas de Google está optimizado para audio derivado de la telefonía, como las llamadas telefónicas capturadas a una frecuencia de muestreo de 8 kHz.
Otra característica de Google Speech Recognition es que puede recibir los resultados del reconocimiento de voz en tiempo real mientras la API procesa los datos de audio transmitidos desde el micrófono de su aplicación o enviados desde un archivo de audio pregrabado.
Cómo utilizar el reconocimiento de voz de Google
Escritura por voz de Google
La mejor aplicación de reconocimiento de voz de Google Docs, Google Voice Typing, solía encontrarse solo en teléfonos inteligentes con Android.
Descarga la aplicación Google Docs, abre una carpeta y toca el ícono del micrófono del teclado en pantalla a la izquierda de la barra espaciadora. Después habla. El dictado por voz de Google convierte su expresión en un guión.
Teclado en pantalla
Además, Google proporciona reconocimiento de voz como una función de accesibilidad en Chrome OS. Haga clic en el menú de tres líneas para permitir esto, haga clic en Configuración, desplácese hasta la parte inferior de la página y seleccione Configuración avanzada de pantalla.
Para deshabilitar el teclado en pantalla, busque la función Accesibilidad. Elija el micrófono que se coloca sobre el teclado en pantalla para habilitar el reconocimiento de voz cuando aparezca el teclado.
Complemento de Google Doc
Un complemento de terceros basado en la web para Google Docs también permite el reconocimiento de voz. En comparación con el teclado en pantalla, el complemento solo funciona dentro de un documento de Google; el teclado del sistema operativo Chrome en pantalla funciona para todos los campos de texto.
Consejos para usuarios de Apple y Windows
Las aplicaciones de Apple y los sistemas de Microsoft Windows también brindan soluciones para el reconocimiento de voz.
El dictado en los dispositivos móviles de Apple funciona como el dictado por voz de Google de Android: presione el micrófono a la izquierda del teclado y luego hable. Cambie el dictado a las computadoras Mac OS.
El programa de reconocimiento de voz de Microsoft necesita un cambio de configuración, seguido de una breve sesión de capacitación del dispositivo para aprender la voz en Windows 7, 8 / 8.1 y 10.
Consejos finales de uso
Diga el símbolo para puntuacion precisa. Estos sistemas identifican marcas y terminología específicas para la puntuación. Tomemos, por ejemplo, dos oraciones aquí.
“Doce personas se reunieron en el Gresham College de Londres en noviembre de 1660 para discutir un interés mutuo: la ciencia. El grupo se reunía con regularidad para realizar experimentos e intercambiar ideas, y gradualmente se convirtió en lo que ahora conocemos como la Royal Society «.
En su lugar, di esta oración.
“Doce personas se reunieron en el Gresham College de Londres en noviembre de 1660 para discutir una ciencia de punto y coma de interés mutuo. El grupo se reunía regularmente para realizar experimentos e intercambiar ideas y gradualmente se convirtió en lo que ahora conocemos como el período de la Royal Society ”.
Conclusión
El reconocimiento de voz también ayuda a interactuar con personas que no se sienten cómodas escribiendo. Hace unos años esta tecnología era futurista y hoy forma parte de la vida cotidiana. El futuro será aún más emocionante.