Una guía extensa para la recopilación de datos para proyectos de voz

¿Somos solo nosotros o los asistentes virtuales se están volviendo más extravagantes y descarados cada día? Si recuerda su primera interacción con un asistente virtual como Siri, Cortana o Alexa, recordaría respuestas suaves y una ejecución sencilla de tareas.

Tabla de Contenidos Ocultar

1. Una guía para la recopilación de datos de voz

1.1. Conozca cómo su audiencia interactuará con su solución

1.2. Interacciones específicas de dominio

1.3. Desarrolle un guión y grábelo

1.4. ¿Quién grabará tu guión?

1.5. Recopile tantos conjuntos de datos como sea posible

1.6. Transcriba sus grabaciones para eliminar errores

1.7. Iniciar el proceso de formación

2. Terminando

Sin embargo, sus respuestas no son las mismas que solían ser. A lo largo de los años, se han vuelto sarcásticos, ingeniosos y, en palabras simples, más humanos. Es como si estuvieran a un paso de superar la prueba de Turing. Pero este ha sido un viaje, ¿no es así?

Para llegar aquí, casi una década de entrenamiento de inteligencia artificial ha ocurrido en el backend. Miles de científicos de datos y expertos en inteligencia artificial han trabajado meticulosamente durante horas para obtener los conjuntos de datos adecuados para entrenar sus proyectos de habla, anotar aspectos clave y hacer que las máquinas los aprendan intactos. Desde etiquetar partes del discurso hasta enseñar a las máquinas extravagancias y respuestas divertidas, han sucedido toneladas de tareas complejas en las fases de desarrollo.

Pero, ¿cuál es el proceso en realidad? ¿Qué se necesita para que los expertos capaciten y desarrollen proyectos de discursos? Si está trabajando en un proyecto de discurso, ¿cuáles son los factores que debe tener en cuenta?

Una guía para la recopilación de datos de voz

Conozca cómo su audiencia interactuará con su solución

Uno de los primeros pasos en la capacitación de módulos de discurso es comprender cómo interactuará su audiencia con ellos. Trabaje para obtener información sobre lo que dirían para activar su módulo de voz, úselo a través del dictado y escuche los resultados. Entonces, en este caso, conozca los desencadenantes, las respuestas y los mecanismos de salida.

Para ello, debe recopilar volúmenes masivos de datos representativos que se acerquen con precisión a su fuente. Desde transcripciones de llamadas hasta chats y todo lo demás, utilice tantos volúmenes de datos como sea posible para concentrarse en estos aspectos cruciales.

Interacciones específicas de dominio

Una vez que tenga una comprensión general de cómo su audiencia interactuará con su módulo de voz, tenga en cuenta el lenguaje específico que usarían y que está en línea con su dominio de operación. Por ejemplo, si su proyecto de voz es para una aplicación de salud móvil, su sistema debe estar familiarizado con la jerga, los procesos y las frases de diagnóstico de la salud para hacer su trabajo con precisión. Si se trata de un proyecto para una solución de comercio electrónico, el lenguaje y los términos utilizados serían completamente diferentes. Entonces, conozca el lenguaje específico del dominio.

Desarrolle un guión y grábelo

A estas alturas, tiene una compilación de frases, oraciones y texto de valor con usted. Ahora, debe convertirlos en un script sólido y grabarlo de humanos para su aprendizaje automático módulos para comprender y aprender. En cada parte de la grabación, puede pedir a los registradores que especifiquen sus datos demográficos, acento y otra información útil que podría usar como metadatos durante la anotación de datos.

¿Quién grabará tu guión?

La precisión con la que su módulo de voz responde a los disparadores depende de sus datos de grabación. Es decir, debe tener datos de su público objetivo real. Usando el mismo ejemplo de la aplicación mhealth, si se trata de un módulo especializado para personas mayores, necesita tener datos registrados de personas mayores para que su módulo los comprenda con precisión.

Sus acentos, la forma en que hablan, la dicción, la pronunciación, la modulación y el dominio son todos diferentes a los de las personas más jóvenes que ellos. Es por eso que mencionamos que sus datos deben estar lo más cerca de su fuente.

Recopile tantos conjuntos de datos como sea posible

Dependiendo de su dominio y segmento de mercado, recopile la mayor cantidad de datos posible. Recopile grabaciones de llamadas, programe grabaciones en tiempo real de personas, utilice el crowdsourcing, acérquese a los proveedores de servicios de datos de capacitación y haga más para obtener conjuntos de datos.

Transcriba sus grabaciones para eliminar errores

Sus colaboradores no son profesionales capacitados (en su mayoría). Cuando hablan, es probable que haya algunos errores, como el uso de errs y umms. También puede haber casos de repetición de palabras o frases porque no pudieron hacerlo bien la primera vez.

Por lo tanto, trabaje manualmente para eliminar dichos errores y transcriba sus grabaciones. Si el trabajo manual se parece demasiado a una tarea, utilice módulos de voz a texto. Guárdelos como documentos con convenciones de nomenclatura adecuadas que definan con precisión el tipo de grabación.

Iniciar el proceso de formación

Ahora tiene una buena fuente de datos de voz. Con los datos que recopiló en el paso 2 y con las grabaciones y transcripciones reales, puede iniciar el proceso de capacitación para el desarrollo de su módulo de voz. Mientras entrena, pruebe su módulo para determinar la precisión y la eficiencia y siga realizando iteraciones para la optimización. No sueltes los errores porque se necesita otra ronda de entrenamiento. Arregle todas las lagunas, lagunas y errores y dé paso a un módulo hermético al final.

Terminando

Entendemos que esto podría ser bastante abrumador al principio. Los módulos de voz requieren esfuerzos complejos durante un período de tiempo para capacitar IA conversacional / asistentes virtuales. Es por eso que estos proyectos también son tediosos. Si encuentra que esto es demasiado técnico y requiere mucho tiempo, le recomendamos que obtenga sus conjuntos de datos de proveedores de datos de capacitación de calidad. Ellos obtendrían los datos más relevantes y contextuales para su proyecto a tiempo y listos para la máquina.

Descripción de redes sociales: Obtener datos de calidad para proyectos de voz es difícil. Necesita conocer a su audiencia, cómo hablan, cómo acceden a las soluciones y más para desarrollar una solución hermética. Para aquellos de ustedes que están comenzando con un proyecto de discurso, aquí hay pasos efectivos sobre cómo abordar el abastecimiento de datos.

Descripción: La adquisición de datos para proyectos de voz se simplifica cuando se adopta un enfoque sistemático. Lea nuestra publicación exclusiva sobre adquisición de datos para proyectos de voz y obtenga claridad.

Bio del autor

Vatsal Ghiya es un emprendedor en serie con más de 20 años de experiencia en software y servicios de inteligencia artificial para el cuidado de la salud. Es el CEO y cofundador de Shaip, que permite el escalado bajo demanda de nuestra plataforma, procesos y personas para empresas con las iniciativas de inteligencia artificial y aprendizaje automático más exigentes.