Investigadores de la UJAT realizan proyecto enfocado en la detección de voz humana por medio de IA en ambientes con distintos sonidos

A través de inteligencia artificial, un grupo de investigación de la Universidad Juárez Autónoma de Tabasco (UJAT), ha emprendido un proyecto que tiene por objetivo localizar la voz humana en audios donde convergen distintos sonidos y extraerla para determinar con exactitud qué situación ocurre en la grabación. 

Así lo informó el profesor investigador de la División Académica de Ciencias y Tecnologías de la Información (DACYTI), Doctor José Adán Hernández Nolasco, al participar en el programa UJAT ConCiencia, en el que dio a conocer el proyecto “Aprendizaje profundo para la identificación, separación y mejora de la voz en ambientes complejos”, el cual se desarrolló con recursos del Laboratorio Nacional de Supercómputo del Sureste, perteneciente a la red de laboratorios nacionales CONAHCYT, del 24 de agosto de 2021 al 24 de agosto del 2022. 

José Adán Hernández mencionó que él y otros investigadores trabajaron en un proyecto enfocado a temas de seguridad por medio de inteligencia artificial: “queríamos a través de ello que la computadora pudiese determinar si hay una situación de inseguridad. Por ejemplo, un asalto”. Posteriormente señaló que para conseguir ese resultado se establecieron variables, como la identificación de ciertas palabras en las grabaciones, aunado a la ubicación o el horario.

Respecto a las similitudes que el proyecto tiene con los asistentes de voz digitales que actualmente existen, el profesor Hernández Nolasco expuso que una de las principales diferencias radica en que los asistentes suelen tener dificultades para detectar la voz humana en ambientes donde se escuchan muchos ruidos: “si estamos en una fiesta donde hay música, hay gente, un perro ladrando, el asistente no lo logra identificar. Entonces una de las aplicaciones posibles de este trabajo podría ser que extraiga únicamente la voz con la que le llamamos al asistente y entonces tranquilamente uno puede interactuar con él, a pesar de que haya ruido”.

En el caso de la inteligencia artificial apuntó: “cualquier dispositivo hoy en día que se mencione que tiene inteligencia artificial es porque tiene de forma general redes neuronales, esos programitas de redes neuronales están detrás de él. Y cuando dice está aprendiendo, es precisamente eso que le comentaba, a disminuir esas diferencias o esas equivocaciones que tiene y las empieza a corregir”. A esto se le conoce como “entender el lenguaje natural, es decir, que entiende la forma en que nosotros nos expresamos”.

“La idea es entrenarla. También se puede utilizar en casos de salud, uno le puede estar proporcionando su voz de forma constante, y va aprendiendo a identificarme, de qué forma hablo, cuál es mi tono, pero cuando tengo una enfermedad que me afecte, por ejemplo, las cuerdas vocales, algo cognitivo, y me repercute en la voz, entonces él va a poder identificar que tiene este tipo de problema. Entre más datos se le proporcionen, en este caso, a la red neuronal o a la inteligencia artificial, más aprende, del área que uno quiera”. Para ello también utilizan bases de datos públicas de instituciones importantes a nivel mundial, agregó.

-5-07-2023 / DDCYT