Un estudio de caso sobre los cuatro momentos espectrales y el pico de máxima intensidad de /s/ en una voz natural y una voz clonada por la IA Elevenlabs

Fernando Aarón Torres Castillo, Oscar Esaul Cueva Sanchez, Jhon Jimenez Peña, Erika Amalec Shicshi Romero

December 2024

Abstract

La presente investigación compara los cuatro momentos espectrales y el pico de mayor intensidad de la fricativa alveolar [s] en posición de coda, entre la voz natural y la artificial de un locutor. Los datos de la voz natural fueron recolectados en un entorno controlado y segmentados posteriormente con el software Praat. Para la voz artificial, se utilizó la tecnología de clonación de voz de ElevenLabs. El análisis de varianza muestra diferencias significativas entre las medias de los parámetros acústicos analizados —centro de gravedad, desviación estándar, curtosis, asimetría y el pico de máxima intensidad— en la voz natural y artificial. Sin embargo, al analizar los datos agrupados por la vocal que precede a la fricativa, se observa que no en todos los contextos existen diferencias significativas. Los resultados indican que los parámetros espectrales de la fricativa alveolar /s/ —especialmente el centro de gravedad— son útiles para distinguir entre la voz natural y su contraparte artificial

Type

Journal Paper

Publication

Lengua y Sociedad, 23, 1069-1097

Link to the publication here