Result: Conversión Text-to-speech con técnicas de Deep Learning
Attribution-NonCommercial-NoDerivs 4.0 International
http://creativecommons.org/licenses/by-nc-nd/4.0
Open Access
Spanish
PRISMA-184352
1461018775
From OAIster®, provided by the OCLC Cooperative.
Further Information
En este trabajo se realiza el desarrollo de un sistema de dictado de texto Text-to-Speech (TTS) que es capaz de generar voz a partir del texto incluido en un archivo de texto. Para ello se usa un modelo pre-entrenado de Machine Learning del tipo GPT (Generative Pre-training Transformer) que se ha de entrenar previamente, con el objetivo de dar voz desde un tipo de soporte de archivo que contenga un archivo “.txt”. Para realizar esta tarea se trabaja con hardware CUDA y cuDNN de NVIDIA para acelerar el cálculo tanto del entrenamiento como inferencia de la IA y la librería TortoiseTTS, desarrollada en lenguaje Python y que sirve para crear audio de manera artificial. Para acelerar el entrenamiento, además de utilizar Audacity como plataforma de edición de audio, para grabar la fuente de datos de voz personal que sirve de referencia, se parten de modelos GPT preentrenados para obtener los mejores resultados posibles. Todo y que se han obtenido resultados experimentales satisfactorios, se plantean posibles mejoras que podría añadirse a diferentes campos y ámbitos para obtener beneficios tanto económicos como de conocimiento y eficacia común.
En aquest treball es realitza el desenvolupament d'un sistema de dictat de text Text-toSpeech (TTS) capaç de generar veu a partir del text inclòs en un fitxer d'entrada. Per això s'utilitza un model d'aprenentatge automàtic de Machine Learning del tipus GPT (Generative Pre-training Transformer) que s'ha entrenat prèviament, amb l'objectiu de generar veu des d’un tipus de format d’arxiu de texte. Per aquesta tasca es treballa amb un hardware de CUDA i cuDNNde NVIDIA per accelerar tant l’entrenament como la inferencia corresponent al càlcul de la IA, i la llibreria TortoiseTTS desenvolupada en llenguatge Python que serveix per generar veus artificials. Per accelerar el càlcul tant de l'entrenament com de la inferència, a més de la plataforma d’edició d’audio Audacity que s’utilitza per gravar la font de dades de veu personal, es parteix de model GPT pore-entrenats per obtenir els millors resultats. Tot i que els resultats són satisfactoris, es plantegen possibles millores que podrien afegirse ha diferents camps i àmbits per obtenir beneficis tant econòmics com de coneixement i eficàcia comuna.
In this work, the development of a Text-to-Speech (TTS) text dictation system, capable of generating speech from text included in an input file, has been developed. To achieve our goal, a type of GPT (Generative Pre-training Transformer) pretrained model has been used. The model has then been trained to output voice from a .txt format file. To do this, the CUDA and cuDNN hardware platform from NVIDIA has been used for accelerating both for the training and inference AI tasks, and the TortoiseTTS library developed in Python language has been used as a reference for the generation of artificial audio. To speed up the training and inference tasks, in addition to using Audacity as the audio editing platform for our personal vice data of reference, we start from pre-trained GPT models to obtain the best possible results. Even though satisfactory experimental results were obtained, this works proposes future improvements that could be developed in different fields and scopes specific modalities to obtain benefits both economically as well as of sharing knowledge that could be beneficial and common efficiency.