Treffer: Synthetisierung von Audiosignalen mithilfe Neuronaler Netze am Beispiel von Vogelgesang
Weitere Informationen
Das Ziel der vorliegenden Arbeit ist die Konzeption, Implementierung und Evaluation einer Architektur auf Basis Neuronaler Netze für die Synthese von Vogelgesang. Die hier entwickelte Architektur besteht aus zwei Neuronalen Netzen: einem Wasserstein-GAN, der Mel-Spektrogramme mit Vogelgesang erzeugt und einem für die Sprachsynthese vortrainierten Vocoder, der diese Mel-Spektrogramme in Audiosignale in Wellenform umwandelt. In diesem Zusammenhang wird die Funktionsweise von Generative Adversarial Networks (GANs) und die darauf aufbauenden Wasserstein-GANs beschrieben. Anschließend werden Evaluationsmetriken für die Beurteilung der erzielten Ergebnisse ausgearbeitet. Im Kern geht die Arbeit der Frage nach, ob die Architektur bestehend aus den Komponenten WGAN und Vocoder sich für die Synthese von Vogelgesang eignet. Dazu werden verschiedene Konfigurationen dieser Architektur trainiert und die erzielten Ergebnisse quantitativ und qualitativ evaluiert. Im Rahmen der quantitativen Evaluation wird der Frage nachgegangen, ob der FID-Score ein plausibler Indikator für die Bewertung von generiertem Vogelgesang ist. Die qualitative Evaluation erfolgt durch den Autor der Arbeit über den Vergleich von generierten Daten mit Daten aus dem Trainingsdatensatz. Als Grundlage dieses Vergleichs dienen ermittelte Nearest Neighbours von generierten Daten zu typischen Mustern aus dem Trainingsdatensatz. Die durchgeführte Evaluation zeigt, dass die vorgestellte Architektur die Synthese von einfachen Signalen des Vogelgesangs ohne Qualitätsverlust ermöglicht. Bei komplexen Signalen sind erkennbare Qualitätsunterschiede festzustellen. Zusätzlich wird gezeigt, dass der FIDScore einen validen Indikator für das Messen des Trainingsverlaufs und der Bewertung der synthetisierten Mel-Spektrogramme darstellt. Die Ergebnisse der Arbeit können als Ausgangspunkt für weiterführende Forschungsarbeiten dienen. Die erzeugten Ergebnisse und Implementationen sind für die Öffentlichkeit bereitgestellt. ; The goal of this paper is to design, implement, ...