Treffer: Odhad obličeje z řečového signálu ; Learning the Face Behind a Voice

Title:
Odhad obličeje z řečového signálu ; Learning the Face Behind a Voice
Authors:
Contributors:
Plchot, Oldřich, Mošner, Ladislav
Publisher Information:
Vysoké učení technické v Brně. Fakulta informačních technologií
Publication Year:
2022
Collection:
Brno University of Technology (VUT): Digital Library / Vysoké učení technické v Brně: Digitální knihovně
Document Type:
Dissertation master thesis
File Description:
application/pdf; text/html
Language:
Czech
Relation:
ZUBALÍK, P. Odhad obličeje z řečového signálu [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2022.; 145453; http://hdl.handle.net/11012/207852
Rights:
Standardní licenční smlouva - přístup k plnému textu bez omezení
Accession Number:
edsbas.7A02C6F3
Database:
BASE

Weitere Informationen

Hlavním cílem této diplomové práce bylo navrhnout a implementovat systém, který bude schopný odhadnout obličej na základě řeči daného člověka. Tento problém je vyřešen pomocí systému složeného ze tří modelů konvolučních neuronových sítí. První z nich je založen na architektuře ResNet a slouží pro extrahování příznaků z hlasových nahrávek. Druhým modelem je plně konvoluční neuronová síť, která převádí tyto příznaky na styly, na základě kterých bude upravován výsledný obrázek obličeje. Získané styly jsou poté předávány na vstup generátoru StyleGAN pro vygenerování výsledného obličeje. Navržený systém je implementován v programovacím jazyce Python s využitím frameworku PyTorch. V poslední kapitole práce je rozebráno a vyhodnoceno několik důležitých experimentů prováděných v rámci ladění a testování vytvořeného systému. ; The main goal of this thesis is to design and implement a system that will be able to generate a face based on the speech of a given person. This problem is solved using a system composed of three convolutional neural network models. The first one is based on the ResNet architecture and is used to extract features from speech recordings. The second model is a fully convolutional neural network which converts the extracted features into the styles which form a base for the final facial image. These styles are then passed as an input to the StyleGAN generator, which creates the resulting face. The proposed system is implemented in the Python programming language using the PyTorch framework. The last chapter of the thesis discusses some of the most significant experiments performed to fine-tune and test the developed system. ; B