Treffer: Aplikace strojového učení pro predikci odchodu zákazníků ; Application of machine learning for customer churn prediction
Weitere Informationen
This master thesis deals with the application of machine learning to obtain a model with the best possible predictive power for a binary classification using data about bank customer churn. The first chapter is devoted to machine learning in general and presenting the steps necessary in its practical application. In the second chapter, the principles of decision trees are explained, which is followed by the presentation of with them associated ensemble learning models. In the practical part, two selected datasets are then analyzed, which shows that while a simple decision tree is considerably weak compared to ensemble models from the perspective of predictive capabilities, the predictive powers of the selected ensemble models are very similar. After comparing also the computational complexity, XGBClassifier seems to be the most attractive algorithm. An interesting finding regarding the optimization of hyperparameters is that in most cases it is sufficient to try only a few randomly selected combinations of their values to achieve the almost maximum possible model quality. Finally, with regard to the relatively low recall, the need for an appropriate choice of threshold value for the prediction is presented. ; Tato diplomová práce se zabývá aplikací strojového učení pro získání co nejkvalitnějšího modelu pro binární klasifikaci vytvořeného na datech o odchodech klientů z banky. První kapitola je věnována strojovému učení obecně a představení kroků nezbytných při jeho praktické aplikaci. V rámci kapitoly druhé je vysvětlen princip fungování rozhodovacích stromů, na což v kapitole třetí navazuje představení na nich postavených ensemble modelů. V praktické části jsou poté analyzovány dva vybrané datasety, díky nimž je znázorněno, že zatímco samostatný rozhodovací strom je oproti ensemble modelům z pohledu predikčních schopností značně slabý, vybrat konkrétního vítěze nelze, jelikož výkonnost zvolených ensemble modelů je velmi podobná. Po zahrnutí vlivu výpočetní náročnosti se tak jako nejatraktivnější jeví ...