Treffer: High Performance Computing with Python - Libraries and Best Practices for Distributed Computing in Data Science Workflows

Title:
High Performance Computing with Python - Libraries and Best Practices for Distributed Computing in Data Science Workflows
Publication Year:
2025
Subject Geographic:
Document Type:
Dissertation master thesis
File Description:
101 Seiten; text/html
Language:
English
Relation:
vignette : https://epub.technikum-wien.at/titlepage/urn/urn:nbn:at:at-ftw:1-75983/128; local:99149262676303331; system:AC17569479
Accession Number:
edsbas.44AF8C3A
Database:
BASE

Weitere Informationen

Python ist im Bereich Data Science unverzichtbar, besonders in Verbindung mit High- Performance Computing (HPC) Libraries für große Datenmengen. In dieser Masterarbeit wurden die wichtigsten Python HPC-Bibliotheken identifiziert und deren Funktionalität sowie Usability für verteilte Data-Science-Aufgaben wie Deep Learning, klassisches Machine Learning und Hyperparameter-Tuning evaluiert. Hierzu wurden Experimente mit fünf verschiedenen Test-Umgebungen auf einem SLURM-Cluster der FH Technikum Wien durchgeführt.Zur Bewertung wurden Benchmarks entwickelt, die die Eignung der Libraries für Machine Learning Tasks, sowie SLURM-Integration, Support für Distributed Computing, Hardwarekompatibilität, Usability und Skalierbarkeit untersuchten. Aufbauend auf den Ergebnissen dieser Benchmarks lassen sich zwei Bibliotheken besonders für verteilte Data-Science-Workflows auf dem FH-Cluster hervorheben: PyTorch Lightning, welches für das GPU-gestützte Training eines ResNet-50-Modells eingesetzt wurde, und Dask, das zum Training und Tuning eines Random Forest Classifiers auf der CPU verwendet wurde. Ein weiterer wichtiger Beitrag dieser Masterarbeit ist die Erstellung von Konfigurationsdateien, Codebeispielen und Jupyter Notebooks. Diese Ressourcen sind darauf ausgelegt, Studierenden eine praktische Hilfestellung bei der Nutzung des Clusters für eigene Forschungsprojekte zu bieten. ; Python is an essential tool in the field of data science, especially in combination with high- performance computing (HPC) libraries for large amounts of data. In this master thesis, the most important Python HPC libraries were identified and their functionality and usability for distributed data science tasks such as deep learning, classical machine learning and hyperparameter tuning were evaluated. Experiments were conducted using five different test environments on a SLURM cluster at UAS Technikum Wien.Benchmarks were developed to evaluate the suitability of the libraries for machine learning tasks, as well as SLURM integration, support for ...