Treffer: Robastinių klastertizavimo metodų plėtojimas

Title:
Robastinių klastertizavimo metodų plėtojimas
Contributors:
Ruzgas, Tomas
Publisher Information:
Kaunas University of Technology, 2024.
Publication Year:
2024
Document Type:
Dissertation Doctoral thesis
File Description:
application/pdf
Language:
Lithuanian
Accession Number:
edsair.od......3368..db30d2dfefc55bf300b0cab9c59b15c6
Database:
OpenAIRE

Weitere Informationen

Nuolat didėjantis šiuolaikinių duomenų rinkinių sudėtingumas ir mastas išryškino esminį veiksmingų ir efektyvių duomenų analizės metodų poreikį. Dėl to klasterizavimo algoritmai tapo pagrindine mašininio mokymosi ir duomenų gavybos priemone, skirta spręsti iššūkius, su kuriais susiduriama apdorojant ir interpretuojant didžiulį duomenų kiekį kai neturima jokios apriorinės informacijos. Pastaraisiais metais klasterizavimas rado įvairių pritaikymų įvairiose srityse, tokiose kaip bioinformatika, vaizdo apdorojimas, natūralios kalbos apdorojimas, socialinių tinklų analizė ir anomalijų aptikimas. Robastinis duomenų klasterizavimas ypač daug dėmesio skiria dideliems tyrimams reaguojant į iššūkius, su kuriais susiduria realaus pasaulio duomenų rinkiniai. Tai apima tokias problemas kaip triukšmas, ekstremalios reikšmės, išskirtys, trūkstami arba sugadinti duomenys, taip pat įvairių tipų ir masto duomenų buvimas. Realaus pasaulio duomenų rinkiniai gali turėti sudėtingų geometrijų, dėl kurių tradiciniai grupavimo metodai gali neparodyti sėkmingų gerų rezultatų. Taigi, patikimu klasterizavimu siekiama pašalinti šiuos apribojimus, naudojant pažangius metodus, galinčias galinčius tvarkyti įvairaus pobūdžio duomenis ir atskleisti sudėtingas jų struktūras. Šio tyrimo tikslas sukurti ir ištirti duomenų klasterizavimo metodus, kurie būtų efektyvūs lyginant su kitais šiuo metu esančiais duomenų klasterizavimo metodais nevienalyčių duomenų atveju. Disertacijoje taikomi įvairūs tikimybių teorijos, matematinės statistikos, duomenų dimensijų mažinimo, vizualizavimo metodai. Pristatyti klasterizavimo metodai yra paremti apvertimo formule. Šio darbo programiniam realizavimui buvo naudojami: Python, R, PostgresSQL, Airflow, dbt ir kiti paketai. Gauti duomenų klasterizavimo metodų rezultatai pasižymi geresniais rezultatais lyginant su kitais populiariausiais metodais. Sukurti metodai buvo pritaikyti mokslinėje ir dviejų įmonių praktinėje veikloje. Duomenų klasterizavimo metodus, bei jų taikymo rekomendacijas savo tyrimuose naudoja: Farmer ir kt. (2023), Powroźnik ir kt. (2022), Yu ir kt. (2023), Chen ir kt.
Modern data sets' ever-increasing complexity and scale have highlighted the critical need for effective and efficient data analysis methods. As a result, clustering algorithms have become a key tool in machine learning and data mining to address the challenges of processing and interpreting large amounts of data without any a priori information. In recent years, clustering has found various applications in various fields such as bioinformatics, image processing, natural language processing, social network analysis, and anomaly detection. Robust data clustering is particularly focused on large-scale research in response to the challenges faced by real-world datasets. These include problems such as noise, extreme values, outliers, missing or corrupted data, and the presence of different types and scales of data. Real-world datasets can have complex geometries that make traditional clustering methods fail to show good results. Thus, robust clustering aims to overcome these limitations by using advanced techniques to handle diverse data types and reveal their complex structures. This study aims to develop and investigate efficient data clustering methods compared to other currently available data clustering methods in the case of heterogeneous data. Various methods of probability theory, mathematical statistics, data dimensionality reduction, and visualization methods are applied in the dissertation. The presented clustering methods are based on the inversion formula. Python, R, PostgreSQL, Airflow, dbt, and other packages were used for the software implementation of this work. The results obtained by data clustering methods are characterized by better results than those obtained by other popular methods. The developed methods were applied in the scientific and practical activities of the two companies. Data clustering methods and their application recommendations are used in their research by Farmer et al. (2023), Powroźnik et al. (2022), Yu et al. (2023), and Chen et al.