Serviceeinschränkungen vom 12.-22.02.2026 - weitere Infos auf der UB-Homepage

Treffer: کاهش دادههاي مورد نیاز براي آموزش مدلهاي یادگیري عمیق بر اساس خوشهبندي دادهها و کاربرد آن در وارونسازي ی کبعدي مگنتوتلوریک

Title:
کاهش دادههاي مورد نیاز براي آموزش مدلهاي یادگیري عمیق بر اساس خوشهبندي دادهها و کاربرد آن در وارونسازي ی کبعدي مگنتوتلوریک
Alternate Title:
Reduction of the data required for training deep learning models based on clustering of the data and its application in one-dimensional magnetotelluric inversion.
Source:
Iranian Journal of Geophysics (IJG). 2025, Vol. 19 Issue 2, p1-21. 21p.
Database:
Academic Search Index

Weitere Informationen

Data-driven deep learning approaches have to deal with the challenge of generating large amounts of high-quality data, as well as the heavy computational cost and long training time imposed by it. Due to their ability to approximate complex nonlinear mapping functions, deep networks can be used effectively in geophysical inverse problems and better generalization can be achieved through deeper networks in many applications. In this research, an approach based on primary clustering of training data and assigning a certain percentage of each cluster to training, validation and test data has been used for data splitting. Kolmogorov Smirnov (KS) test has been applied to compare the distribution of three sets that are divided in this manner, and indicates that the training, validation and test data have the same distribution. A deep learning model based on modified U-Net architecture has been trained for onedimensional inversion of magnetotelluric (MT) data, which is a highly non-linear regression problem. Supervised learning and back propagation error are used, and therefore, the inputs along with the corresponding outputs are given to the network in the form of training samples. For this purpose, a fivelayer geoelectric model has been considered to simulate the conditions of a geothermal field. Using magnetotelluric forward modeling algorithm, the responses of this one-dimensional geoelectric model are analytically calculated in the frequency range of 0.01-100 Hz and in 13 frequencies that are uniformly distributed on a logarithmic scale, and total of 500000 sample data were generated. The thickness of the layers is variable and considered as part of the output. Pre-processing is done to scale the input and output variables before training and the network outputs are post-processed to be returned to the original interval. The mean square error (MSE) loss function and the Adam optimizer were used to train the network. Training is accomplished with a different amount of data separated by the mentioned method, and network performance is evaluated with some quantitative and qualitative criteria, including boxplots of Euclidean distance between true and predicted outputs and Nash Sutcliffe Efficiency coefficients. The trained network predicts the electrical resistivity and thickness of the layers from the new set of phase and apparent resistivity values. The results show that data splitting in this manner reduces the number of training data required to train the deep learning model by at least 50% without reducing the accuracy of the trained network. For noisy data and in more real scenarios, random separation is definitely not a suitable approach to form training, validation and test sets. In these conditions, the use of clustering is a suitable solution for equalizing the statistical distribution of the three sets and reducing the number of required data. [ABSTRACT FROM AUTHOR]

رویکردهاي یادگیري عمیق داد همحور با چالش تولید داد ههایی به تعداد زیاد و با کیفیت بالا و بار محاسباتی سنگین و زمان آموزش طولانی تحمیل شده توسط آن روبرو هستند. علاوه بر این، در صورتیکه بعد از جداسازي تصادفی داد هها به سه مجموعه آموزش، اعتبارسنجی و آزمایش، توزیع آماري یکسانی براي آنها ب هدست نیاید، به دلیل رفتار نامنظم منحنی خطاي آموزش و اعتبارسنجی، تعمی مپذیري خوبی حاصل نم یشود. در ای ن پژوهش با استفاده از رویکرد مبتنی بر خوش هبندي اولیه داد هها و اختصاص درصد مشخصی از هر خوشه به سه مجموعه، و با پیمایش نتایج پی شبینی، کمینه داده مورد نیاز براي وارو نسازي با رویکرد یادگیري عمیق ارائه م یگردد. با اعمال آزمو نهاي آماري نشان داده م یشود که داد ههایی که با این براي وارونسازي یک بعدي U-Net رویکرد جداسازي شد هاند، داراي توزیع یکسان در سه مجموعه هستند. یک مدل یادگیري عمیق مبتنی بر معماري داد ههاي مگنتوتلوریک آموزش داده م یشود. به این منظور از یک مدل ژئوالکتریکی پنج لایه که شرایط یک میدان زمی نگرمایی را شبی هسازي می کند، استفاده شد هاست. آموزش شبکه با تعداد متفاوت داد ههایی که با روش گفته شده جداسازي شد هاند، تکرار و عملکرد آن با معیارهاي کمی و کیفی متفاوتی سنجیده میشود. با پیمایش نتایج وارون سازي با داد ههاي آزمایشی یکسان بر مدلهاي آموزش دیده با درصد دادهاي مختلف م یتوان بدون اینکه از دقت شبکه کاسته شود، به میزان 50 درصد تعداد داد ههاي مورد نیاز براي آموزش مدل یادگیري عمیق و بنابراین زمان آموزش را کاهش داد. در مواجهه با داد ههاي پیچید هتر، واقعیتر و نویزي قطعا جداسازي تصادفی رهیافت مناسبی براي تشکیل سه مجموعه نیست. هرچه شرایط پیچید هتر و تعداد ویژگیها بیشتر باشد، جداسازي تصادفی راهکار نامناس بتري است؛ چراکه تفاوت توزی عهاي آماري سه مجموعه بیشتر میشود؛ و در نتیجه تعمیمپذیري کاهش و تعداد داد ههاي مورد نیاز افزایش م ییابد. در ای نصورت استفاده از خوشه بندي راهکار مناسبی براي یکسانسازي توزیع آماري سه مجموعه و کاهش تعداد داد ههاست. [ABSTRACT FROM AUTHOR]