Result: How can automated data extraction and structuring enhance the retrieval of project-related data : A machine learning method for data handling

Title:
How can automated data extraction and structuring enhance the retrieval of project-related data : A machine learning method for data handling
Additional Titles:
Hur kan automatiserad dataextraktion och strukturering förbättra hämtningen av projektrelaterad data : En maskininlärningsbaserad metod för datahantering
Publisher Information:
KTH, Skolan för elektroteknik och datavetenskap (EECS) 2025
Document Type:
Electronic Resource Electronic Resource
Availability:
Open access content. Open access content
info:eu-repo/semantics/openAccess
Note:
application/pdf
English
Other Numbers:
UPE oai:DiVA.org:kth-368135
1542825494
Contributing Source:
UPPSALA UNIV LIBR
From OAIster®, provided by the OCLC Cooperative.
Accession Number:
edsoai.on1542825494
Database:
OAIster

Further Information

Nordiska Brand is a sprinkler construction company with internal archives consisting of text documents detailing past projects. Locating specific information, such as which pipes a given project used or what regulatory standard applies requires manual searching across multiple files. This system is time-consuming and outdated. The problem, is how to transform these documents into a searchable database that allows fast retrieval of key information. The problem is significant due to its practical implications for real-world challenges. The task is complex because all project-related tasks are highly unstructured and vary in format, posing challenges for the implementation of training, structuring, and creation of the user interface. The method for solving the problem involved investigating and developing a system to automate the extraction, structuring, and retrieval of key information. An end-to-end pipeline was implemented that converts unstructured text into a structured relational database and provides a user interface for efficient data access. The main component was a Named Entity Recognition (NER) model that was retrained using a dataset tailored to Nordiska Brands information. The NER model was applied to hundreds of projects containing thousands of project documents and returned company-specific entities that were stored in a relational database. The implemented system successfully automated the extraction and structuring of project-related data from over 200 projects. The system includes a local user interface that significantly reduces the time needed to locate sought-after project information.
Nordiska Brand är ett sprinklermontageföretag med interna arkiv bestående av textdokument som beskriver tidigare projekt. Att hitta specifik information, såsom vilka rör som använts i ett visst projekt eller vilken regulatorisk standard som gäller, kräver manuell sökning genom flera filer. Detta system är därför tidskrävande och föråldrat. Problemet är hur man kan omvandla dessa dokument till en sökbar databas som möjliggör snabb åtkomst till viktig information. Problemet är betydelsefullt på grund av dess praktiska konsekvenser och dess påverkan på tidseffektivitet för verkliga tillämpningar. Uppgiften är komplex eftersom alla företagets projektrelaterade uppgifter är ostrukturerade och varierar i format, vilket skapar utmaningar för implementering av dataträning, strukturering och skapande av användargränssnitt. Metoden för att lösa problemet innebar att undersöka och utveckla ett system för att automatisera extraktion, strukturering och hämtning av nyckelinformation. En end-to-end-pipeline implementerades som omvandlar ostrukturerad text till en strukturerad relationsdatabas och tillhandahåller ett användargränssnitt för effektiv dataåtkomst. Huvudkomponenten var en Named Entity Recognition (NER)-modell som omtränades med ett dataset anpassat till Nordiska Brands information. NER-modellen tillämpades på hundratals projekt som i sin tur innehåller tusentals projektdokument och identifierade företagsspecifika entiteter som sparades i en relationsdatabas. Det implementerade systemet automatiserade framgångsrikt extraktion och strukturering av projektrelaterad data från över 200 projekt. Systemet inkluderar även ett lokalt användargränssnitt som avsevärt minskar den tid som krävs för att hitta efterfrågad projektinformation.