Treffer: Semantičko pretraživanje tekstualnih baza znanja u poslovnoj domeni ; Semantic Search of Text-based Knowledge Repositories in Business Domains
University of Zagreb. Faculty of Electrical Engineering and Computing.
Weitere Informationen
Za izvlačenje korisnih informacija iz velike količine podataka potrebne su sofisticirane metode pretraživanja podataka. U slučaju sustava odgovaranja na upit potrebne su metode obrade upita, dohvaćanja podataka i odabira prikladnog odgovora. Ovaj rad bavi se izvlačenjem rečenice iz baze znanja koja predstavlja odgovor na pitanje upućeno sustavu. Većina rada posvećena je mjerenju semantičke sličnosti između pitanja i potencijalnog odgovora na hrvatskom jeziku. Implementirano je nekoliko tehnika reprezentiranja rečenica vektorom. Rad zaključuje da je običan TF-IDF vektor rečenice i kosinusna sličnost rečenica i dalje najbolja metoda usporedbe rečenica s obzirom na robusnost metode i lakoću korištenja. ; For large amounts of textual information to be useful, appropriate search methods need to exist. In case of a question-answering system, methods of information retrieval, question processing and question answering are crucial. This thesis deals with non-factoid question answering where the answer is usually a sentence. Therefore, most of the work in the thesis is devoted to question-sentence semantic similarity task tested on Croatian language. Several sentence embedding techniques have been tested with various results. Thesis concludes that plain TF-IDF vectors of sentences combined with cosine similarity is still the preferable option for sentence comparison due to its robustness and ease of use.