Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Περίληψη από πολλαπλά κείμενα

Kritharakis Emmanouil

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/05317020-94D3-4C9E-A94B-992A53AA835F-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.83613-
Γλώσσαen-
Μέγεθος63 pagesen
ΤίτλοςMulti-document text summarization en
ΤίτλοςΠερίληψη από πολλαπλά κείμεναel
ΔημιουργόςKritharakis Emmanouilen
ΔημιουργόςΚριθαρακης Εμμανουηλel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Chalkiadakis Georgiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Χαλκιαδακης Γεωργιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Diakoloukas Vasileiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Διακολουκας Βασιλeioςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηΤα τελευταία χρόνια, έχει παρατηρηθεί έντονο ενδιαφέρον για την αυτόματη περίληψη κειμένων, καθώς υπάρχουν πολλές εφαρμογές που απαιτούν την συμπίεση της μεγάλης ποσότητας πληροφορίας που είναι διαθέσιμη σε μικρές, συνοπτικές περιλήψεις. Σε αυτή την κατεύθυνση, η περίληψη κειμένου με μοντέλα sequence-to-sequence (seq2seq) έχει προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητας. Παρόμοιες αρχιτεκτονικές κωδικοποίησης-αποκωδικοποίησης (encoder-decoder) έχουν επίσης χρησιμοποιηθεί και σε περίληψη πολλαπλών κειμένων. Ωστόσο, η προσαρμογή των μοντέλων seq2seq πάνω σε περιλήψεις πολλαπλών κειμένων δεν είναι πάντα επιτυχής και απαιτεί εξειδικευμένους μηχανισμούς εστίασης προσοχής (attention) για την αποφυγή περιττών νοηματικών επαναλήψεων. Σε αυτή την εργασία, προτείνουμε έναν καινοτόμο μηχανισμό εστίασης προσοχής, ο οποίος βασίζεται πάνω στην ομοιότητα των προτάσεων, προκειμένου να βελτιώσουμε την περίληψη σε πολλαπλά κείμενα. Με τον προτεινόμενο μηχανισμό, το σύστημα λαμβάνει υπ’ όψιν του την σημασιολογική και συντακτική φύση των προτάσεων, κάτι πολύ χρήσιμο σε δεδομένα από πολλαπλά κείμενα. Για να διερευνήσουμε την αποτελεσματικότητα του αλγορίθμου ομοιότητας των προτάσεων, διεξήγαμε δύο ομάδες πειραμάτων. Στην πρώτη, ο προτεινόμενος αλγόριθμος συγκρίνεται με έναν πρόσφατα δημοσιευμένο αλγόριθμο ομοιότητας προτάσεων. Χρησιμοποιώντας ως κριτήριο τον συντελεστή συσχέτισης Pearson και άλλες στατιστικές μετρήσεις παρατηρήσαμε ότι ο αλγόριθμος μας πετυχαίνει καλύτερα αποτελέσματα. Στη δεύτερη οικογένεια πειραμάτων, ο προτεινόμενος αλγόριθμος ενσωματώθηκε ως μηχανισμός εστίασης προσοχής σε μοντέλα seq2seq για την περίληψη πολλαπλών κειμένων. Η αποτίμηση της επίδοσης με αυτοματοποιημένες μετρικές απέδειξε ότι το προτεινόμενο σύστημα υπερβαίνει συστηματικά σε επίδοση άλλες μεθόδους που βρίσκονται στην αιχμή της τεχνολογίας (state-of-the-art) πάνω στις βάσεις δεδομένων πολλαπλών ειδησεογραφικών κειμένων DUC-2004 και TAC-2011.el
ΠερίληψηIn the past few years, automatic text summarization has witnessed increasing interest, since it can aid many applications by condensing the large quantities of information available into short, concise summaries. In this direction, text summarization with sequence-to-sequence (seq2seq) models has attracted the interest of the research community. Similar encoder-decoder architectures have also been exploited on multi-document text summarization. However, the adaptation of the seq2seq models to the multi-document summarization task is not always successful and requires advanced attention mechanisms to avoid unnecessary repetitions. In this thesis, we propose a novel attention mechanism, which is based on sentence similarity, to improve the multi-document text summarization process. With the proposed attention mechanism, the text summarizer takes into account the semantic and syntactic nature of the sentences, which is particularly useful in a multi-document dataset. Τo investigate the effectiveness of the sentence similarity algorithm, two families of experiments were conducted. In the first, we compared the proposed algorithm to a similar, recently published, sentence similarity method. Using the Pearson correlation coefficient and other statistical metrics, we prove that our algorithm is able to obtain significantly improved performance. In the second family of experiments, we integrated the sentence similarity algorithm as an attention mechanism into the text summarizer. The evaluation of the performance under several automated metrics shows that the proposed methodology outperforms other state-of-the-art text summarization techniques on the multi-document newswire topics from the DUC-2004 and TAC-2011 datasets.en
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2019-10-10-
Ημερομηνία Δημοσίευσης2019-
Θεματική ΚατηγορίαΜηχανική μάθησηel
Θεματική ΚατηγορίαMachine learning en
Βιβλιογραφική ΑναφοράEmmanouil Kritharakis, "Multi-document text summarization", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019en
Βιβλιογραφική ΑναφοράΕμμανουήλ Κριθαράκης, "Περίληψη από πολλαπλά κείμενα", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά