Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων

Pechlivanis Konstantinos

URI	http://purl.tuc.gr/dl/dias/2C5C6EAD-312B-4D80-B99B-86E8B76319FA	-
Αναγνωριστικό	https://doi.org/10.26233/heallink.tuc.68185	-
Γλώσσα	en	-
Μέγεθος	74 pages	en
Μέγεθος	Α4	el
Μέγεθος	1,7 megabytes	en
Τίτλος	Corpus-based methods for learning models of metaphor in modern Greek	en
Τίτλος	Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων	el
Δημιουργός	Pechlivanis Konstantinos	en
Δημιουργός	Πεχλιβανης Κωνσταντινος	el
Συντελεστής [Επιβλέπων Καθηγητής]	Digalakis Vasilis	en
Συντελεστής [Επιβλέπων Καθηγητής]	Διγαλακης Βασιλης	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Lagoudakis Michael	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Λαγουδακης Μιχαηλ	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Konstantopoulos, Stasinos Th	en
Εκδότης	Πολυτεχνείο Κρήτης	el
Εκδότης	Technical University of Crete	en
Ακαδημαϊκή Μονάδα	Technical University of Crete::School of Electrical and Computer Engineering	en
Ακαδημαϊκή Μονάδα	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Περιγραφή	Μεταπτυχιακή Διατριβή που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Μεταπτυχιακού Διπλώματος Ειδίκευσης	el
Περίληψη	In this thesis, we propose a method for detecting metaphorical usage of content terms based on the hypothesis that metaphors can be detected by being characteristic of a different domain than the one they appear in. We formulate the problem as one of extracting knowledge from text classification models, where the latter have been created using standard text classification techniques without any knowledge of metaphor. We then extract from such models a measure of how characteristic of a domain a term is, providing us with a reliable method of identifying terms that are surprising for the context within which they are used. In order to investigate our research proposal we started with compiling-crawling a corpus of articles from three Greek newspapers that offer content on-line. In order to have an initial classification, we mapped the sections of these three newspapers to domains from the top level of the relevant taxonomy of the International Press Telecommunications Council (IPTC). The training set is only annotated with the broad thematic categories assigned by the newspapers’ editors. In order to evaluate our method, we have manually annotated 89 articles with metaphorical term usage. The manual annotation was carried out by an initial annotator, with an expert annotator resolving inconsistencies to create the golden corpus. The annotation task was designed and elaborated using Ellogon platform. In our experiments, we report results using Term Frequency - Inverse Document Frequency (TF-IDF) to identify the literal (characteristic) domain of terms and we analyse the interaction between TF-IDF and other typical word features, such as Part of Speech tags and Document Frequency. Terms could be words or N-grams. The classification of terms is accomplished using an adapted version of Maximum Likelihood Classifier. Our method makes single-term binary decisions about metaphorical usage. We applied Precision, Recall and F 1 -score as evaluation metrics. We compared our system to a naive baseline method and to relevant work as well. Although our model seems to be over-general, producing many false positives, the overall F 1 -score outperforms both the baseline method and the related previous work.	en
Περίληψη	Σκοπός της διπλωματικής εργασίας είναι η ανάπτυξη μεθόδων αναγνώρισης μεταφορικής και γενικά μη-κυριολεκτικής χρήσης όρων, βασιζόμενοι στην υπόθεση ότι μια λέξη που χρησιμοποιείται μεταφορικά ανήκει σε διαφορετική κατηγορία από αυτή του κειμένου στο οποίο εμφανίζεται. Η ιδέα βασίζεται στην λογική εξόρυξης πληροφορίας από γλωσσικά μοντέλα, τα οποία χρησιμοποιούν γνωστές μεθόδους ταξινόμησης, χωρίς να απαιτείται προγενέστερη γνώση των μεταφορών ή άλλων σημασιολογικών πόρων. Στόχος αυτών των μοντέλων είναι η εξαγωγή του βαθμού κατά τον οποίο ένας όρος είναι χαρακτηριστικός σε κάποια κατηγορία. Αυτό συντελεί στον εντοπισμό λέξεων οι οποίες δεν ανήκουν σημασιολογικά στο κείμενο στο οποίο εμφανίζονται. Εξετάζοντας την ερευνητική μας πρόταση, αρχικά, συλλέξαμε σώματα κειμένων από τρεις ελληνικές εφημερίδες που μοιράζονται το περιεχόμενό τους στο διαδίκτυο. Με σκοπό την απόκτηση μια αρχικής ταξινόμησης για κάθε άρθρο, υιοθετήσαμε την ταξινόμηση που παρέχει το International Press Telecommunications Council (IPTC) χρησιμοποιώντας τις πιο ευρείες κατηγορίες. Η μοναδική επισημείωση στα δεδομένα εκπαίδευσης είναι οι κατηγορίες των άρθρων, οι οποίες έχουν ανατεθεί από τους εκδότες των εφημερίδων. Για την αξιολόγηση της μεθόδου μας έχουμε επισημειώσει 89 άρθρα. Η διαδικασία επισημείωσης περιλαμβάνει των εντοπισμό των όρων που χρησιμοποιούνται μεταφορικά. Η επισημείωση εκπονήθηκε αρχικά από έναν επισημειωτή και στη συνέχεια, ένας ειδικευμένος επισημειωτής διόρθωσε τις ανακολουθίες που προέκυψαν, με σκοπό τη δημιουργία ενός σώματος κειμένων για τη δοκιμή του συστήματος. H διαδικασία επισημείωσης σχεδιάστηκε και εκπονήθηκε με τη χρήση της πλατφόρμας του Ellogon. Στα πλαίσια αυτής τη έρευνας, κάναμε χρήση της μετρικής Συχνότητα Όρων - Αντίστροφη Συχνότητα Εγγράφων (TF-IDF) με σκοπό τον εντοπισμό της χαρακτηριστικής κατηγορίας στην οποία ανήκει ένας όρος. Επιπλέον, αναλύσαμε την αλληλεπίδραση μεταξύ της μετρικής TF-IDF με άλλα χαρακτηριστικά λέξεων, όπως το μέρος του λόγου στο οποίο ανήκει, καθώς και τη συχνότητα εμφάνισής του στα διαφορετικά έγγραφα. Ένας όρος αποτελεί μια λέξη ή ένα n-γράμμα. Η κατηγοριοποίηση των όρων έγινε με τη χρήση μιας προσαρμοσμένης μορφής του Ταξινομητή Μέγιστης Πιθανοφάνειας. Η αξιολόγηση του συστήματος έγινε με την χρήση των μετρικών Precision, Recall και F1 -score. Η απόφαση μια επιτυχημένης ανίχνευσης λαμβάνει χώρα για κάθε όρο ξεχωριστά, ελέγχοντας αν είναι μη-κυριολεκτικής σημασίας. Τέλος, συγκρίναμε τα αποτελέσματα του συστήματος με ένα απλοϊκό μοντέλο, καθώς και με μια σχετική δουλειά που είχε υλοποιηθεί παλιότερα. Παρόλο που το μοντέλο μας δείχνει να είναι υπεργενικευμένο, ξεπερνάει σε απόδοση τα προαναφερθέντα.	el
Τύπος	Μεταπτυχιακή Διατριβή	el
Τύπος	Master Thesis	en
Άδεια Χρήσης	http://creativecommons.org/licenses/by/4.0/	en
Ημερομηνία	2017-05-25	-
Ημερομηνία Δημοσίευσης	2017	-
Θεματική Κατηγορία	Inverse term frequency	en
Θεματική Κατηγορία	Αντίστροφη συχνότητα εγγράφων	el
Θεματική Κατηγορία	Επεξεργασία φυσικής γλώσσας	el
Θεματική Κατηγορία	Natural language processing	en
Θεματική Κατηγορία	Αναγνώριση μεταφοράς	el
Θεματική Κατηγορία	Metaphor detection	en
Θεματική Κατηγορία	Εξαγωγή πληροφορίας	el
Θεματική Κατηγορία	Information extraction	en
Θεματική Κατηγορία	Εξαγωγή χαρακτηριστικών	el
Θεματική Κατηγορία	Feature extraction	en
Θεματική Κατηγορία	Εξόρυξη κειμένου	el
Θεματική Κατηγορία	Text mining	en
Θεματική Κατηγορία	Κατανεμημένες σημασιολογίες	el
Θεματική Κατηγορία	Istributional semantics	en
Θεματική Κατηγορία	Μηχανική μάθηση	el
Θεματική Κατηγορία	Machine learning	en
Θεματική Κατηγορία	Crawling	en
Θεματική Κατηγορία	Κατηγοριοποίηση	el
Θεματική Κατηγορία	Categorization	en
Θεματική Κατηγορία	Annotation	en
Θεματική Κατηγορία	Επισημείωση	el
Θεματική Κατηγορία	Στάθμιση όρων	el
Θεματική Κατηγορία	Term weighting	en
Θεματική Κατηγορία	Συχνότητα όρων	el
Θεματική Κατηγορία	Term frequency	en
Θεματική Κατηγορία	Document frequency	en
Θεματική Κατηγορία	Συχνότητα εγγράφων	el
Βιβλιογραφική Αναφορά	Konstantinos Pechlivanis, "Corpus-based methods for learning models of metaphor in modern Greek", Master Thesis, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2017	en
Βιβλιογραφική Αναφορά	Κωνσταντίνος Πεχλιβάνης, "Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2017	el

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Υπολογιστικές μέθοδοι εκμάθησης μοντέλων εντοπισμού μεταφορικής σημασίας από σώματα νεοελληνικών κειμένων

Pechlivanis Konstantinos

Διαθέσιμα αρχεία

Υπηρεσίες

Εξαγωγή

Κοινοποίηση

Στατιστικά

Μεταδεδομένων & Περιεχομένου σε METS:

Μεταδεδομένων σε Μορφότυπο: