Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Γνωσιακές μηχανές με χρήση μεθόδων μηχανικής μάθησης

Papadopoulos Dimitrios

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/CC65AEBA-6472-4251-B919-85B0ABE4ED22
Έτος 2022
Τύπος Διδακτορική Διατριβή
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Δημήτριος Παπαδόπουλος, "Γνωσιακές μηχανές με χρήση μεθόδων μηχανικής μάθησης", Διδακτορική Διατριβή, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2022 https://doi.org/10.26233/heallink.tuc.92783
Εμφανίζεται στις Συλλογές

Περίληψη

Η σύγχρονη κοινωνία χαρακτηρίζεται από πρωτοφανή ανάπτυξη στο ρυθμό παραγωγής και διαμοιρασμού δεδομένων και πληροφοριών, ως απόρροια της ραγδαίας αύξησης της υπολογιστικής δύναμης, της διαθεσιμότητας και της δυνατότητας επεξεργασίας τεράστιου όγκου δεδομένων, προερχόμενων κυρίως από το Διαδίκτυο. Αυτός ο κατακλυσμός δεδομένων, ο οποίος συνήθως συναντάται με τη μορφή φυσικής γλώσσας, αναπόφευκτα μειώνει το συλλογικό εύρος προσοχής των παραληπτών, οδηγώντας περισσότερο στην αγχώδη και επιφανειακή κατανάλωσή τους, παρά στην ουσιαστική αφομοίωση και αξιολόγηση τους. Η διεθνής ερευνητική κοινότητα, μέσω εργαλείων και μεθοδολογιών επεξεργασίας φυσικής γλώσσας, προσπαθεί να απαντήσει στην ολοένα αυξανόμενη ζήτηση για αυτοματοποιημένη διαχείριση, αναπαράσταση και εξαγωγή πολύτιμης γνώσης από τις συνεχείς ροές δεδομένων που κατακλύζουν τον Παγκόσμιο Ιστό. Ωστόσο, το μεγαλύτερο μέρος της σημερινής έρευνας επικεντρώνεται σε μόλις 20 από τις περίπου 7000 γλώσσες του κόσμου, αφήνοντας τη συντριπτική πλειονότητα των γλωσσών υπό-μελετημένη. Οι γλώσσες αυτές χαρακτηρίζονται ως χαμηλών πόρων και συνήθως στερούνται αντίστοιχης προσοχής, ή/και δεδομένων για την ανάπτυξη αντίστοιχων μεθόδων. Μια από αυτές τις γλώσσες είναι και η ελληνική. Είναι πρόδηλη η ανάγκη ανάπτυξης μέσων για την ελληνική γλώσσα τα οποία θα εστιάζουν στη διύλιση δεδομένων που προκύπτουν από τη διάχυση της πληροφορίας στο ευρύ κοινό μέσω του Διαδικτύου. Η παρούσα διδακτορική εργασία αποτελεί προσπάθεια κάλυψης της παραπάνω ανάγκης, με το σχεδιασμό μιας σύγχρονης γνωσιακής μηχανής εξαγωγής πληροφοριών από ελεύθερο κείμενο, ανίχνευσης λανθανουσών συσχετίσεων και προτύπων, που θα αξιοποιεί τον πληροφοριακό πλούτο ελληνικών διαδικτυακών πηγών ώστε να αναγνωρίζει, να ακολουθεί και να συνδυάζει την αλληλουχία εμφάνισης προγενέστερα ασυσχέτιστων δεδομένων (γεγονότων, ειδήσεων, απόψεων κτλ.), επιτρέποντας αφενός την αποτύπωση της πληροφορίας σε δομημένη μορφή και αφετέρου την αξιοποίησή της για τον έλεγχο των ισχυρισμών ενός χρήστη. Συγκεκριμένα, η εργασία αξιοποιεί μηχανισμούς αυτοματοποιημένης άντλησης και προεπεξεργασίας δεδομένων από πηγές του Ιστού, μέσω κινητών πρακτόρων, με σκοπό την εξαγωγή πληροφοριών σε δομημένη μορφή και την εκμετάλλευσή τους για εργασίες διερευνητικής ανάλυσης και διαμόρφωσης αρχικών υποθέσεων. Ακόμη, μελετώνται και αναπτύσσονται εξελιγμένες γνωσιακές τεχνικές για την εξαγωγή σημασιολογικών συμπερασμάτων μέσω του εντοπισμού και συσχέτισης εννοιολογικών οντοτήτων, με απώτερο στόχο την ανακάλυψη συσχετίσεων μεταξύ φαινομενικά ασύνδετων γεγονότων, προσώπων και πράξεων. Το τελικό προϊόν της εργασίας περιλαμβάνει το σχεδιασμό και υλοποίηση μεθοδολογιών εξαγωγής πληροφορίας από αδόμητο κείμενο καθώς και δυναμικού ελέγχου των ισχυρισμών ενός χρήστη (σε ελεύθερο κείμενο) βάσει της συγκεντρωθείσας πληροφορίας. Τα παραπάνω συνοδεύονται από την ανάπτυξη αντίστοιχων μοντέλων μηχανικής μάθησης που υποστηρίζουν τις παραπάνω εργασίες για την ελληνική γλώσσα. Οι μηχανισμοί που προκύπτουν από την ανάπτυξη των προαναφερθεισών μεθοδολογιών επιτρέπουν την αποτύπωση κειμένου σε δομημένη μορφή (σχεσιακών ν-πλειάδων), για την καλύτερη διαχείριση της εξαχθείσας πληροφορίας μέσω βάσεων δεδομένων καθώς και για τον εμπλουτισμό της μέσω συσχετίσεων με εξωτερικές γνωσιακές βάσεις. Επιπλέον, καθίσταται δυνατή η δυνατότητα επικύρωσης ή απόρριψης ενός οποιουδήποτε ισχυρισμού, μέσω του συνδυασμού ετερογενών πληροφοριών από πολλαπλές πηγές σε πραγματικό χρόνο, αξιοποιώντας την προτεινόμενη μεθοδολογία κατασκευής σχετικών τεκμηρίων.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά