Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Ανάπτυξη καινοτόμου συστήματος συστάσεων για ταινίες βασισμένο σε μηχανισμούς κοινωνικής επιλογής

Klioumis Georgios

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/B652BE2D-2A17-4E14-93E8-E739F84FB208
Έτος 2024
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Γεώργιος Κλιούμης, "Ανάπτυξη καινοτόμου συστήματος συστάσεων για ταινίες βασισμένο σε μηχανισμούς κοινωνικής επιλογής", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 https://doi.org/10.26233/heallink.tuc.98707
Εμφανίζεται στις Συλλογές

Περίληψη

Τα συστήματα συστάσεων είναι εργαλεία λογισμικού που βοηθούν τους χρήστες στην επιλογή αντικειμένων ενδιαφέροντος (λ.χ, ταινίες, εστιατόρια, κ.ο.κ) από ένα μεγάλο σύνολο. Σε αυτήν την εργασία, προτείνουμε ένα εξατομικευμένο σύστημα συστάσεων για τον τομέα των ταινιών, το οποίο χρησιμοποιεί καινοτόμες τεχνικές μοντελοποίησης, καθώς και μία διαδικασία σύστασης βασισμένη σε μηχανισμούς κοινωνικής επιλογής. Στον τομέα της μοντελοποίησης των αντικειμένων, η προσέγγισή μας δημιουργεί ένα πιθανοτικό μοντέλο ταινίας, βασισμένο σε πληροφορίες σχετικά με τα είδη της, που αποκτήθηκαν μέσω της περίληψης της ταινίας μαζί με τη γενική βαθμολογία της. Συγκεκριμένα, στην προσέγγισή μας, οι ταινίες προσδιορίζονται ως πολυδιάστατες κανονικές κατανομές πάνω σε μια σειρά από χαρακτηριστικά που καθορίζουν τις διαστάσεις της κατανομής. Αυτά τα χαρακτηριστικά επιλέγονται ως αποτέλεσμα μιας κατηγοριοποίησης που χρησιμοποιεί ταξινομητές πάνω σε διανύσματα που χαρακτηρίζουν την κάθε ταινία, τα οποία αποκτώνται μέσω μιας σειράς διανυσματικών μετασχηματισμών κειμένου. Πιο συγκεκριμένα, αξιοποιούμε μια σειρά από τεχνικές επεξεργασίας φυσικής γλώσσας για τη μετατροπή των κειμένων περίληψης σε διανυσματικές αναπαραστάσεις, χρησιμοποιώντας τους διανυσματικούς μετασχηματισμούς (i) Term Frequency Inverse Document Frequency (TFIDF), (ii) Class Label Frequency Distance (CLFD) και (iii) Count Vectorizer. Έπειτα, χρησιμοποιούμε (a) την αρχιτεκτονική Classifier Chain, βασισμένη στους (i) Naive Bayes, (ii) Logistic Regression, (iii) Random Forest αλγορίθμους ταξινόμησης - καθώς και (b) ένα Long Short Term Memory (LSTM) νευρωνικό δίκτυο, για την επίλυση του προβλήματος ταξινόμησης πολλαπλών ετικετών της εξαγωγής του συνόλου των ειδών της εκάστοτε ταινίας. Μετά από την αξιολόγηση των παραπάνω τεχνικών, επιλέγουμε να χρησιμοποιήσουμε (a) τον αλγόριθμο Logistic Regression με δεδομένα που έχουν μετασχηματιστεί από το CLFD, και (b) τη μέθοδο LSTM, ως τις τελικές πηγές εξαγωγής πληροφοριών μας. Ακολουθούμε την Bayesian προσέγγιση συστάσεων "You Are What You Consume" των (Babas et. al., 2013), μοντελοποιώντας τους χρήστες ως πολυδιάστατες κανονικές κατανομές με τα ίδια χαρακτηριστικά όπως και οι ταινίες. Η διαδικασία ενημέρωσης του μοντέλου του χρήστη χρησιμοποιεί μια αποδοτική τεχνική Bayesian Learning, μέσω της χρήσης της Normal Inverse Wishart κατανομής. Επιπλέον, χρησιμοποιούμε το ενδιαφέρον του χρήστη για δημοφιλείς ταινίες ως έναν τρόπο ενίσχυσης των πεποιθήσεών μας σχετικά με τις λιγότερο εμφανείς προτιμήσεις του. Η τελική διαδικασία συστάσεών μας, χρησιμοποιεί έναν μηχανισμό κοινωνικής επιλογής βασισμένο σε εκλογές πολλαπλών νικητών. Χρησιμοποιούμε δύο σύνολα ψηφοφόρων που αναθέτουν τις ψήφους τους, βασισμένοι στην πιθανοτική απόκλιση του μοντέλου χρήστη και του αντικειμένου, στους τομείς της δημοφιλίας και των ειδών ταινίας. Η πειραματική αξιολόγηση αυτής της εργασίας πραγματοποιήθηκε με χρήση δύο διαφορετικών τύπων χρηστών του πραγματικού κόσμου. Τα αποτελέσματά μας για το πρώτο σύνολο χρηστών, οι οποίοι χαρακτηρίζονται από την τάση να παρακολουθούν ταινίες που προσελκύουν ευρύ ενδιαφέρον, δείχνουν ότι το σύστημα συστάσεών μας προτείνει ταινίες που βαθμολογούνται με μέσο όρο, 3.4/5 από τον χρήστη. Οι συστάσεις μας για το δεύτερο σύνολο χρηστών, οι οποίοι χαρακτηρίζονται από την τάση τους να παρακολουθούν ταινίες που δεν προσελκύουν ευρύ ενδιαφέρον, επιτυγχάνουν μέση βαθμολογία 3.5/5. Τα αποτελέσματά μας δείχνουν: (i) ότι οι περιλήψεις των ταινιών αποτελούν πράγματι ένα χρήσιμο εργαλείο για την ταξινόμηση ταινιών, (ii) ότι τα συστήματα συστάσεων μπορούν να επωφεληθούν από τη χρήση πιθανοτικής μοντελοποίησης, (iii) ότι διαφορετικοί τύποι χρηστών μπορούν να επωφεληθούν από διαφορετικές προσεγγίσεις συστάσεων, και ότι (iv) η προσέγγισή μας για συστάσεις ταινιών με χρήση μηχανισμών κοινωνικής επιλογής είναι αποτελεσματική σε πραγματικά δεδομένα.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά