Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο

Karageorgiadis Anastasios

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/8CF4DC95-DFB4-4E5F-8429-C5510F81BE56
Έτος 2019
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Αναστάσιος Καραγεωργιάδης, "FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 https://doi.org/10.26233/heallink.tuc.84791
Εμφανίζεται στις Συλλογές

Περίληψη

Η εύρεση ενός προσώπου σε μία ροή βίντεο απαιτεί πρώτα να αναγνωριστεί η ταυτότητα του εικονιζόμενου και δεύτερον το χρονικό εκείνο διάστημα στο οποίο εμφανίζεται. Στην παρούσα διπλωματική εργασία, αναπτύσσουμε μία μέθοδο αναγνώρισης εμφανιζόμενων ομιλητών εντός μιας ροής βίντεο χρησιμοποιώνταςτεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, αφού αξιοποιήσουμε την δομή ενός βίντεο ως μια ακολουθία εικόνων και ήχων, χρησιμοποιούμε αρχιτεκτονικές νευρωνικών δικτύων, για την ταυτοποίηση ομιλητών σε κάθε πλαίσιο εικόνας. Το παραπάνω πρόβλημα χωρίζεται σε δύο υπο-προβλήματα, την ΑναγνώρισηΠροσώπου και την Αναγνώριση Ομιλητή, όπου με μία top-down σχεδίαση καταλήγουμε σε ακόμη μικρότερα προβλήματα προς επίλυση. Το κάθε υπο-πρόβλημα επιλύεται ξεχωριστά, ωστόσο συνδυάζοντας τις λύσεις τους με την χρήση των πιθανοτήτων εξόδου ανά κατηγορία, πετυχαίνουμε βελτίωση στην τελική μας απόφαση για κατηγοριοποίηση στη σωστή κλάση. Η εργασία έχει υλοποιηθεί στη γλώσσα προγραμματισμού Python με την χρήση του Tensorflow και του Keras. Η προτεινόμενη προσέγγιση έχει στηριχθεί σε ΣυνελικτικάΝευρωνικά Δίκτυα (Convolutional Neural Networks), τόσο για την αναγνώριση προσώπου, όσο και ομιλητή.Ως αποτέλεσμα, ο συνδυασμός εικόνας και ήχου οδηγεί σε ορθότερη απόφαση για την ταυτότητα ενός ατόμου που εμφανίζεται σε κάποιο χρονικό διάστημα του βίντεο. Επιπλέον το βασικό πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να αξιοποιηθεί σε πολλές διαφορετικές εφαρμογές, όπως εύρεσηαγνοουμένων, αναγνώριση διασημοτήτων, ή ακόμη και προώθηση δημοσίων προσώπων. Αξίζει να σημειωθεί ότι με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για ταυτοποίηση οποιασδήποτε άλλης οντότητας σε ροή βίντεο.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά