URI | http://purl.tuc.gr/dl/dias/8CF4DC95-DFB4-4E5F-8429-C5510F81BE56 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.84791 | - |
Γλώσσα | en | - |
Μέγεθος | 105 pages | en |
Μέγεθος | 6,5 megabytes | en |
Τίτλος | FACESiR: face and speaker identity recognition in video streams | en |
Τίτλος | FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο | el |
Δημιουργός | Karageorgiadis Anastasios | en |
Δημιουργός | Καραγεωργιαδης Αναστασιος | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Lagoudakis Michail | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Chalkiadakis Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Χαλκιαδακης Γεωργιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Diakoloukas Vasileios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Διακολουκας Βασιλeioς | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | Person indexing in video streams requires first to recognize a person’s identity and secondly finding the time slot in which a person appears. In this diploma thesis, we develop a method for identifying exposed speakers within a video stream using machine learning techniques. More specifically, with the help of Neural Networks, after we exploit the structure of a video as a sequence of images and sounds, we use these data for the identification of a speaker at each video frame. The above problem is divided into two sub-problems, Face Recognition and Speaker Recognition, where we use a top-down design to split them into smaller ones. Each sub-problem is solved individually, but the combination of their output
probabilities per class leads to an improved final decision regarding classification. The method has been implemented in the Python programming language using the Tensorflow framework and the Keras API.
The suggested approach is based on Convolutional Neural Network architectures for both Face and Speaker Recognition. As a result, the combination of image and sound leads to a better decision for the identity of a person who appears in a specific time slot of the video. In addition, the main advantage of the proposed method is that it can be utilized for many different use cases, such as search for missing persons, recognition of celebrities, or even promotion of public figures. It is also worth mentioning that with some minor changes it can be used for identifying any other entity in a video stream. | en |
Περίληψη | Η εύρεση ενός προσώπου σε μία ροή βίντεο απαιτεί πρώτα να αναγνωριστεί η ταυτότητα του εικονιζόμενου και δεύτερον το χρονικό εκείνο διάστημα στο οποίο εμφανίζεται. Στην παρούσα διπλωματική εργασία, αναπτύσσουμε μία μέθοδο αναγνώρισης εμφανιζόμενων ομιλητών εντός μιας ροής βίντεο χρησιμοποιώντας
τεχνικές μηχανικής μάθησης. Πιο συγκεκριμένα, αφού αξιοποιήσουμε την δομή ενός βίντεο ως μια ακολουθία εικόνων και ήχων, χρησιμοποιούμε αρχιτεκτονικές νευρωνικών δικτύων, για την ταυτοποίηση ομιλητών σε κάθε πλαίσιο εικόνας. Το παραπάνω πρόβλημα χωρίζεται σε δύο υπο-προβλήματα, την Αναγνώριση
Προσώπου και την Αναγνώριση Ομιλητή, όπου με μία top-down σχεδίαση καταλήγουμε σε ακόμη μικρότερα προβλήματα προς επίλυση. Το κάθε υπο-πρόβλημα επιλύεται ξεχωριστά, ωστόσο συνδυάζοντας τις λύσεις τους με την χρήση των πιθανοτήτων εξόδου ανά κατηγορία, πετυχαίνουμε βελτίωση στην τελική μας απόφαση για κατηγοριοποίηση στη σωστή κλάση. Η εργασία έχει υλοποιηθεί στη γλώσσα προγραμματισμού Python με την χρήση του Tensorflow και του Keras. Η προτεινόμενη προσέγγιση έχει στηριχθεί σε Συνελικτικά
Νευρωνικά Δίκτυα (Convolutional Neural Networks), τόσο για την αναγνώριση προσώπου, όσο και ομιλητή.
Ως αποτέλεσμα, ο συνδυασμός εικόνας και ήχου οδηγεί σε ορθότερη απόφαση για την ταυτότητα ενός ατόμου που εμφανίζεται σε κάποιο χρονικό διάστημα του βίντεο. Επιπλέον το βασικό πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να αξιοποιηθεί σε πολλές διαφορετικές εφαρμογές, όπως εύρεση
αγνοουμένων, αναγνώριση διασημοτήτων, ή ακόμη και προώθηση δημοσίων προσώπων. Αξίζει να σημειωθεί ότι με κάποιες μικρές αλλαγές μπορεί να χρησιμοποιηθεί για ταυτοποίηση οποιασδήποτε άλλης οντότητας σε ροή βίντεο. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2020-02-28 | - |
Ημερομηνία Δημοσίευσης | 2019 | - |
Θεματική Κατηγορία | Artificial intelligence | en |
Θεματική Κατηγορία | Τεχνητή νοημοσύνη | el |
Θεματική Κατηγορία | Machine learning | en |
Θεματική Κατηγορία | Αναγνώριση προσώπου και φωνής ομιλητή | el |
Θεματική Κατηγορία | Face and speaker recognition | en |
Θεματική Κατηγορία | Συνελικτικά νευρωνικά δίκτυα | el |
Θεματική Κατηγορία | Convolutional neural networks | en |
Θεματική Κατηγορία | Tensorflow | en |
Θεματική Κατηγορία | Keras | en |
Θεματική Κατηγορία | OpenCV | en |
Βιβλιογραφική Αναφορά | Anastasios Karageorgiadis, "FACESiR: face and speaker identity recognition in video streams", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019 | en |
Βιβλιογραφική Αναφορά | Αναστάσιος Καραγεωργιάδης, "FACESiR: αναγνώριση προσώπου και ομιλητή σε ροή βίντεο", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 | el |