Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Online Ensemble αλγόριθμοι ταξινόμησης Μεγάλων Ροών Δεδομένων στο Apache Flink

Vittis Vasileios

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/2562671F-122F-40CD-B6F2-58279F32B417-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.90722-
Γλώσσαen-
Μέγεθος76 σελίδεςel
Μέγεθος3.1 megabytesen
ΤίτλοςOnline ensemble classification algorithms of Big Data Streams at Apache Flinken
Τίτλος Online Ensemble αλγόριθμοι ταξινόμησης Μεγάλων Ροών Δεδομένων στο Apache Flinkel
ΔημιουργόςVittis Vasileiosen
ΔημιουργόςΒιττης Βασιλειοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Garofalakis Minosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Γαροφαλακης Μινωςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Samoladas Vasilisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Σαμολαδας Βασιληςel
Συντελεστής [Επιβλέπων Καθηγητής]Deligiannakis Antoniosen
Συντελεστής [Επιβλέπων Καθηγητής]Δεληγιαννακης Αντωνιοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηThe growing need to make high-precision real-time decisions from dynamic data creates, the need to create modern systems capable of coping with diverse problems. Thus, the demands generated by the 4 Vs (volume, variety, velocity, and veracity) make the classical systems inefficient, thus creating space for systems that process data only once, without the need to store them. Ensemble Systems consist of individual subsystems with different characteristics, participating in the voting process in order to make the final decision. These subsystems are implemented by the state-of-the-art decision tree algorithm, Hoeffding Tree, due to its simple construction and the fewer assumptions it makes. It is important that such models take advantage of the available distributed environments in order to effectively speed up the learning process. In this dissertation, we create a distributed ensemble learning system for binary classification, consisting of Hoeffding Trees, creating a Random Forest. After observations about the response time and development space of the specific system, we implemented techniques that purposefully solve such problems. The results of the experimental process confirm the proposed methodology, when compared with corresponding techniques in the literature.en
ΠερίληψηΗ αυξανόμενη ανάγκη λήψης αποφάσεων με υψηλή ακρίβεια σε πραγματικό χρόνο από δυναμικά δεδομένα, δημιουργεί την ανάγκη δημιουργίας σύγχρονων συστημάτων, ικανά να ανταπεξέλθουν σε όλων των ειδών προβλημάτων. Έτσι, οι απαιτήσεις που παράγονται από τον όγκο και τον ρυθμό και την αλλαγή των δεδομένων καθιστούν τα κλασσικά συστήματα μη αποδοτικά, με αποτέλεσμα να δημιουργείται χώρος για συστήματα που επεξεργάζονται τα δεδομένα μόνο μια φορά, χωρίς την ανάγκη αποθήκευσης τους. Τα συλλογικά συστήματα εκμάθησης (Ensemble Systems), αποτελούνται από επιμέρους υποσυστήματα με διαφορετικά χαρακτηριστικά, συμμετέχοντας στην διαδικασία ψηφοφορίας με σκοπό την λήψη της τελικής απόφασης. Η κορωνίδα αυτών των υποσυστημάτων είναι o state-of-the-art αλγόριθμος δένδρων αποφάσεων, Hoeffding Tree, λόγω της απλής κατασκευής τους και των λιγότερων υποθέσεων που κάνουν. Σημαντικό είναι τέτοιου είδους μοντέλα να εκμεταλλεύονται τα διαθέσιμα κατανεμημένα περιβάλλοντα, έτσι ώστε να επιταχυνθεί αποτελεσματικά η διαδικασία εκμάθησης. Στη συγκεκριμένη διπλωματική εργασίας, δημιουργούμε ένα κατανεμημένο συλλογικό σύστημα δυαδικών αποφάσεων, αποτελούμενο από Hoeffding Trees, δημιουργώντας ένα Random Forest. Ύστερα παρατηρήσεων σχετικά με τον χρόνο απόκρισής και χώρο ανάπτυξης του συγκεκριμένου συστήματος, υλοποιήθηκαν τεχνικές που στοχευμένα λύνουν τέτοιου είδους προβλήματα. Τα αποτελέσματα της πειραματικής διαδικασίας επιβεβαιώνουν την προτεινόμενη μεθοδολογία, όταν συγκρίνονται με αντίστοιχες τεχνικές της βιβλιογραφίας.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2021-10-20-
Ημερομηνία Δημοσίευσης2021-
Θεματική ΚατηγορίαConcept Driften
Θεματική ΚατηγορίαRandom Foresten
Θεματική ΚατηγορίαApache Flinken
Βιβλιογραφική ΑναφοράVasileios Vittis " Online Ensemble Classification Algorithms of Big Data Streams at Apache Flink", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en
Βιβλιογραφική ΑναφοράΒασίλειος Βίττης, " Online Ensemble αλγόριθμοι ταξινόμησης Μεγάλων Ροών Δεδομένων στο Apache Flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά