Το έργο με τίτλο Online Ensemble αλγόριθμοι ταξινόμησης Μεγάλων Ροών Δεδομένων στο Apache Flink από τον/τους δημιουργό/ούς Vittis Vasileios διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Βασίλειος Βίττης, " Online Ensemble αλγόριθμοι ταξινόμησης Μεγάλων Ροών Δεδομένων στο Apache Flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021
https://doi.org/10.26233/heallink.tuc.90722
Η αυξανόμενη ανάγκη λήψης αποφάσεων με υψηλή ακρίβεια σε πραγματικό χρόνο από δυναμικά δεδομένα, δημιουργεί την ανάγκη δημιουργίας σύγχρονων συστημάτων, ικανά να ανταπεξέλθουν σε όλων των ειδών προβλημάτων. Έτσι, οι απαιτήσεις που παράγονται από τον όγκο και τον ρυθμό και την αλλαγή των δεδομένων καθιστούν τα κλασσικά συστήματα μη αποδοτικά, με αποτέλεσμα να δημιουργείται χώρος για συστήματα που επεξεργάζονται τα δεδομένα μόνο μια φορά, χωρίς την ανάγκη αποθήκευσης τους. Τα συλλογικά συστήματα εκμάθησης (Ensemble Systems), αποτελούνται από επιμέρους υποσυστήματα με διαφορετικά χαρακτηριστικά, συμμετέχοντας στην διαδικασία ψηφοφορίας με σκοπό την λήψη της τελικής απόφασης. Η κορωνίδα αυτών των υποσυστημάτων είναι o state-of-the-art αλγόριθμος δένδρων αποφάσεων, Hoeffding Tree, λόγω της απλής κατασκευής τους και των λιγότερων υποθέσεων που κάνουν. Σημαντικό είναι τέτοιου είδους μοντέλα να εκμεταλλεύονται τα διαθέσιμα κατανεμημένα περιβάλλοντα, έτσι ώστε να επιταχυνθεί αποτελεσματικά η διαδικασία εκμάθησης. Στη συγκεκριμένη διπλωματική εργασίας, δημιουργούμε ένα κατανεμημένο συλλογικό σύστημα δυαδικών αποφάσεων, αποτελούμενο από Hoeffding Trees, δημιουργώντας ένα Random Forest. Ύστερα παρατηρήσεων σχετικά με τον χρόνο απόκρισής και χώρο ανάπτυξης του συγκεκριμένου συστήματος, υλοποιήθηκαν τεχνικές που στοχευμένα λύνουν τέτοιου είδους προβλήματα. Τα αποτελέσματα της πειραματικής διαδικασίας επιβεβαιώνουν την προτεινόμενη μεθοδολογία, όταν συγκρίνονται με αντίστοιχες τεχνικές της βιβλιογραφίας.