Το έργο με τίτλο Επεξεργασία ροών δεδομένων στο υπολογιστικό νέφος για την ανίχνευση ανωμαλιών από τον/τους δημιουργό/ούς Kostalia Elisavet-Elli διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Ελισάβετ-Έλλη Κωσταλία, "Επεξεργασία ροών δεδομένων στο υπολογιστικό νέφος για την ανίχνευση ανωμαλιών", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019
https://doi.org/10.26233/heallink.tuc.82295
Τα τελευταία χρόνια, η επεξεργασία ροών δεδομένων έχει γίνει εξαιρετικά δημοφιλής, κυρίως λόγω της εποχής του μεγάλου όγκου δεδομένων και του αυξανόμενου αριθμού μικροϋπηρεσιών και συσκευών στο Διαδίκτυο των Πραγμάτων, επομένως η ανάπτυξη, υλοποίηση και διαχείριση των κατανεμημένων υπηρεσιών είναι πιο σημαντική από ποτέ. Τα δεδομένα αποθηκεύονται και αναλύονται για να παρέχουν προβλέψιμα αποτελέσματα τα οποία θα μπορούν να αποτελέσουν μέσο αποφάσεων, μέσω πλατφορμών, όπως το Apache Storm, που επιτρέπει τoν κατανεμημένo υπολογισμό του μεγάλου όγκου δεδομένων σε πραγματικό χρόνο που εισέρχονται με εξαιρετικά γρήγορους ρυθμούς, από διαφορετικές πηγές. Οι μη λειτουργικές απαιτήσεις συχνά απαιτούν μια εξαιρετικά διαθέσιμη, υψηλής απόδοσης, fault-tolerant και μαζικά κλιμακούμενη λύση. Στη λειτουργία του Apache Storm έρχεται να προστεθεί και το Apache Kafka το οποίο χρησιμοποιείται ως σύστημα publish-subscribe messaging που θα λειτουργεί ως broker μεταξύ των διαφόρων πηγών δεδομένων. Όλες οι παραπάνω υπηρεσίες μπορούν να επιτύχουν την υψηλότερη αποτελεσματικότητα τους όταν αναπτυχθούν σε περιβάλλον containers αφού η ανάπτυξη εφαρμογών σε containers παρέχει τις δυνατότητες μιας κατανεμημένης εφαρμογής, αφού κάθε container λειτουργεί ανεξάρτητα από τα υπόλοιπα, χρησιμοποιώντας ελάχιστους πόρους από τον κεντρικό υπολογιστή και προσφέροντας ασφάλεια και ευελιξία. Με αυτόν τον τρόπο, η συγκεκριμένη εφαρμογή εκμεταλλεύεται τα πλεονεκτήματα της εικονοποίησης και του προγραμματισμού στο υπολογιστικό νέφος. Πραγματοποιήσαμε διάφορα πειράματα με βάση ένα προσομοιωμένο (αλλά ρεαλιστικό) σενάριο χρήσης. Η εργασία εκτελέστηκε σε ένα κατανεμημένο cluster Apache Storm σε πραγματικό χρόνο που επεξεργάζεται εισερχόμενα πακέτα δεδομένων δικτύου και χρησιμοποιεί αλγόριθμους Machine Learning και ως classifiers δέντρα αποφάσεων για την ανίχνευση εισβολέων. Τα πειραματικά αποτελέσματα καταδεικνύουν ότι το σύστημά μας ανταποκρίνεται στις αυξανόμενες απαιτήσεις πόρων της εφαρμογής που οδηγούν σε σημαντικά ταχύτερους χρόνους απόκρισης καθώς αυξάνεται ο αριθμός των workers και αξιοποιείται το κατανεμημένο σύστημα, σε σύγκριση με μια μη κατανεμημένη υλοποίηση όπου όλα τα αιτήματα για κλήση υπηρεσιών απασχολούνται από το μέγιστο αριθμό προκαθορισμένων υπολογιστικών πόρων.