Το έργο με τίτλο Εύρεση συσχετισμένων γνωρισμάτων σε σετ δεδομένων στο flink από τον/τους δημιουργό/ούς Anastasiou Michalis διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Μιχάλης Αναστασίου, "Εύρεση συσχετισμένων γνωρισμάτων σε σετ δεδομένων στο flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023
https://doi.org/10.26233/heallink.tuc.96534
Η ταχεία ανάπτυξη της τεχνολογίας επιφέρει τεράστιο όγκο δεδομένων σε καθημερινή βάση. Πρόκειται για δεδομένα, των οποίων ο όγκος είναι δέκα φορές μεγαλύτερος σε σχέση με τον αντίστοιχο πριν από 5 χρόνια. Άρα, δικαίως, η σύγχρονη εποχή χαρακτηρίζεται και ως εποχή των μεγάλων Δεδομένων (Big Data). Η μελέτη αυτών των δεδομένων είναι απαραίτητη τόσο σε ακαδημαϊκό επίπεδο όσο και στις διάφορες βιομηχανίες, αφού μέσω αυτής μπορούν να εξαχθούν συμπεράσματα πολύ πιο εύκολα. Στόχος αυτής της διπλωματικής είναι η εύρεση συσχετισμένων δεδομένων σε πραγματικό χρόνο με σκοπό την εξαγωγή δεδομένων, που μπορούν να χρησιμοποιηθούν για την πρόβλεψη ομοιότητας. Καθώς υπάρχει τεράστιος όγκος δεδομένων, η παρούσα διπλωματική εργασία επεξεργάζεται κατανεμημένα και παράλληλα χιλιάδες ροές δεδομένων με σκοπό την εύρεση των k πιο όμοιων ροών. Ο υπολογισμός ομοιότητας χιλιάδων ροών δεδομένων με μεγάλο μέγεθος θα ήταν πάρα πολύ δαπανηρός, για αυτό έπρεπε να εφαρμοστεί ένας αλγόριθμος για δειγματοληψία των δεδομένων με απώτερο σκοπό την σμίκρυνση τους χωρίς τον κίνδυνο, όμως, απώλειας πληροφορίας. Ο αλγόριθμος αυτός αναπτύχθηκε στην πλατφόρμα διατήρησης συνόψεων δεδομένων (Synopses Data Engine). Η πλατφόρμα αύτη είναι κτισμένη στο framework Apache Flink, και έχει ως κύρια λειτουργία την υποστήριξη διάφορων συνόψεων, οι οποίες λειτουργούν παράλληλα και κατανεμημένα σε πραγματικό χρόνο εκτέλεσης. Έπειτα από την ολοκλήρωση του αλγορίθμου για την σύνοψη, ακολούθησε το μαθηματικό μοντέλο για την εύρεση την ομοιότητας ανάμεσα στις συνόψεις. Το μαθηματικό μοντέλο αποτελείται από το Pearson Correlation συνυπολογίζοντας το τυπικό σφάλμα της δειγματοληψίας χρησιμοποιώντας τον μετασχηματισμό Fisher Z. Για την αποτελεσματικότητα και ορθότητα του συστήματος σχεδιάστηκε, αρχικά, τοπικά όπου έγιναν πειράματα και επαληθεύτηκε η σωστή λειτουργία. Έπειτα, ελέγχθηκε απομακρυσμένα και κατανεμημένα, όπου έγιναν τα τελικά πειράματα, πετυχαίνοντας θετικά και ικανοποιητικά αποτελέσματα.