Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Εύρεση συσχετισμένων γνωρισμάτων σε σετ δεδομένων στο flink

Anastasiou Michalis

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/3EEF5888-54C6-48F8-A416-4C6AAF85F504-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.96534-
Γλώσσαel-
Μέγεθος1.4 megabytesen
Μέγεθος52 σελίδεςel
ΤίτλοςΕύρεση συσχετισμένων γνωρισμάτων σε σετ δεδομένων στο flinkel
ΤίτλοςFinding correlated attributes in datasets at flinκen
ΔημιουργόςAnastasiou Michalisen
ΔημιουργόςΑναστασιου Μιχαληςel
Συντελεστής [Επιβλέπων Καθηγητής]Deligiannakis Antoniosen
Συντελεστής [Επιβλέπων Καθηγητής]Δεληγιαννακης Αντωνιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Samoladas Vasilisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Σαμολαδας Βασιληςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Garofalakis Minosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Γαροφαλακης Μινωςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηΗ ταχεία ανάπτυξη της τεχνολογίας επιφέρει τεράστιο όγκο δεδομένων σε καθημερινή βάση. Πρόκειται για δεδομένα, των οποίων ο όγκος είναι δέκα φορές μεγαλύτερος σε σχέση με τον αντίστοιχο πριν από 5 χρόνια. Άρα, δικαίως, η σύγχρονη εποχή χαρακτηρίζεται και ως εποχή των μεγάλων Δεδομένων (Big Data). Η μελέτη αυτών των δεδομένων είναι απαραίτητη τόσο σε ακαδημαϊκό επίπεδο όσο και στις διάφορες βιομηχανίες, αφού μέσω αυτής μπορούν να εξαχθούν συμπεράσματα πολύ πιο εύκολα. Στόχος αυτής της διπλωματικής είναι η εύρεση συσχετισμένων δεδομένων σε πραγματικό χρόνο με σκοπό την εξαγωγή δεδομένων, που μπορούν να χρησιμοποιηθούν για την πρόβλεψη ομοιότητας. Καθώς υπάρχει τεράστιος όγκος δεδομένων, η παρούσα διπλωματική εργασία επεξεργάζεται κατανεμημένα και παράλληλα χιλιάδες ροές δεδομένων με σκοπό την εύρεση των k πιο όμοιων ροών. Ο υπολογισμός ομοιότητας χιλιάδων ροών δεδομένων με μεγάλο μέγεθος θα ήταν πάρα πολύ δαπανηρός, για αυτό έπρεπε να εφαρμοστεί ένας αλγόριθμος για δειγματοληψία των δεδομένων με απώτερο σκοπό την σμίκρυνση τους χωρίς τον κίνδυνο, όμως, απώλειας πληροφορίας. Ο αλγόριθμος αυτός αναπτύχθηκε στην πλατφόρμα διατήρησης συνόψεων δεδομένων (Synopses Data Engine). Η πλατφόρμα αύτη είναι κτισμένη στο framework Apache Flink, και έχει ως κύρια λειτουργία την υποστήριξη διάφορων συνόψεων, οι οποίες λειτουργούν παράλληλα και κατανεμημένα σε πραγματικό χρόνο εκτέλεσης. Έπειτα από την ολοκλήρωση του αλγορίθμου για την σύνοψη, ακολούθησε το μαθηματικό μοντέλο για την εύρεση την ομοιότητας ανάμεσα στις συνόψεις. Το μαθηματικό μοντέλο αποτελείται από το Pearson Correlation συνυπολογίζοντας το τυπικό σφάλμα της δειγματοληψίας χρησιμοποιώντας τον μετασχηματισμό Fisher Z. Για την αποτελεσματικότητα και ορθότητα του συστήματος σχεδιάστηκε, αρχικά, τοπικά όπου έγιναν πειράματα και επαληθεύτηκε η σωστή λειτουργία. Έπειτα, ελέγχθηκε απομακρυσμένα και κατανεμημένα, όπου έγιναν τα τελικά πειράματα, πετυχαίνοντας θετικά και ικανοποιητικά αποτελέσματα.el
ΠερίληψηThe rapid development of technology has brought about a huge amount of data on a daily basis. This is data whose volume is ten times greater than it was 5 years ago. So the modern era is rightly described as the era of Big Data. The study of this data is essential both at the academic level and in various industries, since by studying this data, one can draw conclusions much easier. The aim of this thesis is to find correlated data in real-time in order to extract data that can be used to predict similarity. Due to the fact that, as mentioned before, there is a huge amount of data this thesis processes distributed and parallel thousands of data streams in order to find the k most similar streams. Computing the similarity of thousands of data streams with a large size would be too costly to implement an algorithm for sampling the data with the ultimate goal of reducing the data size but without the risk of information loss. This algorithm was developed within the Synopses Data Engine. This platform is built on top of the Apache Flink framework, and its main function is to support several synopses running in parallel and distributed in real time. After completing the algorithm for the synopsis, the mathematical model for finding the similarity between the synopses was followed. The mathematical model consists of Pearson Correlation plus the standard error of sampling using the Fisher Z transformation. For the efficiency and correctness of the system was initially designed locally where experiments were conducted and verified. It was then tested remotely and distributed where final experiments were conducted, achieving positive and satisfactory results.en
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2023-07-17-
Ημερομηνία Δημοσίευσης2023-
Θεματική ΚατηγορίαFlinken
Θεματική ΚατηγορίαCorrelated columnsen
Βιβλιογραφική ΑναφοράΜιχάλης Αναστασίου, "Εύρεση συσχετισμένων γνωρισμάτων σε σετ δεδομένων στο flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023el
Βιβλιογραφική ΑναφοράMichalis Anastasiou, "Finding correlated attributes in datasets at flinκ", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2023en

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά