Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Αποδοτική πρόβλεψη εξέλιξης παράλληλων καρκινικών προσομοιώσεων στο Apache Flink

Katara Sotiria-Maria

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/7C1B37F2-DF62-4993-983C-015E7159911E-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.90051-
Γλώσσαel-
Μέγεθος2.7 megabytesen
Μέγεθος74 σελίδεςel
ΤίτλοςΑποδοτική πρόβλεψη εξέλιξης παράλληλων καρκινικών προσομοιώσεων στο Apache Flinkel
ΤίτλοςEfficient forecasting of multiple concurrent cancer simulations with Apache Flinken
ΔημιουργόςKatara Sotiria-Mariaen
ΔημιουργόςΚαταρα Σωτηρια-Μαριαel
Συντελεστής [Επιβλέπων Καθηγητής]Deligiannakis Antoniosen
Συντελεστής [Επιβλέπων Καθηγητής]Δεληγιαννακης Αντωνιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Garofalakis Minosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Γαροφαλακης Μινωςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Samoladas Vasilisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Σαμολαδας Βασιληςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠεριγραφήΔιπλωματική εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης για την πλήρωση των προϋποθέσεων λήψης του Προπτυχιακού Διπλώματος Ειδίκευσηςel
ΠερίληψηΗ αλματώδης ανάπτυξη των υπολογιστικών συστημάτων, τόσο σταθερών όσο και κινητών, σε συνάρτηση με την ολοένα και μεγαλύτερη διείσδυση των ασύρματων και των ενσύρματων δικτύων έχουν ως συνέπεια την δημιουργία πολύ μεγάλων όγκων δεδομένων σε καθημερινή βάση. Η μελέτη των δεδομένων αυτών, επιτρέπει στους επιστήμονες τον εντοπισμό τάσεων και μοτίβων που μπορούν να χρησιμοποιηθούν για μελλοντικό όφελος. Ένας πολύ σημαντικός τομέας εφαρμογής των μελετών αυτών είναι στην Βιοπληροφορική και συγκεκριμένα στην πρόβλεψη της συμπεριφοράς ετερογενών πολυκυτταρικών συστημάτων, παρέχοντας τη δυνατότητα έγκαιρης λήψης αποφάσεων. Στόχος αυτής της διπλωματικής εργασίας είναι ο εντοπισμός των όμοιων χρονικών στιγμών ένος συνόλου παράλληλων προσομοιώσεων καρκινικών κυττάρων, με σκοπό την εξαγωγή κατάλληλων πληροφοριών που θα χρησιμοποιηθούν στην πρόβλεψη της συμπεριφοράς αυτών. Η εκπλήρωση του στόχου αυτού συναντά δύο πολύ σημαντικές προκλήσεις. Η υψηλή διαστασιμότητα των δεδομένων σε συνδυασμό με την δαπανηρή από άποψη χρόνου και μνήμης σύγκριση όλων των χρονικών στιγμών των χιλίων τετρακοσίων προσομοιώσεων απαιτούν την εφαρμογή ενός αλγόριθμου, του οποίου η λειτουργικότητα θα συνδυάζει την επίλυση των δύο αυτών πολύ σημαντικών προκλήσεων. Ο αλγόριθμος Random Hyperplane Projection του Locality Sensitive Hashing μπορεί να διευθετήσει και τις δύο προκλήσεις εφαρμόζοντας μείωση των διαστάσεων των δεδομένων σε μικρότερες, διατηρώντας παράλληλα την διαφορετικότητα αυτών, ενώ ταυτόχρονα αναλαμβάνει την ομαδοποίηση παρόμοιων αντικειμένων σε ίδιες ομάδες με μεγάλη πιθανότητα, μέσω της χρήσης κατάλληλων συναρτήσεων κατακερματισμού. Ζωτικής σημασίας είναι η κλιμακωσιμότητα της τεχνικής του αλγόριθμου που θα χρησιμοποιήσουμε, ώστε να επιτευχθεί η βέλτιστη χρονική απόδοση ως προς την εξαγωγή αποτελεσμάτων, παρά την αύξηση του όγκου των εισερχόμενων δεδομένων. Το ζητούμενο αυτό σε συνδυασμό με την ανάγκη για μείωση της χωρικής πολυπλοκότητας οδηγεί στην ανάπτυξη του αλγόριθμου σε μία μηχανή διατήρησης συνόψεων δεδομένων (Synopses Data Engine), η οποία είναι χτισμένη στο Apache Flink και έχει ως στόχο την υποστήριξη μεγάλης ποικιλίας συνόψεων και την προσθήκη νέων λειτουργιών κατά τον χρόνο εκτέλεσης παράλληλα και κατανεμημένα, παρέχοντας με αυτό τον τρόπο την λειτουργικότητα synopsis-as-a-service. Της εκτέλεσης του αλγόριθμου έπεται η ανάπτυξη ενός μαθηματικού μοντέλου πρόβλεψης με την μέθοδο της πολλαπλής γραμμικής παλινδρόμησης με σκοπό την πρόβλεψη της συμπεριφοράς στοιχείων του πολυκυτταρικού συστήματος. Η απόδοση του συστήματος ελέγχθηκε τοπικά και απομακρυσμένα - κατανεμημένα, αποδίδοντας θετικά αποτελέσματα.el
ΠερίληψηThe rapid growth of computer systems, both fixed and mobile, in relation with the growing penetration of wireless and wired networks have resulted in the creation of very large volumes of data on a daily basis. Studying this data allows scientists to identify trends and patterns that can be used for future benefit. A very important field of application of these studies is in Bioinformatics and specifically in the prediction of the behaviour of heterogeneous multicellular systems, providing the possibility of timely decision making. The aim of this diploma thesis is to identify the similar time points of a set of concurrent cancer cell simulations, in order to extract appropriate information that will be used to predict their behaviour. Achieving this goal faces two very important challenges. The high dimensionality of the data combined with the time-consuming and memory-costly comparison of all one thousand four hundred simulations of time require the application of an algorithm, the functionality of which will combine the solution of these two very important challenges. The Random Hyperplane Projection form of the Locality Sensitive Hashing algorithm can solve both challenges by reducing the size of the data to smaller ones, while maintaining their diversity, while at the same time undertaking the grouping of similar objects in the same groups with high probability, through the use of appropriate hash functions. Very important is the scalability of the algorithm technique we will use, in order to achieve the optimal time efficiency in terms of exporting results, despite the increase in the volume of incoming data. This, in combination with the need of reduction spatial complexity leads to the development of the algorithm in a Synopses Data Engine, which is built on Apache Flink and aims to support a wide variety of synopses and add new ones, at runtime, in parallel and distributed way, thus providing the synopsis-as-a- service functionality. The execution of the algorithm is followed by the development of a forecasting mathematical model with the method of multiple linear regression in order to predict the behaviour of elements of the multicellular system. The performance of the system was tested locally and remotely - distributed, yielding positive results.en
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2021-08-30-
Ημερομηνία Δημοσίευσης2021-
Θεματική ΚατηγορίαΣυνόψειςel
Θεματική ΚατηγορίαΠαράλληλο και κατανεμημένο σύστημαel
Θεματική ΚατηγορίαApache Flinken
Θεματική ΚατηγορίαΠρόβλεψη χρονοσειρώνel
Θεματική ΚατηγορίαΑλγόριθμος κατηγοριοποίησηςel
Βιβλιογραφική ΑναφοράΣωτηρία-Μαρία Κατάρα, "Αποδοτική πρόβλεψη εξέλιξης παράλληλων καρκινικών προσομοιώσεων στο Apache Flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el
Βιβλιογραφική ΑναφοράSotiria-Maria Katara, "Efficient forecasting of multiple concurrent cancer simulations with Apache Flink", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά