Institutional Repository [SANDBOX]
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Efficient forecasting of multiple concurrent cancer simulations with Apache Flink

Katara Sotiria-Maria

Simple record


URIhttp://purl.tuc.gr/dl/dias/7C1B37F2-DF62-4993-983C-015E7159911E-
Identifierhttps://doi.org/10.26233/heallink.tuc.90051-
Languageel-
Extent2.7 megabytesen
Extent74 σελίδεςel
TitleΑποδοτική πρόβλεψη εξέλιξης παράλληλων καρκινικών προσομοιώσεων στο Apache Flinkel
TitleEfficient forecasting of multiple concurrent cancer simulations with Apache Flinken
CreatorKatara Sotiria-Mariaen
CreatorΚαταρα Σωτηρια-Μαριαel
Contributor [Thesis Supervisor]Deligiannakis Antoniosen
Contributor [Thesis Supervisor]Δεληγιαννακης Αντωνιοςel
Contributor [Committee Member]Garofalakis Minosen
Contributor [Committee Member]Γαροφαλακης Μινωςel
Contributor [Committee Member]Samoladas Vasilisen
Contributor [Committee Member]Σαμολαδας Βασιληςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
DescriptionΔιπλωματική εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολυτεχνείου Κρήτης για την πλήρωση των προϋποθέσεων λήψης του Προπτυχιακού Διπλώματος Ειδίκευσηςel
Content SummaryΗ αλματώδης ανάπτυξη των υπολογιστικών συστημάτων, τόσο σταθερών όσο και κινητών, σε συνάρτηση με την ολοένα και μεγαλύτερη διείσδυση των ασύρματων και των ενσύρματων δικτύων έχουν ως συνέπεια την δημιουργία πολύ μεγάλων όγκων δεδομένων σε καθημερινή βάση. Η μελέτη των δεδομένων αυτών, επιτρέπει στους επιστήμονες τον εντοπισμό τάσεων και μοτίβων που μπορούν να χρησιμοποιηθούν για μελλοντικό όφελος. Ένας πολύ σημαντικός τομέας εφαρμογής των μελετών αυτών είναι στην Βιοπληροφορική και συγκεκριμένα στην πρόβλεψη της συμπεριφοράς ετερογενών πολυκυτταρικών συστημάτων, παρέχοντας τη δυνατότητα έγκαιρης λήψης αποφάσεων. Στόχος αυτής της διπλωματικής εργασίας είναι ο εντοπισμός των όμοιων χρονικών στιγμών ένος συνόλου παράλληλων προσομοιώσεων καρκινικών κυττάρων, με σκοπό την εξαγωγή κατάλληλων πληροφοριών που θα χρησιμοποιηθούν στην πρόβλεψη της συμπεριφοράς αυτών. Η εκπλήρωση του στόχου αυτού συναντά δύο πολύ σημαντικές προκλήσεις. Η υψηλή διαστασιμότητα των δεδομένων σε συνδυασμό με την δαπανηρή από άποψη χρόνου και μνήμης σύγκριση όλων των χρονικών στιγμών των χιλίων τετρακοσίων προσομοιώσεων απαιτούν την εφαρμογή ενός αλγόριθμου, του οποίου η λειτουργικότητα θα συνδυάζει την επίλυση των δύο αυτών πολύ σημαντικών προκλήσεων. Ο αλγόριθμος Random Hyperplane Projection του Locality Sensitive Hashing μπορεί να διευθετήσει και τις δύο προκλήσεις εφαρμόζοντας μείωση των διαστάσεων των δεδομένων σε μικρότερες, διατηρώντας παράλληλα την διαφορετικότητα αυτών, ενώ ταυτόχρονα αναλαμβάνει την ομαδοποίηση παρόμοιων αντικειμένων σε ίδιες ομάδες με μεγάλη πιθανότητα, μέσω της χρήσης κατάλληλων συναρτήσεων κατακερματισμού. Ζωτικής σημασίας είναι η κλιμακωσιμότητα της τεχνικής του αλγόριθμου που θα χρησιμοποιήσουμε, ώστε να επιτευχθεί η βέλτιστη χρονική απόδοση ως προς την εξαγωγή αποτελεσμάτων, παρά την αύξηση του όγκου των εισερχόμενων δεδομένων. Το ζητούμενο αυτό σε συνδυασμό με την ανάγκη για μείωση της χωρικής πολυπλοκότητας οδηγεί στην ανάπτυξη του αλγόριθμου σε μία μηχανή διατήρησης συνόψεων δεδομένων (Synopses Data Engine), η οποία είναι χτισμένη στο Apache Flink και έχει ως στόχο την υποστήριξη μεγάλης ποικιλίας συνόψεων και την προσθήκη νέων λειτουργιών κατά τον χρόνο εκτέλεσης παράλληλα και κατανεμημένα, παρέχοντας με αυτό τον τρόπο την λειτουργικότητα synopsis-as-a-service. Της εκτέλεσης του αλγόριθμου έπεται η ανάπτυξη ενός μαθηματικού μοντέλου πρόβλεψης με την μέθοδο της πολλαπλής γραμμικής παλινδρόμησης με σκοπό την πρόβλεψη της συμπεριφοράς στοιχείων του πολυκυτταρικού συστήματος. Η απόδοση του συστήματος ελέγχθηκε τοπικά και απομακρυσμένα - κατανεμημένα, αποδίδοντας θετικά αποτελέσματα.el
Content SummaryThe rapid growth of computer systems, both fixed and mobile, in relation with the growing penetration of wireless and wired networks have resulted in the creation of very large volumes of data on a daily basis. Studying this data allows scientists to identify trends and patterns that can be used for future benefit. A very important field of application of these studies is in Bioinformatics and specifically in the prediction of the behaviour of heterogeneous multicellular systems, providing the possibility of timely decision making. The aim of this diploma thesis is to identify the similar time points of a set of concurrent cancer cell simulations, in order to extract appropriate information that will be used to predict their behaviour. Achieving this goal faces two very important challenges. The high dimensionality of the data combined with the time-consuming and memory-costly comparison of all one thousand four hundred simulations of time require the application of an algorithm, the functionality of which will combine the solution of these two very important challenges. The Random Hyperplane Projection form of the Locality Sensitive Hashing algorithm can solve both challenges by reducing the size of the data to smaller ones, while maintaining their diversity, while at the same time undertaking the grouping of similar objects in the same groups with high probability, through the use of appropriate hash functions. Very important is the scalability of the algorithm technique we will use, in order to achieve the optimal time efficiency in terms of exporting results, despite the increase in the volume of incoming data. This, in combination with the need of reduction spatial complexity leads to the development of the algorithm in a Synopses Data Engine, which is built on Apache Flink and aims to support a wide variety of synopses and add new ones, at runtime, in parallel and distributed way, thus providing the synopsis-as-a- service functionality. The execution of the algorithm is followed by the development of a forecasting mathematical model with the method of multiple linear regression in order to predict the behaviour of elements of the multicellular system. The performance of the system was tested locally and remotely - distributed, yielding positive results.en
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2021-08-30-
Date of Publication2021-
SubjectΣυνόψειςel
SubjectΠαράλληλο και κατανεμημένο σύστημαel
SubjectApache Flinken
SubjectΠρόβλεψη χρονοσειρώνel
SubjectΑλγόριθμος κατηγοριοποίησηςel
Bibliographic CitationΣωτηρία-Μαρία Κατάρα, "Αποδοτική πρόβλεψη εξέλιξης παράλληλων καρκινικών προσομοιώσεων στο Apache Flink", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el
Bibliographic CitationSotiria-Maria Katara, "Efficient forecasting of multiple concurrent cancer simulations with Apache Flink", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021en

Available Files

Services

Statistics