URI | http://purl.tuc.gr/dl/dias/A81D9990-AD11-489D-90B6-CD763D806898 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.87871 | - |
Γλώσσα | en | - |
Μέγεθος | 6 megabytes | en |
Μέγεθος | 73 pages | en |
Τίτλος | Heterogeneous computing for large-scale linkage-disequilibrium analyses on the Aris supercomputer
| en |
Τίτλος | Ετερογενής υπολογισμός για τη μελέτη της ανισορροπίας γενετικής σύνδεσης σε αναλύσεις μεγάλης κλίμακας με τη χρήση του υπερυπολογιστή Aris | el |
Δημιουργός | Theodoris Charalabos | en |
Δημιουργός | Θεοδωρης Χαραλαμπος | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Dollas Apostolos | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Δολλας Αποστολος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Alachiotis Nikolaos | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Αλαχιωτης Νικολαος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Samoladas Vasilis | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Σαμολαδας Βασιλης | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | Linkage disequilibrium (LD) is the non-random association between alleles at different loci. In the field of Genomics, due to several breakthroughs in DNA extraction and sequencing technologies, huge databanks of genomic data have been created, and continue to grow every day. Along with said data, grows the need for a highly-performing solution in analyzing them. The prevailing analysis method of calculation for the LD in genomes uses single nucleotide polymorphisms (SNPs) to detect the absence and/or presence of minor alleles. Most software implementations to-date are not yet capable to efficiently manage the expected time and memory requirements of future large-scale genomic analyses. To answer the need for fast, scalable genomic analysis, we engineered and created a standalone software, qLD (quickLD) https://github.com/StrayLamb2/qLD. qLD relies on prior observations that a high-performance approach on LD can utilize general matrix multiplications. Therefore, existing optimized computational kernels that calculate LD are employed. Alongside the optimized kernels, qLD applies memory-aware techniques to lower memory requirements and parallel execution using both CPU and GPU to reduce execution times even more. qLD in single-thread execution delivers up to 28x faster processing than the current state-of-the-art software implementation when run on the same CPU and up to 44x when the computation is offloaded to a GPU. When used in multi-threaded executions, we observed speedups of up to 60x against the same state-of-the-art software, employing the same number of threads. qLD also addresses a missing feature of state-of-the-art tools, the ability to quantify allele associations between arbitrarily distant loci, thereby facilitating the evaluation of long-range LD and the detection of co-evolved genes. We showcase qLD on the analysis of 22,554 complete SARS-CoV-2 genomes.
| en |
Περίληψη | Η Ανισορροπία Γενετικής Σύνδεσης (LD) είναι η μη τυχαία συσχέτιση μεταξύ αλληλόμορφων σε διαφορετικούς τόπους στο γονιδίωμα. Στον τομέα της Γονιδιωματικής, λόγω των τελευταίων ανακαλύψεων στην τεχνολογία εξαγωγής και προσδιορισμού DNA, έχουν δημιουργηθεί τεράστιες τράπεζες γονιδιωματικών δεδομένων, οι οποίες αυξάνουν τον αριθμό των καταχωρήσεών τους καθημερινά. Παράλληλα, δημιουργείται η ανάγκη για την αποδοτική ανάλυσή τους με βάση τα νέα μεγέθη. Η επικρατούσα μέθοδος ανάλυσης για τον υπολογισμό του LD στα γονιδιώματα χρησιμοποιεί πολυμορφισμούς μονού νουκλεοτιδίου (SNPs) για την ανίχνευση της απουσίας ή/και παρουσίας δευτερευόντων αλληλίων. Οι κύριες υλοποιήσεις λογισμικού μέχρι σήμερα δεν είναι φτιαγμένες για να διαχειριστούν αποτελεσματικά τις επερχόμενες απαιτήσεις χρόνου/μνήμης των μελλοντικών αναλύσεων μεγάλης κλίμακας. Για την κάλυψη αυτής της ανάγκης, δημιουργήθηκε η αυτόνομη εφαρμογή qLD (quickLD) https://github.com/StrayLamb2/qLD. Το qLD βασίζεται στην παρατήρηση ότι το LD μπορεί να υπολογιστεί με μεγάλη απόδοση κάνοντας χρήση μεθόδων πολλαπλασιασμού πινάκων, και χρησιμοποιεί υπάρχοντες βελτιστοποιημένους υπολογιστικούς πυρήνες. Μαζί τους πυρήνες, το qLD χρησιμοποιεί τεχνικές διαχείρισης της μνήμης και δυνατότητα παράλληλης εκτέλεσης με ταυτόχρονη χρήση επεξεργαστή και κάρτας γραφικών, για περαιτέρω μείωση των χρόνων ανάλυσης. Σε εκτελέσεις ενός νήματος, το qLD επιτυγχάνει έως και 28 φορές ταχύτερη επεξεργασία από το τρέχον πρόγραμμα τελευταίας τεχνολογίας σε εκτέλεση στον επεξεργαστή, ενώ με τη χρήση της κάρτας γραφικών η εκτέλεση είναι έως και 44 φορές ταχύτερη. Σε εκτελέσεις με πολλαπλά νήματα, επιτύχαμε 60 φορές ταχύτερη επεξεργασία έναντι του ίδιου λογισμικού, αξιοποιώντας τον ίδιο αριθμό νημάτων. Επιπροσθέτως, το qLD συμπληρώνει ένα κενό των εργαλείων τελευταίας τεχνολογίας, παρέχοντας τη δυνατότητα συσχέτισης μεταξύ αυθαίρετων, απομακρυσμένων περιοχών στο γονιδίωμα, διευκολύνοντας έτσι την αξιολόγηση του LD σε δεδομένα μεγάλης εμβέλειας, και την ανίχνευση των συν-εξελιγμένων γονιδίων. Για την παρουσίαση της ανάλυσης του qLD σε πραγματικά δεδομένα, χρησιμοποιήσαμε σετ δεδομένων με 22,554 πλήρη γονιδιώματα του SARS-CoV-2. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by-sa/4.0/ | en |
Ημερομηνία | 2020-12-29 | - |
Ημερομηνία Δημοσίευσης | 2020 | - |
Θεματική Κατηγορία | Υψηλή απόδοση | el |
Θεματική Κατηγορία | High performance | en |
Θεματική Κατηγορία | Linkage Disequilibrium | en |
Θεματική Κατηγορία | Γενετική Ανισορροπία | el |
Θεματική Κατηγορία | Heterogeneous Computing | en |
Θεματική Κατηγορία | Ετερογενής Υπολογισμός | el |
Θεματική Κατηγορία | Κάρτα Γραφικών | el |
Θεματική Κατηγορία | GPU | en |
Θεματική Κατηγορία | Επεξεργαστής | el |
Θεματική Κατηγορία | CPU | en |
Βιβλιογραφική Αναφορά | Charalabos Theodoris, "Heterogeneous computing for large-scale linkage-disequilibrium analyses on the Aris supercomputer", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2020 | en |
Βιβλιογραφική Αναφορά | Χαράλαμπος Θεοδωρής, "Ετερογενής υπολογισμός για τη μελέτη της ανισορροπίας γενετικής σύνδεσης σε αναλύσεις μεγάλης κλίμακας με τη χρήση του υπερυπολογιστή Aris", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020 | el |