Το έργο με τίτλο Αλγόριθμοι πιθανοτικής θεματικής μοντελοποίησης για ανάλυση δεδομένων γονιδιακής έκφρασης από τον/τους δημιουργό/ούς Ntiniakou Thaleia διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Θάλεια Ντινιάκου, "Αλγόριθμοι πιθανοτικής θεματικής μοντελοποίησης για ανάλυση δεδομένων γονιδιακής έκφρασης", Μεταπτυχιακή Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019
https://doi.org/10.26233/heallink.tuc.83929
Ένα από τα πιο σημαντικά προβλήματα στην υπολογιστική βιολογία είναι η εξαγωγή γνώσης και ο εντοπισμός μοτίβων σε πραγματικά βιολογικά δεδομένα.Τα πειράματα με μικροσυστοιχίες γονιδίων, για παράδειγμα, αποσκοπούν στη μέτρηση της γονιδιακής έκφρασης, μια θεμελιώδους διαδικασίας μέσω της οποίας δημιουργούνται παράγωγα των γονιδίων, όπως οι πρωτεΐνες, και η οποία δημιουργεί τον φαινότυπο του γονιδίου.Η ανάλυση δεδομένων γονιδιακής έκφρασης μπορεί να οδηγήσει στον εντοπισμό γονιδίων ή ομάδων γονιδίων τα οποία σχετίζονται με την εμφάνιση συγκεκριμένων ασθενειών.Σε αυτή την μεταπτυχιακή εργασία, χρησιμοποιούμε Πιθανοτική Θεματική Μοντελοποίηση ( Probabilistic Topic Modeling - PTM), μια κατηγορία αλγορίθμων μη επιβλεπόμενης μάθησης, για την ανάλυση δεδομένων γονιδιακής έκφρασης.Αν και αυτές οι μέθοδοι πρωτοεφαρμόστηκαν για την εξαγωγή λανθάνοντων "θεμάτων'' σε κείμενα, εδώ χρησιμοποιούνται για την ανακάλυψη γονιδιακών μοτίβων υπεύθυνων για βιολογικές διαδικασίες που μπορούν να πυροδοτήσουν συγκεκριμένες παθήσεις.Πιο αναλυτικά, η παρούσα μεταπτυχιακή μελέτη συνεισφέρει ένα γενικό πλαίσιο εργασίας, το οποίο επιτρέπει την χρήση οποιουδήποτε PTM αλγορίθμου για ανάλυση δεδομένων γονιδιακής έκφρασης.Το πλαίσιο αυτό επιτρέπει την ενσωμάτωση τεχνικών προ-επεξεργασίας και μετασχηματισμού των γονιδιακών δεδομένων, ώστε να εκφραστούν σε συμφωνία με το πρότυπο αναπαράστασης κειμένου ``σύνολο λέξεων (bag of words)'', το οποίο απαιτούν ως είσοδο οι περισσότεροι PTM αλγόριθμοι.Μετά από αυτόν τον (ενδεχόμενο) μετασχηματισμό των δεδομένων εισόδου, το πλαίσιο επιτρέπει την εκτέλεση του όποιου επιλεγμένου PTM αλγορίθμου ώστε να εξαχθούν τα ``πιθανοτικά θέματα’’ (probabilistic topics), δηλαδή οι κρυφές πιθανοτικές κατανομές που ακολουθούν τα γονίδια (λέξεις), και οι οποίες διέπουν την δημιουργία βιολογικών δειγμάτων (κείμενα).Τα θέματα που έχουν εξαχθεί στην συνέχεια χρησιμοποιούνται για την μείωση των διαστάσεων του χώρου γνωρισμάτων, και πιο συγκεκριμένα την επιλογή και εξαγωγή των πλέον σημαντικών γνωρισμάτων (γονιδίων) που χαρακτηρίζουν τα βιολογικά δείγματα.Τέλος, το προτεινόμενο πλαίσιο επιτρέπει τη χρήση μοντέρνων εργαλείων για την οπτικοποίηση των εξαχθέντων θεμάτων.Έχουμε ήδη υλοποιήσει και εντάξει στο προτεινόμενο πλαίσιο ένα σύνολο από τεχνικές μετασχηματισμού δεδομένων, καθώς και δύο αλγορίθμους PTM: τον Latent Dirichlet Allocation (LDA), μια εδραιωμένη τεχνική PTM, και τον Latent Process Decomposition (LPD), έναν αλγόριθμο που προτάθηκε σχετικά πρόσφατα στη βιβλιογραφία, συγκεκριμένα για ανάλυση μικροσυστοιχιών γονιδίων.Μία από της μεθόδους μετασχηματισμού που χρησιμοποιούμε είναι εντελώς καινοτόμα, και σχεδιασμένη στα πλαίσια αυτής της εργασίας, συγκεκριμένα για το πρόβλημα που έχουμε να αντιμετωπίσουμε.Επιπλέον, προτείνουμε την καινοτόμα χρήση δυο γνωστών μετρικών (της ``KL-divergence'' και του ``Relevance Score''), για να συνδράμουν στην επιλογή των γνωρισμάτων.Διεξάγουμε μια συστηματική αξιολόγηση των τεχνικών για επιλογή και εξαγωγή γνωρισμάτων σε αυτό το πρόβλημα, χρησιμοποιώντας δυο πραγματικά σύνολα δεδομένων γονιδιακής έκφρασης-- ένα σετ δεδομένων που σχετίζεται με ασθένειες μυϊκού ιστού, καθώς και ένα ευρέως χρησιμοποιούμενο σετ δεδομένων σχετικό με τον καρκίνο του μαστού.Τα αποτελέσματά μας εν γένει υποδεικνύουν ότι οι αλγόριθμοι PTM μπορεί να είναι αρκετά αποτελεσματικοί όσον αφορά την μείωση των διαστάσεων των δεδομένων σε αυτό το πρόβλημα, παρουσιάζοντας επιδόσεις που είναι συνήθως τουλάχιστον συγκρίσιμες με εκείνες γνωστών εναλλακτικών αλγορίθμων που χρησιμοποιήθηκαν για την αξιολόγηση. Η απόδοση του αλγορίθμου LPD συγκεκριμένα όσον αφορά το πρόβλημα ‘’εξαγωγής γνωρισμάτων’’ (feature selection) είναι ιδιαίτερα αξιοσημείωτη.Επιπροσθέτως, η εργασία μας καταλήγει σε ενδιαφέροντα συμπεράσματα σχετικά με την αποτελεσματικότητα των διάφορων μεθόδων μετασχηματισμού των δεδομένων όταν αυτές συνδυάζονται με τον αλγόριθμο LDA.Τέλος, η μεταπτυχιακή αυτή εργασία εκτός των άλλων αναδεικνύει το γεγονός πως η χρήση PTM αλγορίθμων συμβάλει στην οπτικοποίηση των κρυμμένων και υποβόσκοντων γενετικών μοτίβων που ενεργοποιούνται στην διαδικασία της γονιδιακής έκφρασης. Με βάση και αυτό το γεγονός, η χρήση του προτεινόμενου πλαισίου πιθανοτικής θεματικής μοντελοποίησης μπορεί να παρέχει σημαντική βοήθεια στους βιολόγους που επιχειρούν να αναγνωρίσουν ενδιαφέρουσες τάξεις γονιδίων (πραγματοποιώντας εργασίες γονιδιακού σχολιασμού και εμπλουτισμού).