Η εφαρμογή μεθόδων μηχανικής μάθησης για την ανάλυση δεδομένων από μικροσυστοιχίες DNA έχει γίνει κοινή πρακτική στον τομέα της βιοπληροφορικής. Μικροσυστοιχίες DNA χρησιμοποιούνται προκειμένου να μετρηθεί ταυτόχρονα η τιμή έκφρασης χιλιάδων γονιδίων. Λαμβάνοντας υπ'όψιν τις μετρήσεις της γονιδιακής έκφρασης, μέθοδοι μηχανικής μάθησης μπορούν να χρησιμοποιηθούν για τον εντοπισμό υποψήφιων γονιδίων που σχετίζονται με μία βιολογική κατάσταση ή φαινότυπο ενδιαφέροντος, όπως ο καρκίνος. Αυτές οι λίστες των υποψήφιων γονιδίων συχνά αποκαλούνται “γονιδιακές υπογραφές” στη βιβλιογραφία. Η εφαρμογή των μεθόδων μηχανικής μάθησης για την εξαγωγή γονιδιακών υπογραφών είναι αναγκαία, δεδομένου ότι είναι πρακτικά αδύνατο για τους εμπειρογνώμονες να αξιολογήσουν τη σημασία του κάθε γονιδίου ξεχωριστά, λόγω του μεγάλου μεγέθους του γονιδιώματος, το οποίο αποτελείται από περίπου 25.000 γονίδια. Μέθοδοι μηχανικής μάθησης όπως μέθοδοι επιλογής χαρακτηριστικών και μέθοδοι ταξινόμησης αποτελούν δημοφιλείς επιλογές για την εξαγωγή γονιδιακών υπογραφών. Μονομεταβλητές μέθοδοι επιλογής χαρακτηριστικών φιλτράρουν τα γονίδια σύμφωνα με διαφορές στο προφίλ της γονιδιακής τους έκφρασής μεταξύ δειγμάτων που ανήκουν σε διαφορετικές κατηγορίες ενδιαφέροντος, όπως παθολογικά δείγματα και δείγματα αναφοράς. Εφόσον εξετάζουν κάθε γονίδιο ξεχωριστά, οι μονομεταβλητές μέθοδοι είναι υπολογιστικά αποδοτικές και επιλέγουν γονίδια με υψηλή διακριτικότητα. Ωστόσο, αγνοούν τις αλληλεπιδράσεις μεταξύ των γονιδίων. Από την άλλη πλευρά, οι πολυμεταβλητές μέθοδοι αξιολογούν ταυτόχρονα ομάδες γονιδίων και επιλέγουν υποψήφια γονίδια με βάση την προγνωστική απόδοσή τους όταν χρησιμοποιούνται σε συνδυασμό με έναν ταξινομητή. Ως εκ τούτου, είναι πιο αποτελεσματικές στο να λαμβάνουν υπ'όψιν τις λανθάνουσες σχέσεις μεταξύ των γονιδίων και επιλέγουν γονίδια με υψηλή προγνωστική ικανότητα, όμως έχουν υψηλό υπολογιστικό κόστος. Ενώ οι εφαρμοζόμενες μεθοδολογίες επιλογής χαρακτηριστικών και ταξινόμησης έχουν ωριμάσει και αρκετές αποδοτικές μέθοδοι έχουν δημιουργηθεί, η σταθερότητα των εξαγόμενων γονιδιακών υπογραφών συχνά παραβλέπεται. Ως αποτέλεσμα, οι γονιδιακές υπογραφές που εξάγονται από πολλές μεθοδολογίες είναι ασταθείς ως προς παραλλαγές των δειγμάτων εκπαίδευσης. Δηλαδή, οι εξαγόμενες υπογραφές τείνουν να διαφέρουν σημαντικά μεταξύ τους, όταν έχουν χρησιμοποιηθεί ελαφρώς διαφορετικά δεδομένα εκπαίδευσης. Δεδομένου ότι η σταθερότητα των αποτελεσμάτων σχετίζεται με την γενίκευση, αυτή η αστάθεια δημιουργεί σκεπτικισμό στην κοινότητα των εμπειρογνωμόνων, αμφισβητεί την εγκυρότητα και εμποδίζει την κλινική εφαρμογή των ερευνητικών ευρημάτων που προέρχονται από τέτοιου είδους μελέτες γονιδιακής έκφρασης. Η παρούσα εργασία ασχολείται με τις εξής τρεις πτυχές της επιλογής και αξιολόγησης γονιδιακών υπογραφών: τη σταθερότητα, την προβλεπτική ικανότητα και τη στατιστική σημαντικότητα. Ένα πλαίσιο για την εξαγωγή των σταθερών γονιδιακών υπογραφών, που ονομάζεται Stable Bootstrap Validation (SBV) παρουσιάζεται. Η προτεινόμενη μεθοδολογία επιβάλλει σταθερότητα της εξαγόμενης γονιδιακής υπογραφής στο στάδιο της αξιολόγησης (validation). Ως αποτέλεσμα, μπορεί να συνδυαστεί με οποιαδήποτε μέθοδο ταξινόμησης, εφόσον αυτή υποστηρίζει επιλογή χαρακτηριστικών. Τρία ελεύθερα διαθέσιμα σύνολα δεδομένων γονιδιακής έκφρασης χρησιμοποιούνται για να αξιολογηθεί η προτεινόμενη μεθοδολογία. Αρχικά, η διαστατικότητα των συνόλων δεδομένων μειώνεται χρησιμοποιώντας μια μέθοδο φιλτραρίσματος. Στη συνέχεια, bootstrap αναδειγματοληψία χρησιμοποιείται για να δημιουργηθεί μια λίστα υποψήφιων υπογραφών, σύμφωνα με τη συχνότητα επιλογής των γονιδίων στο σύνολο των παραγόμενων bootstrap συνόλων δεδομένων. Στη συνέχεια, μία σταθερή υπογραφή που έχει τη μέγιστη ικανότητα πρόβλεψης όσον αφορά την ακρίβεια, την ευαισθησία και την ειδικότητα εξάγεται και η ικανότητα πρόβλεψης όλων των υποψήφιων υπογραφών συμπυκνώνεται και σχεδιάζεται σε ένα ευδιάκριτο διάγραμμα για περαιτέρω επιθεώρηση. Επίσης, εξετάζεται η εφαρμογή μεθόδων τυχαίας δειγματοληψίας για την αντιμετώπιση των αρνητικών επιπτώσεων της μη ισορροπημένης κατανομής των δειγμάτων σε παθολογικές και μη κατηγορίες στα σύνολα δεδομένων. Η μη ισορροπημένη κατανομή των δεδομένων αποτελεί συχνό φαινόμενο σε μελέτες μικροσυστοιχιών DNA, όπου τα δείγματα αναφοράς συνήθως είναι πολύ λιγότερα από τα παθολογικά. Επιπλέον, υλοποιήθηκε ένα κατάλληλο στατιστικό πλαίσιο, που περιλαμβάνει δύο ξεχωριστά στατ