Το έργο με τίτλο Τεχνικές εξαγωγής πληροφορίας από βιολογικά δεδομένα και χρήση νευρωνικών δικτύων ως ταξινομητές για ιατρική διάγνωση από τον/τους δημιουργό/ούς Kormpi Konstantina διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Κωνσταντίνα Κορμπή, "Τεχνικές εξαγωγής πληροφορίας από βιολογικά δεδομένα και χρήση νευρωνικών δικτύων ως ταξινομητές για ιατρική διάγνωση", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019
https://doi.org/10.26233/heallink.tuc.84018
Η Παγκόσμια Έκθεση για τον Καρκίνο περιγράφει την ασθένεια του καρκίνου σαν ένα παγκόσιο πρόβλημα. Η σημερινή τεχνολογία μπορεί να μας δώσει προσεγγίσεις που αποκαλύπτουν τον καρκίνο σε κυτταρικό και μοριακό επίπεδο. Σε ένα δείγμα καρκινικής νόσου όπως μια βιοψία κυττάρων, χιλιάδες γονίδια κάθε φορά μπορούν να υποβληθούν σε ανάλυση με την τεχνολογία μικροσυστοιχιών. Οι μικροσυστοιχίες βοηθούν στην ταυτόχρονη ανάλυση των προφίλ γονιδιακής έκφρασης ενός μεγάλου αριθμού γονιδίων σε ένα μόνο πείραμα. Η κατανόηση των προτύπων γονιδιακής έκφρασης μπορεί να βοηθήσει στη διάγνωση και διάκριση διαφόρων τύπων καρκίνου. Η μηχανική μάθηση είναι ένας κλάδος της τεχνιτής νοημοσύνης που χρησιμοποιεί μια ποικιλία τεχνικών στατιστικής, πιθανοτήτων και βελτιστοποίησης που επιτρέπουν στους υπολογιστές να "μαθαίνουν" από παλιά παραδείγματα και να ανιχνεύουν μορφές που είναι δύσκολο να διακρίνουν από μεγάλα, θορυβώδη ή σύνθετα σύνολα δεδομένων. Αυτή η ικανότητα είναι ιδιαίτερα κατάλληλη για ιατρικές εφαρμογές, ειδικά εκείνες που εξαρτώνται από σύνθετες πρωτεϊνικές και γονιδιακές μετρήσεις. Ως αποτέλεσμα, η μηχανική μάθηση χρησιμοποιείται συχνά στη διάγνωση και στον εντοπισμό του καρκίνου. Πιο πρόσφατα η μηχανική μάθηση έχει εφαρμοστεί στην πρόγνωση καρκίνου. Αυτή η τελευταία προσέγγιση είναι ιδιαίτερα ενδιαφέρουσα, καθώς αποτελεί μέρος μιας αυξανόμενης τάσης της προγνωστικής ιατρικής.Καταρχήν, ο στόχος μας ήταν να επεξεργαστουμε πραγματικά βιολογικά δεδομένα κάνοντας μια στατιστική ανάλυση, περιγραφή και οπτικοποίηση και στη συνέχεια να εκπαιδεύσουμε μοντέλο προβλέψεων για δυαδική ταξινόμηση του καρκίνου, βασισμένο σε αλγόριθμους μηχανικής μάθησης και τεχνικές εξαγωγής γνωρισμάτων. Χρησιμοποιούμε έξι αλγόριθμους μηχανικής μάθησης εποπτείας, όπως Logistic Regression (LR), Linear Discriminant Analysis (LDA), k-Nearest Neighbors (KNN), Classification and Regression Trees (CART), Naïve Bayes (NB) και Linear Support Vector Machines (SVM) σε διαφορετικά δεδομένα γονιδιακής έκφρασης για τον καρκίνο του τραχήλο, του μαστού, της οξείας μυελοειδούς λευχαιμίας και του καρκίνου στο πάγκρεας, όλα διαθέσιμα δημοσίως στην πλατφόρμα GEO. Κατά τη διάρκεια της διαδικασίας, τα δεδομένα χωρίστηκαν τυχαία σε δεδομένα εκπαίδευσης (train set) των αλγορίθμων και σε δεδομένα για τις τελικές προβλέψεις (validation set). Το train set χρησιμοποείται με τη μέθοδο 5-fold cross-validation για τρία διαφορετικά σενάρια: στα αρχικά δεδομένα, σε δεδομένα που έχουν επεξεργαστεί με την μέθοδο standardization και τελικά σε επεξεργασμένα δεδομένα που έχουν μετασχηματιστεί από τεχνικές εξαγωγής και μείωσης γνωρισμάτων όπως Principal Component Analysis (PCA). Στο τέλος αφού εκπαιδεύσουμε τα μοντέλα, χρησιμοποιούμε το validation set για αξιολογήσουμε την απόδοση των μοντέλων μας στις προβλέψεις.Καταλήγουμε να έχουμε ποσοστά ακρίβειας (accuracy) : 100% στα μοντέλα που εκπαιδευτηκαν με LR, NB και SVM στα δεδομένα γονιδιακής έκφρασης του καρκίνου του τραχήλου της μήτρας, 90% στα μοντέλα που εκπαιδευτηκαν με LDA στα δεδομένα γονιδιακής έκφρασης του καρκίνου του μαστού, 95,4% στα μοντέλα που εκπαιδευτηκαν με NB στα δεδομένα γονιδιακής έκφρασης της οξείας μυελοειδούς λευχαιμίας και 94,4% στα μοντέλα που εκπαιδευτηκαν με LR στα δεδομένα γονιδιακής έκφρασης του καρκίνου στο πάγκρεας. Επιπλέον, κατά τη διάρκεια της διαδικασίας εξετάζουμε τα μοντέλα μας για να αξιολογήσουμε περαιτέρω μετρήσεις ταξινόμησης όπως η ακρίβεια (precision), η ευαισθησία (sensitivity) , η βαθμολογία f1 (f1-score) και οι καμπύλες ROC. Τέλος, συγκρίνουμε τα αποτελέσματα του 5-fold cross-validation σε κάθε σενάριο, προκειμένου να εξάγουμε χρήσιμες γνώσεις.