Το έργο με τίτλο Μηχανική μάθηση στο στρατηγικό παίγνιο «΄Αποικοι του Κατάν» από τον/τους δημιουργό/ούς Papadam Diamantis-Rafail διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Διαμαντής-Ραφαήλ Παπαδάμ, "Μηχανική μάθηση στο στρατηγικό παίγνιο «΄Αποικοι του Κατάν»", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024
https://doi.org/10.26233/heallink.tuc.99217
Παρά το γεγονός ότι προσφάτως πολλοί αλγόριθμοι στηριζόμενοι στη χρήση βαθέων νευρωνικών δικτύων έχουν κατορθώσει να πετύχουν επιδόσεις ανώτερες των ανθρωπίνων σε πολλά στρατηγικά παίγνια, όπως το Σκάκι ή το Go, δεν υπάρχει ακόμη κάποιος αλγόριθμος που να νικάει επαγγελματίες ανθρώπους στο πολυπρακτορικό στρατηγικό παίγνιο «΄Αποικοι του Κατάν». Στην παρούσα διπλωματική εργασία, παρουσιάζουμε έναν συνδυασμό σύγχρονης μηχανικής μάθησης με κλασικές μεθόδους δενδρικής αναζήτησης υπό αντιπαλότητα και πετυχαίνουμε απόδοση λίγο χαμηλότερη από την καλύτερη που υπάρχει στην βιβλιογραφία. Συγκεκριμένα, χρησιμοποιούμε μία γενίκευση του κλασικού αλγορίθμου Minimax, με την επονομασία Max^n , όπου η συνάρτηση αξιολόγησης που εφαρμόζεται στα φύλλα του δένδρου είναι ένα εκπαιδευμένο συνελικτικό νευρωνικό δίκτυο. Η εργασία μας αποτελείται από δύο μέρη, τα οποία δύνανται να λειτουργήσουν ανεξάρτητα το ένα από το άλλο. Το πρώτο μέρος είναι η υλοποίηση του αλγορίθμου Max^n, ο οποίος μπορεί να χρησιμοποιήσει οποιαδήποτε συνάρτηση αξιολόγησης ορίσουμε. Το δεύτερο μέρος είναι το νευρωνικό δίκτυο, το οποίο δρα ως συνάρτηση αξιολόγησης και θα μπορούσε να ενσωματωθεί σε οποιονδήποτε αλγόριθμο αναζήτησης υπό αντιπαλότητα για να προσφέρει την πληροφορία της αξιολόγησης τερματικών καταστάσεων. ΄Επειτα από 10000 προσομοιωμένα παιχνίδια, που αποτελούν ένα ικανό πλήθος για την εξαγωγήεμπειρικών αποτελεσμάτων στο στρατηγικό παίγνιο «΄Αποικοι του Κατάν», πετυχαίνουμε επίδοση κοντά στην καλύτερη που υπάρχει στην βιβλιογραφία, με το πλεονέκτημα ότι σε αντίθεση με τη μέθοδο που πετυχαίνει αυτήν την επίδοση, η δική μας μέθοδος έχει χρόνο εκτέλεσης που είναι αποδεκτός από ανθρώπους.