URI | http://purl.tuc.gr/dl/dias/38BDE5B4-229D-4ABF-A47F-3C95542543AD | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.83630 | - |
Γλώσσα | en | - |
Μέγεθος | 52 pages | en |
Τίτλος | Implementation of an intelligent agent for the AIBIRDS competition | en |
Τίτλος | Ανάπτυξη ευφυούς πράκτορα για τον διαγωνισμό AIBIRDS | el |
Δημιουργός | Gemistos Michail | en |
Δημιουργός | Γεμιστος Μιχαηλ | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Lagoudakis Michail | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Chalkiadakis Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Χαλκιαδακης Γεωργιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Deligiannakis Antonios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δεληγιαννακης Αντωνιος | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | The broad field of Artificial Intelligence (AI) strives to reproduce
human behavior on machines. Machine Learning, as a subfield, and more
specifically Reinforcement Learning (RL), enables autonomous agents to
take suitable actions under different circumstances through a
trial-and-error learning process, without being programmed for every
possible scenario they may encounter. Since 2013, the International
Joint Conference on Artificial Intelligence (IJCAI) hosts the Angry
Birds AI Competition (AIBIRDS), where various AI agents compete on the
Angry Birds computer game. The agents compete on unknown game levels
without any human intervention. In this thesis, we designed two agents
for AIBIRDS following the principles of two well-known RL algorithms,
namely Q-Learning and Least Squares Policy Iteration (LSPI). Both of
them are model-free RL algorithms, trying to learn the best action at
each step (policy) for any given game scene. Since the action and state
spaces of the game are extremely large and due to the absence of a model
that describes the transition from a state to a next state affected by
an action choice, we used an approximation architecture to represent the
learned Q values, which estimate the quality of each action in each
state. The approximation uses a set of eight basis functions (features)
we designed, which try to describe a game scene effectively, and each
one is weighted by its own parameter (weight). In our experiments, the
Q-Learning agent is trained for 20,000 iterations updating its weights
incrementally during the course of that training, concluding to their
final values, when the iterations are completed. At each iteration, the
Q-Learning agent stores locally each observed sample of interaction with
the game, which includes the current state, the action taken, the new
state and the reward gained. The LSPI agent is then trained using the
stored set of samples to find its own set of weights and thus its own
policy. When the process of training ends for both Q-Learning and LSPI
on the same observed samples, we test each agent on 54 different levels
taken directly from the AIBIRDS competition, 34 of those being the
levels our agents were trained on and 20 levels being completely new to
the agents. The Q-Learning agent is able to complete successfully 68% of
these levels and the LSPI agent 81% of them, occasionally performing
precise shots with amazing results.
| en |
Περίληψη | Το ευρύ πεδίο της Τεχνητής Νοημοσύνης (Artificial Intelligence - AI) προσπαθεί να αναπαράγει την ανθρώπινη συμπεριφορά στις μηχανές. Η Μηχανική Μάθηση, ως υποπεδίο, και πιο συγκεκριμένα η Ενισχυτική Μάθηση (Reinforcement Learning - RL), δίνει τη δυνατότητα σε αυτόνομους πράκτορες να επιλέγουν κατάλληλες ενέργειες κάτω από διαφορετικές συνθήκες μέσω μιας διαδικασίας μάθησης δοκιμών-και-σφαλμάτων, χωρίς να προγραμματίζονται για κάθε πιθανό σενάριο που μπορεί να συναντήσουν. Από το 2013, το συνέδριο International Joint Conference on Artificial Intelligence (IJCAI) φιλοξενεί τον Διαγωνισμό Angry Birds AI (AIBIRDS), όπου διάφοροι AI πράκτορες ανταγωνίζονται στο ηλεκτρονικό παιχνίδι Angry Birds. Οι πράκτορες ανταγωνίζονται σε άγνωστες πίστες παιχνιδιού χωρίς καμία ανθρώπινη παρέμβαση. Στην παρούσα διπλωματική εργασία, σχεδιάσαμε δύο πράκτορες για το AIBIRDS ακολουθώντας τις αρχές δύο γνωστών RL αλγορίθμων, συγκεκριμένα του Q-Learning και του Least Squares Policy Iteration (LSPI). Και οι δύο είναι RL αλγόριθμοι χωρίς μοντέλα και προσπαθούν να μάθουν την καλύτερη ενέργεια σε κάθε βήμα (πολιτική) για κάθε δεδομένη σκηνή του παιχνιδιού. Δεδομένου ότι οι χώροι ενεργειών και καταστάσεων του παιχνιδιού είναι εξαιρετικά μεγάλοι και λόγω της απουσίας ενός μοντέλου που περιγράφει τη μετάβαση από μια κατάσταση σε κάποια επόμενη κατάσταση υπό την επιρροή μιας επιλεγμένης ενέργειας, χρησιμοποιήσαμε μια αρχιτεκτονική προσέγγισης για να αναπαριστούμε τις μαθηματικές τιμές Q, οι οποίες εκτιμούν την ποιότητα κάθε ενέργειας σε κάθε κατάσταση. Η προσέγγιση χρησιμοποιεί ένα σύνολο από οκτώ συναρτήσεις βάσης (χαρακτηριστικά) που σχεδιάσαμε, τα οποία προσπαθούν να περιγράψουν αποτελεσματικά μια σκηνή παιχνιδιού, και κάθε μία σταθμίζεται με τη δική της παράμετρο (βάρος). Στα πειράματά μας, ο πράκτορας Q-Learning εκπαιδεύεται για 20.000 επαναλήψεις για την ενημέρωση των βαρών του σταδιακά κατά τη διάρκεια αυτής της εκπαίδευσης, καταλήγοντας στις τελικές τους τιμές, όταν ολοκληρωθούν οι επαναλήψεις. Σε κάθε επανάληψη, ο πράκτορας Q-Learning αποθηκεύει τοπικά το κάθε παρατηρούμενο δείγμα αλληλεπίδρασης με το παιχνίδι, το οποίο περιλαμβάνει την τρέχουσα κατάσταση, τη ενέργεια που έχει ληφθεί, τη νέα κατάσταση και την ανταμοιβή που αποκτήθηκε. Ο πράκτορας LSPI εκπαιδεύεται στη συνέχεια χρησιμοποιώντας το αποθηκευμένο σύνολο δειγμάτων για να βρει το δικό του σύνολο βαρών και επομένως τη δική του πολιτική. Όταν η διαδικασία εκπαίδευσης τελειώσει τόσο για τον Q-Learning όσο και για τον LSPI πάνω στα ίδια παρατηρούμενα δείγματα, εξετάζουμε κάθε πράκτορα σε 54 διαφορετικές πίστες που ελήφθησαν απευθείας από τον διαγωνισμό AIBIRDS, 34 εκ των οποίων είναι αυτές όπου εκπαιδεύτηκαν οι πράκτορές μας και 20 είναι παντελώς άγνωστες στους πράκτορες. Ο πράκτορας Q-Learning είναι σε θέση να ολοκληρώσει επιτυχώς το 68% και ο πράκτορας LSPI το 81% εξ αυτών, εκτελώντας κατά διαστήματα βολές ακριβείας με εκπληκτικά αποτελέσματα. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2019-10-11 | - |
Ημερομηνία Δημοσίευσης | 2019 | - |
Θεματική Κατηγορία | Τεχνητή νοημοσύνη | el |
Θεματική Κατηγορία | Artificial intelligence | en |
Θεματική Κατηγορία | Ενισχυτική μάθηση | el |
Θεματική Κατηγορία | Reinforcement learning | en |
Βιβλιογραφική Αναφορά | Michail Gemistos, "Implementation of an intelligent agent for the AIBIRDS competition", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019 | en |
Βιβλιογραφική Αναφορά | Μιχαήλ Γεμιστός, "Ανάπτυξη ευφυούς πράκτορα για τον διαγωνισμό AIBIRDS", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 | el |