Το έργο με τίτλο Κατευθυνόμενη αναζήτηση του χώρου πολιτικών στην ενισχυτική μάθηση από τον/τους δημιουργό/ούς Rexakis Ioannis διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Ιωάννης Ρεξάκης, "Κατευθυνόμενη αναζήτηση του χώρου πολιτικών στην ενισχυτική μάθηση", Διδακτορική Διατριβή, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2018
https://doi.org/10.26233/heallink.tuc.78690
Η ενισχυτική μάθηση αναφέρεται σε μια ευρεία κατηγορία προβλημάτων μάθησης. Οι αυτόνομες οντότητες τυπικά προσπαθούν να μάθουν να επιτυγχάνουν το στόχο τους αποκλειστικά μέσω της αλληλεπίδρασης με το περιβάλλον τους. Κάνουν διερευνητικές προσπάθειες αναζήτησης μέσω δοκιμών και ελέγχων και λαμβάνουν με καθυστέρηση ανταμοιβές (ή ποινές). Η πρόκληση είναι να μάθουν μια ικανοποιητική ή ακόμα και βέλτιστη πολιτική λήψης αποφάσεων, η οποία να μεγιστοποιεί τη συνολική μακροπρόθεσμη ανταμοιβή. Μια πολιτική λήψης αποφάσεων για μια αυτόνομη οντότητα είναι η γνώση του τι πρέπει να κάνει σε κάθε πιθανή κατάσταση προκειμένου να επιτευχθεί αποτελεσματικά ο μακροπρόθεσμος στόχος. Πολλές πρόσφατες προσεγγίσεις μάθησης για τη λήψη αποφάσεων υπό αβεβαιότητα προτείνουν τη χρήση ταξινομητών για την συμπαγή (προσεγγιστική) αναπαράσταση πολιτικών. Ωστόσο, ο χώρος των πιθανών πολιτικών, ακόμα και κάτω από τέτοιες δομημένες αναπαραστάσεις, είναι τεράστιος και πρέπει να αναζητηθεί προσεκτικά για να αποφευχθούν υπολογιστικά ακριβές προσομοιώσεις πολιτικών.Σε αυτή τη διατριβή, η πρώτη μας συμβολή σχετίζεται με την ανίχνευση δομής σε βέλτιστες πολιτικές. Εξετάσαμε βέλτιστες πολιτικές για δύο βασικά πεδία ενισχυτικής μάθησης δύο διαστάσεων, το Inverted Pendulum και το Mountain Car. Διαπιστώσαμε ότι οι βέλτιστες πολιτικές τους έχουν σημαντική δομή και υψηλό βαθμό τοπικότητας, δηλαδή οι κυρίαρχες ενέργειες παραμένουν ίδιες σε μεγάλες συνεχείς περιοχές εντός του χώρου καταστάσεων. Η παρατήρηση αυτή παρέχει επαρκή αιτιολόγηση για την καταλληλότητα των ταξινομητών για προσεγγιστική αναπαράσταση πολιτικών.Η δεύτερη και κύρια συμβολή μας είναι η πρόταση δύο αλγορίθμων για την κατευθυνόμενη αναζήτηση του χώρου πολιτικών με τη χρήση των ταξινομητών SVM και RVM. Ο πρώτος αλγόριθμος εκμεταλλεύεται τη δομή των ταξινομητών που χρησιμοποιούνται για την αναπαράσταση της πολιτικής. Ο δεύτερος αλγόριθμος χρησιμοποιεί μια συνάρτηση σημαντικότητας των καταστάσεων, βάσει της επικράτησης των ενεργειών. Και στις δύο προσεγγίσεις, η αναζήτηση στον χώρο καταστάσεων επικεντρώνεται σε περιοχές όπου υπάρχει αλλαγή κυρίαρχης ενέργειας. Αυτή η κατευθυνόμενη εστίαση σε κρίσιμα τμήματα του χώρου καταστάσεων οδηγεί επαναληπτικά σε εκλέπτυνση και βελτίωση της τρέχουσας πολιτικής. Λίγες μόνο επαναλήψεις αρκούν για την παραγωγή εξαιρετικών πολιτικών με σχετικά χαμηλό αριθμό προσομοιώσεων, καταλήγοντας σε σημαντική εξοικονόμηση χρόνου.Παρουσιάζουμε τους προτεινόμενους αλγόριθμους και τους συγκρίνουμε με τις προηγούμενες εργασίες σε τρία βασικά πεδία μελέτης της ενισχυτικής μάθησης: Inverted Pendulum (δύο διαστάσεων), Mountain Car (δύο διαστάσεων) και Acrobot (τεσσάρων διαστάσεων). Επιπροσθέτως, επιδεικνύουμε την επεκτασιμότητα των προτεινόμενων προσεγγίσεων στο πρόβλημα της μάθησης για τον έλεγχο ενός 4-Link Planar Robot, το οποίο αντιστοιχεί σε ένα πρόβλημα οκτώ διαστάσεων, γνωστό στην κοινότητα της θεωρίας ελέγχου. Σε όλες τις περιπτώσεις, οι προτεινόμενες προσεγγίσεις επιτυγχάνουν μια ισορροπία μεταξύ αποτελεσματικότητας και προσπάθειας, αποδίδοντας επαρκώς καλές πολιτικές σε σύντομο χρονικό διάστημα, χωρίς υπερβολικό αριθμό βημάτων μάθησης.