Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων

Petridis Christos

URI	http://purl.tuc.gr/dl/dias/5B1A91B3-A0A3-44C2-A68A-F569935872DD	-
Αναγνωριστικό	https://doi.org/10.26233/heallink.tuc.82891	-
Γλώσσα	en	-
Μέγεθος	100 pages	en
Τίτλος	A multi-modal Q-learning approach using normalized advantage functions and deep neural networks	en
Τίτλος	Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων	el
Δημιουργός	Petridis Christos	en
Δημιουργός	Πετριδης Χρηστος	el
Συντελεστής [Επιβλέπων Καθηγητής]	Lagoudakis Michail	en
Συντελεστής [Επιβλέπων Καθηγητής]	Λαγουδακης Μιχαηλ	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Chalkiadakis Georgios	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Χαλκιαδακης Γεωργιος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Bletsas Aggelos	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Μπλετσας Αγγελος	el
Εκδότης	Πολυτεχνείο Κρήτης	el
Εκδότης	Technical University of Crete	en
Ακαδημαϊκή Μονάδα	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Περίληψη	Reinforcement Learning, a branch of Machine Learning geared towards the development of Autonomous Agents, presents a rapid evolution in recent years as a means of solving sequential decision problems. The development of robust Deep Neural Networks has also played a crucial role to this success. The combination of these two areas eventually led to Deep Reinforcement Learning, a state-of-the-art field which demonstrated already a great potential and tremendous results in continuous control tasks. In order to contribute to this effort, the present thesis investigates an extension of the Normalized Advantage Functions (NAFs) to multi-modal representations, such as multiple quadratics and RBFs (Radial Basis Functions). More specifically, we focus on a continuous variant of the well-known Q-learning algorithm with experience replay, combined with the NAF representation and deep neural networks. The original NAF representation is by design unimodal, given that the quadratic advantage function offers only one mode, which means that loss in performance may occur due to the inability to explore and capture complex representations with multiple modes. To tackle this problem, this thesis proposes two multi-modal representations as a simple solution. The first one uses multiple quadratic terms, whereas the second one uses RBFs. In each case, the formulation of the action advantage is accomplished by two different methods. The first one uses the sum of equally weighted advantage terms, which are derived as outputs of the neural network. The second method uses the argmax operator over the advantage terms. Both of these methods avoid any direct interaction with the neural network, thus making the proposed architectures more efficient. In order to evaluate our implementation, simulation tests were run on an open-source platform, called RoboSchool, which is integrated into the broader OpenAI Gym framework, and provides different environments for testing reinforcement learning algorithms. In our case, we used six environments (pendulum, inverted pendulum, inverted double pendulum, humanoid, ant, walker2d), which support different simulated robots and consist of continuous control tasks. Our results showed a significant improvement in performance and efficiency of the proposed multi-modal algorithm compared to the original unimodal one, nevertheless at the cost of some increase in computation time. We observed that the outcome for each task differs as it depends on the values of several hyper-parameters, with batch normalization, learning rate and exploration noise being the most sensitive ones. This thesis is a first step towards a full-scale extension to multi-modal representations and their application to more complex environments yielding even more robust solutions to continuous control tasks.	en
Περίληψη	Η Ενισχυτική Μάθηση (Reinforcement Learning), ως κλάδος της Μηχανικής Μάθησης που προσανατολίζεται στην ανάπτυξη αυτόνομων πρακτόρων, παρουσιάζει μια ταχεία εξέλιξη τα τελευταία χρόνια ως τρόπος επίλυσης προβλημάτων ακολουθιακών αποφάσεων. Η ανάπτυξη αξιόπιστων Βαθέων Νευρωνικών Δικτύων (Deep Neural Networks) έχει επίσης διαδραματίσει καθοριστικό ρόλο στην επιτυχία αυτή. Ο συνδυασμός αυτών των δύο περιοχών τελικά οδήγησε στη Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning), ένα πεδίο τελευταίας τεχνολογίας που κατέδειξε ήδη μεγάλες δυνατότητες και αξιοθαύμαστα αποτελέσματα σε προβλήματα συνεχούς ελέγχου. Για να συμβάλλουμε σε αυτή την προσπάθεια, η παρούσα διπλωματική εργασία διερευνά την επέκταση των Κανονικοποιημένων Συναρτήσεων Κέρδους (Normalized Advantage Functions - NAFs) σε πολυτροπικές αναπαραστάσεις, όπως πολλαπλά quadratics και RBFs (Radial Basis Functions). Ειδικότερα, εστιάζουμε σε μια συνεχή παραλλαγή του γνωστού αλγόριθμου Q-learning με επανάληψη εμπειρίας σε συνδυασμό με την αναπαράσταση NAF και τα βαθιά νευρωνικά δίκτυα. Η αρχική αναπαράσταση NAF είναι από το σχεδιασμό της μονοτροπική, δεδομένου ότι η quadratic advantage function προσφέρει μόνο ένα mode, πράγμα που σημαίνει ότι μπορεί να προκύψει απώλεια απόδοσης εξαιτίας της αδυναμίας εξερεύνησης και αποτύπωσης σύνθετων αναπαραστάσεων με πολλαπλά modes. Για να αντιμετωπίσει αυτό το πρόβλημα, αυτή η διπλωματική εργασία προτείνει δύο πολυτροπικές αναπαραστάσεις ως απλή λύση. Η πρώτη χρησιμοποιεί πολλαπλά quadratics, ενώ η δεύτερη χρησιμοποιεί RBFs. Σε κάθε περίπτωση, η διαμόρφωση του action advantage επιτυγχάνεται με δύο διαφορετικές μεθόδους. Η πρώτη χρησιμοποιεί το άθροισμα εξίσου σταθμισμένων όρων advantage, οι οποίοι παράγονται ως έξοδοι του νευρικού δικτύου. Η δεύτερη μέθοδος χρησιμοποιεί τον τελεστή argmax πάνω στους όρους advantage. Kαι οι δυο μέθοδοι αποφεύγουν οποιαδήποτε άμεση αλληλεπίδραση με το νευρωνικό δίκτυο, καθιστώντας έτσι τις προτεινόμενες αρχιτεκτονικές αποτελεσματικότερες. Προκειμένου να αξιολογηθεί η υλοποίησή μας, πραγματοποιήθηκαν δοκιμές προσομοίωσης σε μια πλατφόρμα ανοιχτού κώδικα, που ονομάζεται RoboSchool, η οποία ενσωματώνεται στο ευρύτερο πλαίσιο OpenAI Gym και παρέχει διαφορετικά περιβάλλοντα για τον έλεγχο των αλγορίθμων ενισχυτικής μάθησης. Στην περίπτωσή μας χρησιμοποιήσαμε έξι περιβάλλοντα (εκκρεμές, αντεστραμμένο εκκρεμές, αντεστραμμένο διπλό εκκρεμές, ανθρωποειδές, ant, walker2d), τα οποία υποστηρίζουν διαφορετικά προσομοιωμένα ρομπότ και αποτελούνται από προβλήματα συνεχούς ελέγχου. Τα αποτελέσματά μας έδειξαν σημαντική βελτίωση στις επιδόσεις και την αποτελεσματικότητα του προτεινόμενου πολυτροπικού αλγόριθμου σε σύγκριση με τον αρχικό μονοτροπικό αλγόριθμο, ωστόσο με το κόστος κάποιας αύξησης του υπολογιστικού χρόνου. Παρατηρήσαμε ότι το αποτέλεσμα για κάθε εργασία διαφέρει καθώς εξαρτάται από τις τιμές αρκετών υπερπαραμέτρων, με τις batch normalization, learning rate και exploration noise να είναι οι πιο ευαίσθητες. Η παρούσα διπλωματική εργασία είναι ένα πρώτο βήμα προς μια πλήρη επέκταση σε πολυτροπικές αναπαραστάσεις και την εφαρμογή τους σε πιο σύνθετα περιβάλλοντα αποφέροντας ακόμη πιο αξιόπιστες λύσεις σε προβλήματα συνεχούς ελέγχου.	el
Τύπος	Διπλωματική Εργασία	el
Τύπος	Diploma Work	en
Άδεια Χρήσης	http://creativecommons.org/licenses/by/4.0/	en
Ημερομηνία	2019-08-23	-
Ημερομηνία Δημοσίευσης	2019	-
Θεματική Κατηγορία	Deep reinforcement learning	en
Θεματική Κατηγορία	Machine learning	en
Θεματική Κατηγορία	Deep learning	en
Θεματική Κατηγορία	NAF algorithm	en
Θεματική Κατηγορία	Reinforcement learning	en
Βιβλιογραφική Αναφορά	Christos Petridis, "A multi-modal Q-learning approach using normalized advantage functions and deep neural networks", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019	el
Βιβλιογραφική Αναφορά	Χρήστος Πετρίδης, "Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019	el

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων

Petridis Christos

Διαθέσιμα αρχεία

Υπηρεσίες

Εξαγωγή

Κοινοποίηση

Στατιστικά

Μεταδεδομένων & Περιεχομένου σε METS:

Μεταδεδομένων σε Μορφότυπο: