URI | http://purl.tuc.gr/dl/dias/5B1A91B3-A0A3-44C2-A68A-F569935872DD | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.82891 | - |
Γλώσσα | en | - |
Μέγεθος | 100 pages | en |
Τίτλος | A multi-modal Q-learning approach using normalized advantage functions and deep neural networks | en |
Τίτλος | Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων | el |
Δημιουργός | Petridis Christos | en |
Δημιουργός | Πετριδης Χρηστος | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Lagoudakis Michail | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Chalkiadakis Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Χαλκιαδακης Γεωργιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Bletsas Aggelos | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Μπλετσας Αγγελος | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | Reinforcement Learning, a branch of Machine Learning geared towards the
development of Autonomous Agents, presents a rapid evolution in recent
years as a means of solving sequential decision problems. The development
of robust Deep Neural Networks has also played a crucial role to this success.
The combination of these two areas eventually led to Deep Reinforcement
Learning, a state-of-the-art field which demonstrated already a great potential and tremendous results in continuous control tasks. In order to contribute
to this effort, the present thesis investigates an extension of the Normalized
Advantage Functions (NAFs) to multi-modal representations, such as multiple quadratics and RBFs (Radial Basis Functions). More specifically, we
focus on a continuous variant of the well-known Q-learning algorithm with
experience replay, combined with the NAF representation and deep neural
networks. The original NAF representation is by design unimodal, given that
the quadratic advantage function offers only one mode, which means that loss
in performance may occur due to the inability to explore and capture complex representations with multiple modes. To tackle this problem, this thesis
proposes two multi-modal representations as a simple solution. The first one
uses multiple quadratic terms, whereas the second one uses RBFs. In each
case, the formulation of the action advantage is accomplished by two different
methods. The first one uses the sum of equally weighted advantage terms,
which are derived as outputs of the neural network. The second method uses
the argmax operator over the advantage terms. Both of these methods avoid
any direct interaction with the neural network, thus making the proposed
architectures more efficient. In order to evaluate our implementation, simulation tests were run on an open-source platform, called RoboSchool, which is
integrated into the broader OpenAI Gym framework, and provides different environments for testing reinforcement learning algorithms. In our case, we
used six environments (pendulum, inverted pendulum, inverted double pendulum, humanoid, ant, walker2d), which support different simulated robots
and consist of continuous control tasks. Our results showed a significant improvement in performance and efficiency of the proposed multi-modal algorithm compared to the original unimodal one, nevertheless at the cost of some
increase in computation time. We observed that the outcome for each task
differs as it depends on the values of several hyper-parameters, with batch
normalization, learning rate and exploration noise being the most sensitive
ones. This thesis is a first step towards a full-scale extension to multi-modal
representations and their application to more complex environments yielding
even more robust solutions to continuous control tasks. | en |
Περίληψη | Η Ενισχυτική Μάθηση (Reinforcement Learning), ως κλάδος της Μηχανικής Μάθησης που προσανατολίζεται στην ανάπτυξη αυτόνομων πρακτόρων, παρουσιάζει μια ταχεία εξέλιξη τα τελευταία χρόνια ως τρόπος επίλυσης προβλημάτων ακολουθιακών αποφάσεων. Η ανάπτυξη αξιόπιστων Βαθέων Νευρωνικών Δικτύων (Deep Neural Networks) έχει επίσης διαδραματίσει καθοριστικό ρόλο στην επιτυχία αυτή. Ο συνδυασμός αυτών των δύο περιοχών τελικά οδήγησε στη Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning), ένα πεδίο τελευταίας τεχνολογίας που κατέδειξε ήδη μεγάλες δυνατότητες και αξιοθαύμαστα αποτελέσματα σε προβλήματα συνεχούς ελέγχου. Για να συμβάλλουμε σε αυτή την προσπάθεια, η παρούσα διπλωματική εργασία διερευνά την επέκταση των Κανονικοποιημένων Συναρτήσεων Κέρδους (Normalized Advantage Functions - NAFs) σε πολυτροπικές αναπαραστάσεις, όπως πολλαπλά quadratics και RBFs (Radial Basis Functions). Ειδικότερα, εστιάζουμε σε μια συνεχή παραλλαγή του γνωστού αλγόριθμου Q-learning με επανάληψη εμπειρίας σε συνδυασμό με την αναπαράσταση NAF και τα βαθιά νευρωνικά δίκτυα. Η αρχική αναπαράσταση NAF είναι από το σχεδιασμό της μονοτροπική, δεδομένου ότι η quadratic advantage function προσφέρει μόνο ένα mode, πράγμα που σημαίνει ότι μπορεί να προκύψει απώλεια απόδοσης εξαιτίας της αδυναμίας εξερεύνησης και αποτύπωσης σύνθετων αναπαραστάσεων με πολλαπλά modes. Για να αντιμετωπίσει αυτό το πρόβλημα, αυτή η διπλωματική εργασία προτείνει δύο πολυτροπικές αναπαραστάσεις ως απλή λύση. Η πρώτη χρησιμοποιεί πολλαπλά quadratics, ενώ η δεύτερη χρησιμοποιεί RBFs. Σε κάθε περίπτωση, η διαμόρφωση του action advantage επιτυγχάνεται με δύο διαφορετικές μεθόδους. Η πρώτη χρησιμοποιεί το άθροισμα εξίσου σταθμισμένων όρων advantage, οι οποίοι παράγονται ως έξοδοι του νευρικού δικτύου. Η δεύτερη μέθοδος χρησιμοποιεί τον τελεστή argmax πάνω στους όρους advantage. Kαι οι δυο μέθοδοι αποφεύγουν οποιαδήποτε άμεση αλληλεπίδραση με το νευρωνικό δίκτυο, καθιστώντας έτσι τις προτεινόμενες αρχιτεκτονικές αποτελεσματικότερες. Προκειμένου να αξιολογηθεί η υλοποίησή μας, πραγματοποιήθηκαν δοκιμές προσομοίωσης σε μια πλατφόρμα ανοιχτού κώδικα, που ονομάζεται RoboSchool, η οποία ενσωματώνεται στο ευρύτερο πλαίσιο OpenAI Gym και παρέχει διαφορετικά περιβάλλοντα για τον έλεγχο των αλγορίθμων ενισχυτικής μάθησης. Στην περίπτωσή μας χρησιμοποιήσαμε έξι περιβάλλοντα (εκκρεμές, αντεστραμμένο εκκρεμές, αντεστραμμένο διπλό εκκρεμές, ανθρωποειδές, ant, walker2d), τα οποία υποστηρίζουν διαφορετικά προσομοιωμένα ρομπότ και αποτελούνται από προβλήματα συνεχούς ελέγχου. Τα αποτελέσματά μας έδειξαν σημαντική βελτίωση στις επιδόσεις και την αποτελεσματικότητα του προτεινόμενου πολυτροπικού αλγόριθμου σε σύγκριση με τον αρχικό μονοτροπικό αλγόριθμο, ωστόσο με το κόστος κάποιας αύξησης του υπολογιστικού χρόνου. Παρατηρήσαμε ότι το αποτέλεσμα για κάθε εργασία διαφέρει καθώς εξαρτάται από τις τιμές αρκετών υπερπαραμέτρων, με τις batch normalization, learning rate και exploration noise να είναι οι πιο ευαίσθητες. Η παρούσα διπλωματική εργασία είναι ένα πρώτο βήμα προς μια πλήρη επέκταση σε πολυτροπικές αναπαραστάσεις και την εφαρμογή τους σε πιο σύνθετα περιβάλλοντα αποφέροντας ακόμη πιο αξιόπιστες λύσεις σε προβλήματα συνεχούς ελέγχου. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2019-08-23 | - |
Ημερομηνία Δημοσίευσης | 2019 | - |
Θεματική Κατηγορία | Deep reinforcement learning | en |
Θεματική Κατηγορία | Machine learning | en |
Θεματική Κατηγορία | Deep learning | en |
Θεματική Κατηγορία | NAF algorithm | en |
Θεματική Κατηγορία | Reinforcement learning | en |
Βιβλιογραφική Αναφορά | Christos Petridis, "A multi-modal Q-learning approach using normalized advantage functions and deep neural networks", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2019 | el |
Βιβλιογραφική Αναφορά | Χρήστος Πετρίδης, "Μια πολυ-τροπική προσέγγιση Q-μάθησης μέσω κανονικοποιημένων συναρτήσεων κέρδους και βαθέων νευρικών δικτύων", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 | el |