Βαθιά υπό καθοδήγηση ενισχυτική μάθηση

Chrysomallis Iason

URI	http://purl.tuc.gr/dl/dias/DB5990C1-E4C8-422D-892D-786C001A6813	-
Αναγνωριστικό	https://doi.org/10.26233/heallink.tuc.90213	-
Γλώσσα	en	-
Μέγεθος	3.5 megabytes	en
Μέγεθος	58 pages	en
Τίτλος	Deep reinforcement learning exploiting a mentor's guidance	en
Τίτλος	Βαθιά υπό καθοδήγηση ενισχυτική μάθηση	el
Δημιουργός	Chrysomallis Iason	en
Δημιουργός	Χρυσομαλλης Ιασων	el
Συντελεστής [Επιβλέπων Καθηγητής]	Chalkiadakis Georgios	en
Συντελεστής [Επιβλέπων Καθηγητής]	Χαλκιαδακης Γεωργιος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Bletsas Aggelos	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Μπλετσας Αγγελος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Samoladas Vasilis	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Σαμολαδας Βασιλης	el
Εκδότης	Πολυτεχνείο Κρήτης	el
Εκδότης	Technical University of Crete	en
Ακαδημαϊκή Μονάδα	Technical University of Crete::School of Electrical and Computer Engineering	en
Ακαδημαϊκή Μονάδα	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Περίληψη	Imitation is a popular technique of behavioral learning widely practiced in nature. The most famous applications involve animal babies imitating their parents, with imitation providing the stepping stone to walk their first steps in life survival. Additionally, imitation examples can be found in cross species instances, with most known samples the voice imitation of parrots or crow behavioral imitation. The imitation learning paradigm has naturally been taken up in machine learning applications, implemented in supervised learning and in reinforcement learning, mostly with the use of explicit imitation, where the mentor agent attempts to explicitly teach learners. Implicit imitation, on the other hand, assumes that learning agents observe the state transitions of an agent they use as a mentor, and try to recreate them based on their own abilities and knowledge of their environment. Though it has also been employed with some success in the past, implicit imitation has only recently been utilized in conjunction with deep reinforcement learning, the current leading reinforcement learning paradigm. In this thesis, we enhance the operation of implicit imitation by adding four state-of-the-art deep reinforcement learning algorithms, treated as "imitation optimization modules". These include Double Deep Q-network [Hasselt, Guez, and Silver, 2016], Prioritized Experience Replay [Schaul et al., 2016], Dueling Network Architecture [Wang et al., 2016] and Parameter Space Noise for Exploration [Plappert et al., 2018]. We modify these appropriately to better fit the implicit imitation learning paradigm. By enabling and disabling those methods we create diverse combinations of them; systematically test and compare the viability of each one of these combinations; and end up with a clear "winner": the combination of Double Deep Q-network, Prioritized Experience Replay and Dueling Network Architecture.	en
Περίληψη	Η μίμηση αποτελεί μία τεχνική συμπεριφορικής εκμάθησης, ευρέως χρησιμοποιούμενη στην φύση. Στο ζωϊκό βασίλειο, για παράδειγμα, τα μωρά μιμούνται τους γονείς τους, και η μίμηση τα εφοδιάζει με τις κατάλληλες γνώσεις για να περπατήσουν στα πρώτα τους βήματα επιβίωσης. Παραδείγματα μίμησης παρατηρούνται και μεταξύ διαφορετικών ειδών, όπως στην φωνητική μίμηση των παπαγάλων ή στην συμπεριφορική μίμηση των κορακιών. Η μίμηση, λοιπόν, δεν θα μπορούσε να μην συμπεριληφθεί σε εφαρμογές της μηχανικής μάθησης, όπου αλγόριθμοι των πεδίων επιτηρούμενης μάθησης και ενισχυτικής μάθησης εκμεταλλεύονται την χρήση τεχνικών απευθείας, κυρίως, μίμησης, όπου ο πράκτορας που λειτουργεί ως "μέντορας'' προσπαθεί να "διδάξει'' απευθείας άλλους. Η μηχανική εκμάθηση μέσω έμμεσης μίμησης, από την άλλη, θεωρεί ότι οι πράκτορες-μιμητές απλά παρατηρούν τις αλλαγές καταστάσεων που προκύπτουν από την συμπεριφορά ενός πράκτορα που επιλέγουν ως μέντορα, και προσπαθούν να τις αναπαράγουν με βάση τις δικές τους δυνατότητες και γνώση του περιβάλλοντός τους. Αν και η έμμεση μίμηση έχει χρησιμοποιηθεί με ικανοποιητικά αποτελέσματα στο απώτερο παρελθόν, μόλις πρόσφατα έχει αξιοποιηθεί σε συνδυασμό με βαθιά ενισχυτική μάθηση, η οποία αποτελεί μια τρέχουσα τεχνολογία αιχμής στη μηχανική μάθηση. Στην παρούσα διπλωματική εργασία, βελτιώνουμε περαιτέρω την διαδικασία της έμμεσης μηχανικής εκμάθησης ενσωματώνοντας τέσσερις σύγχρονους αλγόριθμους βαθειάς ενισχυτικής μάθησης, τους οποίους θεωρούμε και χρησιμοποιούμε ως δομικά στοιχεία βελτιστοποίησης της προσπάθειας μίμησης. Οι εν λόγω αλγόριθμοι είναι οι Double Deep Q-network [Hasselt, Guez, and Silver, 2016], Prioritized Experience Replay [Schaul et al., 2016], Dueling Network Architecture [Wang et al., 2016] και Parameter Space Noise for Exploration [Plappert et al., 2018]. Προσαρμόσαμε τη λειτουργία των αλγορίθμων ώστε να συνάδει με το μοντέλο της έμμεσης μίμησης. Ενεργοποιώντας και απενεργοποιώντας τις παραπάνω μεθόδους, δημιουργούμε ποικίλους συνδυασμούς αυτών, και δοκιμάζουμε μεθοδικά και συγκρίνουμε την βιωσιμότητα του κάθε ενός από αυτούς τους συνδυασμούς. Οι πειραματισμοί μας κατέληξαν στην ανάδειξη ενός ξεκάθαρου "νικητή”: συγκεκριμένα, του συνδυασμού των Double Deep Q-network, Prioritized Experience Replay και Dueling Network Architecture.	el
Τύπος	Διπλωματική Εργασία	el
Τύπος	Diploma Work	en
Άδεια Χρήσης	http://creativecommons.org/licenses/by/4.0/	en
Ημερομηνία	2021-09-16	-
Ημερομηνία Δημοσίευσης	2021	-
Θεματική Κατηγορία	Artificial Intelligence	en
Θεματική Κατηγορία	Τεχνητή Νοημοσύνη	el
Θεματική Κατηγορία	Parameter space noise for exploration	en
Θεματική Κατηγορία	Dueling network architecture	en
Θεματική Κατηγορία	Prioritized experience replay	en
Θεματική Κατηγορία	Replay buffer	en
Θεματική Κατηγορία	DDQN	en
Θεματική Κατηγορία	Βαθιά ενισχυτική μάθηση	el
Θεματική Κατηγορία	Ενισχυτική μάθηση	el
Θεματική Κατηγορία	Q-learning	en
Θεματική Κατηγορία	DQN	en
Θεματική Κατηγορία	Deep Q-Network	en
Θεματική Κατηγορία	Optimization	en
Θεματική Κατηγορία	Βελτιστοποίηση	el
Θεματική Κατηγορία	Έμμεση Μίμηση	el
Θεματική Κατηγορία	Μάθηση μέσω Μίμησης	el
Θεματική Κατηγορία	Νευρωνικά δίκτυα	el
Θεματική Κατηγορία	Μηχανική μάθηση	el
Θεματική Κατηγορία	Neural networks	en
Θεματική Κατηγορία	Implicit imitation	en
Θεματική Κατηγορία	Imitation learning	en
Θεματική Κατηγορία	Deep reinforcement learning	en
Θεματική Κατηγορία	Machine learning	en
Θεματική Κατηγορία	Reinforcement learning	en
Θεματική Κατηγορία	Deep double Q-network	en
Θεματική Κατηγορία	Double Q-learning	en
Βιβλιογραφική Αναφορά	Iason Chrysomallis, "Deep reinforcement learning exploiting a mentor's guidance", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021	en
Βιβλιογραφική Αναφορά	Ιάσων Χρυσομάλλης, "Βαθιά υπό καθοδήγηση ενισχυτική μάθηση", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021	el

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Βαθιά υπό καθοδήγηση ενισχυτική μάθηση

Chrysomallis Iason

Διαθέσιμα αρχεία

Υπηρεσίες

Εξαγωγή

Κοινοποίηση

Στατιστικά

Μεταδεδομένων & Περιεχομένου σε METS:

Μεταδεδομένων σε Μορφότυπο: