URI | http://purl.tuc.gr/dl/dias/FAC034FB-7F9D-4CF7-A0C5-25FE0E6EB331 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.88825 | - |
Γλώσσα | en | - |
Μέγεθος | 63 pages | en |
Τίτλος | Reinforcement learning for swing up and balancing of three-dimensional humanoid model | en |
Τίτλος | Ενισχυτική μάθηση για αιώρηση και ισορροπία ενός τρισδιάστατου ανθρωποειδούς μοντέλου | el |
Δημιουργός | Papadimitriou Panagiotis | en |
Δημιουργός | Παπαδημητριου Παναγιωτης | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Lagoudakis Michail | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Zervakis Michail | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Ζερβακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Diakoloukas Vasileios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Διακολουκας Βασιλeioς | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | Η Ενισχυτική Μάθηση, ως υποπεδίο της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης, έχει γίνει αρκετά δημοφιλής τα τελευταία χρόνια. Από εκπαιδευμένους πράκτορες που παίζουν βιντεοπαιχνίδια ή σκάκι σε επίπεδο εμπειρογνωμόνων έως και αυτοοδηγούμενα οχήματα στους δρόμους, έχουν επιτευχθεί πολλά πρωτοποριακά αποτελέσματα χάρη στις εξελίξεις στην Ενισχυτική Μάθηση. Ο συνδυασμός της Ενισχυτικής Μάθησης και της Ρομποτικής έχει το πρόσθετο πλεονέκτημα ότι πράκτορες εκπαιδευμένοι σε προσομοίωση θα μπορούσαν τελικά να μεταφερθούν σε πραγματικά ρομπότ που μπορούν να χρησιμοποιηθούν σε ποικίλες εργασίες για να βοηθήσουν τους ανθρώπους. Σε αυτή τη διπλωματική εργασία, κατασκευάζουμε ένα τρισδιάστατο μοντέλο ανθρωποειδούς που κρέμεται από μια οριζόντια ράβδο (ένας ακροβάτης) μέσα σε ένα ρεαλιστικό περιβάλλον προσομοίωσης, βασιζόμενοι σε μοντέλο ανθρωποειδούς που αρχικά κατασκευάστηκε για πειράματα μάθησης για βάδισμα. Ο στόχος του πράκτορα που ελέγχει τις κινήσεις του μοντέλου ανθρωποειδούς είναι να αιωρηθεί προς τα πάνω και τελικά να εξισορροπήσει το μοντέλο ανθρωποειδούς πάνω στη ράβδο. Η πρόκληση σε αυτό το πρόβλημα είναι ο πολυδιάστατος και συνεχής χώρος κατάστασης και δράσης, καθώς το μοντέλο έχει 19 βαθμούς ελευθερίας
(αρθρώσεις) και 17 ενεργοποιητές (κινητήρες), μια περίπτωση όπου οι συμβατικές προσεγγίσεις μάθησης δεν εφαρμόζονται. Δοκιμάζουμε δύο αλγόριθμους ενισχυτικής μάθησης: Deep Deterministic Policy Gradient (DDPG) και Advantage Actor-Critic (A2C) για να εκπαιδεύσουμε τον πράκτορα χρησιμοποιώντας χιλιάδες δοκιμές και καταδεικνύουμε την πρόοδο της μάθησης. Εφαρμόστηκε ένα απλό σχήμα ανταμοιβής που επιβραβεύει τον πράκτορα ανάλογα με το ύψος που έχει φτάσει ανά πάσα στιγμή, αλλά δεν αποκαλύπτει πληροφορίες σχετικά με τη φύση του προβλήματος. Μέσα από τον εκτεταμένο πειραματισμό που πραγματοποιήσαμε και με τους δύο αλγόριθμους και με κάποιες παραλλαγές του μοντέλου, καταλήξαμε στο συμπέρασμα ότι ο πιο αποτελεσματικός αλγόριθμος και η καλύτερη προσέγγιση στο πρόβλημα ήταν ο DDPG, ο οποίος μέσω κάποιων ρυθμίσεων των παραμέτρων του προβλήματος απέδωσε ικανοποιητικά αποτελέσματα. Ο πράκτορας που προέκυψε μετά τη μάθηση μπορεί να πετύχει τον στόχο στις περισσότερες δοκιμές ξεκινώντας από οποιαδήποτε αρχική στάση. | el |
Περίληψη | Reinforcement Learning, as a subfield of Artificial Intelligence and Machine Learning, has gained a lot of traction in recent years. From trained agents playing video games or chess at expert level to self-driving cars in the streets, a lot of ground-breaking results have been achieved thanks to advances in Reinforcement Learning. The combination of Reinforcement Learning and Robotics has the additional advantage that agents trained in simulation could eventually be carried over to real robots that can be utilized in varying tasks to aid humans. In this diploma thesis, we construct a 3-dimensional humanoid model hanging below a horizontal bar (an acrobat) within a realistic simulation environment, based on humanoid model originally made for walk learning experiments. The goal of the agent that controls the actions of the humanoid model is to swing up and eventually balance the humanoid model on the bar. The challenge in this problem is the high-dimensional and continuous state and action space, since the model has 19 degrees of freedom (joints) and 17 actuators (motors), a case where conventional learning approaches do not apply. We try out two Reinforcement Learning algorithms: Deep Deterministic Policy Gradient (DDPG) and Advantage Actor-Critic (A2C) to train the agent using thousands of trials and we demonstrate the learning progress. A simple reward scheme was adopted that rewards the agent proportionally to the height reached at any time, but does not reveal any information about the nature of the problem. Through the extensive experimentation we conducted with both algorithms and some variations of the model, we deduced that the most efficient algorithm and a better fit to the problem at hand was DDPG, which through some tuning of the problem parameters yielded satisfying results. The resulting agent after learning is able to complete the task in most trials from any starting pose. | en |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2021-04-12 | - |
Ημερομηνία Δημοσίευσης | 2021 | - |
Θεματική Κατηγορία | Ενισχυτική μάθηση | el |
Θεματική Κατηγορία | Reinforcement learning | en |
Βιβλιογραφική Αναφορά | Παναγιώτης Παπαδημητρίου, "Ενισχυτική μάθηση για αιώρηση και ισορροπία ενός τρισδιάστατου ανθρωποειδούς μοντέλου", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021 | el |
Βιβλιογραφική Αναφορά | Panagiotis Papadimitriou, "Reinforcement learning for swing up and balancing of three-dimensional humanoid model", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021 | el |