Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Ενισχυτική μάθηση για αιώρηση και ισορροπία ενός τρισδιάστατου ανθρωποειδούς μοντέλου

Papadimitriou Panagiotis

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/FAC034FB-7F9D-4CF7-A0C5-25FE0E6EB331-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.88825-
Γλώσσαen-
Μέγεθος63 pagesen
ΤίτλοςReinforcement learning for swing up and balancing of three-dimensional humanoid modelen
ΤίτλοςΕνισχυτική μάθηση για αιώρηση και ισορροπία ενός τρισδιάστατου ανθρωποειδούς μοντέλουel
ΔημιουργόςPapadimitriou Panagiotisen
ΔημιουργόςΠαπαδημητριου Παναγιωτηςel
Συντελεστής [Επιβλέπων Καθηγητής]Lagoudakis Michailen
Συντελεστής [Επιβλέπων Καθηγητής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Zervakis Michailen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Ζερβακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Diakoloukas Vasileiosen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Διακολουκας Βασιλeioςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηΗ Ενισχυτική Μάθηση, ως υποπεδίο της Τεχνητής Νοημοσύνης και της Μηχανικής Μάθησης, έχει γίνει αρκετά δημοφιλής τα τελευταία χρόνια. Από εκπαιδευμένους πράκτορες που παίζουν βιντεοπαιχνίδια ή σκάκι σε επίπεδο εμπειρογνωμόνων έως και αυτοοδηγούμενα οχήματα στους δρόμους, έχουν επιτευχθεί πολλά πρωτοποριακά αποτελέσματα χάρη στις εξελίξεις στην Ενισχυτική Μάθηση. Ο συνδυασμός της Ενισχυτικής Μάθησης και της Ρομποτικής έχει το πρόσθετο πλεονέκτημα ότι πράκτορες εκπαιδευμένοι σε προσομοίωση θα μπορούσαν τελικά να μεταφερθούν σε πραγματικά ρομπότ που μπορούν να χρησιμοποιηθούν σε ποικίλες εργασίες για να βοηθήσουν τους ανθρώπους. Σε αυτή τη διπλωματική εργασία, κατασκευάζουμε ένα τρισδιάστατο μοντέλο ανθρωποειδούς που κρέμεται από μια οριζόντια ράβδο (ένας ακροβάτης) μέσα σε ένα ρεαλιστικό περιβάλλον προσομοίωσης, βασιζόμενοι σε μοντέλο ανθρωποειδούς που αρχικά κατασκευάστηκε για πειράματα μάθησης για βάδισμα. Ο στόχος του πράκτορα που ελέγχει τις κινήσεις του μοντέλου ανθρωποειδούς είναι να αιωρηθεί προς τα πάνω και τελικά να εξισορροπήσει το μοντέλο ανθρωποειδούς πάνω στη ράβδο. Η πρόκληση σε αυτό το πρόβλημα είναι ο πολυδιάστατος και συνεχής χώρος κατάστασης και δράσης, καθώς το μοντέλο έχει 19 βαθμούς ελευθερίας (αρθρώσεις) και 17 ενεργοποιητές (κινητήρες), μια περίπτωση όπου οι συμβατικές προσεγγίσεις μάθησης δεν εφαρμόζονται. Δοκιμάζουμε δύο αλγόριθμους ενισχυτικής μάθησης: Deep Deterministic Policy Gradient (DDPG) και Advantage Actor-Critic (A2C) για να εκπαιδεύσουμε τον πράκτορα χρησιμοποιώντας χιλιάδες δοκιμές και καταδεικνύουμε την πρόοδο της μάθησης. Εφαρμόστηκε ένα απλό σχήμα ανταμοιβής που επιβραβεύει τον πράκτορα ανάλογα με το ύψος που έχει φτάσει ανά πάσα στιγμή, αλλά δεν αποκαλύπτει πληροφορίες σχετικά με τη φύση του προβλήματος. Μέσα από τον εκτεταμένο πειραματισμό που πραγματοποιήσαμε και με τους δύο αλγόριθμους και με κάποιες παραλλαγές του μοντέλου, καταλήξαμε στο συμπέρασμα ότι ο πιο αποτελεσματικός αλγόριθμος και η καλύτερη προσέγγιση στο πρόβλημα ήταν ο DDPG, ο οποίος μέσω κάποιων ρυθμίσεων των παραμέτρων του προβλήματος απέδωσε ικανοποιητικά αποτελέσματα. Ο πράκτορας που προέκυψε μετά τη μάθηση μπορεί να πετύχει τον στόχο στις περισσότερες δοκιμές ξεκινώντας από οποιαδήποτε αρχική στάση.el
ΠερίληψηReinforcement Learning, as a subfield of Artificial Intelligence and Machine Learning, has gained a lot of traction in recent years. From trained agents playing video games or chess at expert level to self-driving cars in the streets, a lot of ground-breaking results have been achieved thanks to advances in Reinforcement Learning. The combination of Reinforcement Learning and Robotics has the additional advantage that agents trained in simulation could eventually be carried over to real robots that can be utilized in varying tasks to aid humans. In this diploma thesis, we construct a 3-dimensional humanoid model hanging below a horizontal bar (an acrobat) within a realistic simulation environment, based on humanoid model originally made for walk learning experiments. The goal of the agent that controls the actions of the humanoid model is to swing up and eventually balance the humanoid model on the bar. The challenge in this problem is the high-dimensional and continuous state and action space, since the model has 19 degrees of freedom (joints) and 17 actuators (motors), a case where conventional learning approaches do not apply. We try out two Reinforcement Learning algorithms: Deep Deterministic Policy Gradient (DDPG) and Advantage Actor-Critic (A2C) to train the agent using thousands of trials and we demonstrate the learning progress. A simple reward scheme was adopted that rewards the agent proportionally to the height reached at any time, but does not reveal any information about the nature of the problem. Through the extensive experimentation we conducted with both algorithms and some variations of the model, we deduced that the most efficient algorithm and a better fit to the problem at hand was DDPG, which through some tuning of the problem parameters yielded satisfying results. The resulting agent after learning is able to complete the task in most trials from any starting pose.en
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2021-04-12-
Ημερομηνία Δημοσίευσης2021-
Θεματική ΚατηγορίαΕνισχυτική μάθησηel
Θεματική ΚατηγορίαReinforcement learningen
Βιβλιογραφική ΑναφοράΠαναγιώτης Παπαδημητρίου, "Ενισχυτική μάθηση για αιώρηση και ισορροπία ενός τρισδιάστατου ανθρωποειδούς μοντέλου", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021el
Βιβλιογραφική ΑναφοράPanagiotis Papadimitriou, "Reinforcement learning for swing up and balancing of three-dimensional humanoid model", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2021el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά