URI | http://purl.tuc.gr/dl/dias/EEF7B227-2A2B-4BB0-8ED1-579574DE4D69 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.87066 | - |
Γλώσσα | en | - |
Μέγεθος | 2.2 megabytes | en |
Μέγεθος | 67 pages | en |
Τίτλος | Reinforcement learning for autonomous unmanned aerial vehicles
| en |
Τίτλος | Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα
| el |
Δημιουργός | Geramanis Nikolaos | en |
Δημιουργός | Γεραμανης Νικολαος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Partsinevelos Panagiotis | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Παρτσινεβελος Παναγιωτης | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Lagoudakis Michail | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Bletsas Aggelos | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Μπλετσας Αγγελος | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περιγραφή | Διπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Διπλώματος. | el |
Περίληψη | Reinforcement learning is an area of machine learning concerned with how autonomous agents learn to behave in unknown environments through trial-and-error. The goal of a reinforcement learning agent is to learn a sequential decision policy that maximizes the notion of cumulative reward through continuous interaction with the unknown environment. A challenging problem in robotics is the autonomous navigation of an Unmanned Aerial Vehicle (UAV) in worlds with no available map. This ability is critical in many applications, such as search and rescue operations or the mapping of geographical areas. In this thesis, we present a map-less approach for the autonomous, safe navigation of a UAV in unknown environments using reinforcement learning. Specifically, we implemented two popular algorithms, SARSA(λ) and Least-Squares Policy Iteration (LSPI), and combined them with tile coding, a parametric, linear approximation architecture for value function in order to deal with the 5- or 3-dimensional continuous state space defined by the measurements of the UAV distance sensors. The final policy of each algorithm, learned over only 500 episodes, was tested in unknown environments more complex than the one used for training in order to evaluate the behavior of each policy. Results show that SARSA(λ) was able to learn a near-optimal policy that performed adequately even in unknown situations, leading the UAV along paths free-of-collisions with obstacles. LSPI's policy required less learning time and its performance was promising, but not as effective, as it occasionally leads to collisions in unknown situations. The whole project was implemented using the Robot Operating System (ROS) framework and the Gazebo robot simulation environment. | en |
Περίληψη | Η ενισχυτική μάθηση είναι ένας τομέας της μηχανικής μάθησης που ασχολείται με το πως οι αυτόνομοι πράκτορες μαθαίνουν να συμπεριφέρονται σε άγνωστα περιβάλλοντα μέσω μιας διαδικασίας δοκιμής και σφάλματος. Ο στόχος ενός πράκτορα ενισχυτικής μάθησης είναι να μάθει μια πολιτική ακολουθιακής λήψης αποφάσεων, η οποία μεγιστοποιεί την έννοια της αθροιστικής αμοιβής, μέσα από συνεχή αλληλεπίδραση με το άγνωστο περιβάλλον. Ένα απαιτητικό πρόβλημα στη ρομποτική είναι η αυτόνομη πλοήγηση ενός μη-επανδρωμένου ιπτάμενου οχήματος (Unmanned Aerial Vehicle – UAV) σε κόσμους χωρίς διαθέσιμο χάρτη. Αυτή η ικανότητα είναι κρίσιμη σε διάφορες εφαρμογές, όπως αποστολές έρευνας και διάσωσης και χαρτογράφηση γεωγραφικών περιοχών. Η παρούσα διπλωματική εργασία παρουσιάζει μια προσέγγιση για την αυτόνομη, ασφαλή πλοήγηση ενός UAV χωρίς χρήση χάρτη, σε άγνωστα περιβάλλοντα χρησιμοποιώντας ενισχυτική μάθηση. Πιο συγκεκριμένα, υλοποιήσαμε δύο γνωστούς αλγορίθμους, τον SARSA(λ) και τον Least-Squares Policy Iteration (LSPI), και τους συνδυάσαμε με την τεχνική tile coding, μια παραμετρική, γραμμική αρχιτεκτονική προσέγγισης της συνάρτησης τιμής με σκοπό να αντιμετωπίσουμε τον 5- ή 3-διάστατο συνεχή χώρο καταστάσεων που ορίζεται από τις μετρήσεις των αισθητήρων απόστασης του UAV. Η τελική πολιτική κάθε αλγορίθμου, μετά από μάθηση σε 500 επεισόδια, δοκιμάστηκε και σε άγνωστα περιβάλλοντα πιο πολύπλοκα από αυτό της εκπαίδευσης με σκοπό να αξιολογηθεί η συμπεριφορά κάθε πολιτικής. Τα αποτελέσματα δείχνουν πως ο SARSA(λ) ήταν ικανός να μάθει μια σχεδόν-βέλτιστη συμπεριφορά, η οποία απέδωσε ικανοποιητικά ακόμη και στις άγνωστες συνθήκες, οδηγώντας το UAV σε διαδρομές χωρίς συγκρούσεις με εμπόδια. Η πολιτική του LSPI απαίτησε λιγότερο χρόνο μάθησης και η απόδοσή της έδειξε καλές προοπτικές, δεν ήταν όμως τόσο αποτελεσματική, καθώς σε κάποιες περιπτώσεις οδήγησε σε συγκρούσεις στις άγνωστες συνθήκες. Η εργασία στο σύνολό της έχει υλοποιηθεί χρησιμοποιώντας το Robot Operating System (ROS) και το περιβάλλον ρομποτικής προσομοίωσης Gazebo. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2020-10-15 | - |
Ημερομηνία Δημοσίευσης | 2020 | - |
Θεματική Κατηγορία | Ενισχυτική Μάθηση | el |
Θεματική Κατηγορία | Reinforcement Learning | en |
Θεματική Κατηγορία | Μη-Επανδρωμένα Ιπτάμενα Οχήματα | el |
Θεματική Κατηγορία | Unmanned Aerial Vehicles – UAVs | en |
Βιβλιογραφική Αναφορά | Nikolaos Geramanis, "Reinforcement learning for autonomous unmanned aerial vehicles", Diploma Work, School of Electrical and Computer Engineering, Technical Univesity of Crete, Chania, Greece, 2020 | el |
Βιβλιογραφική Αναφορά | Νικόλαος Γεραμάνης, "Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020 | el |