Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα

Geramanis Nikolaos

URI	http://purl.tuc.gr/dl/dias/EEF7B227-2A2B-4BB0-8ED1-579574DE4D69	-
Αναγνωριστικό	https://doi.org/10.26233/heallink.tuc.87066	-
Γλώσσα	en	-
Μέγεθος	2.2 megabytes	en
Μέγεθος	67 pages	en
Τίτλος	Reinforcement learning for autonomous unmanned aerial vehicles	en
Τίτλος	Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα	el
Δημιουργός	Geramanis Nikolaos	en
Δημιουργός	Γεραμανης Νικολαος	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Partsinevelos Panagiotis	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Παρτσινεβελος Παναγιωτης	el
Συντελεστής [Επιβλέπων Καθηγητής]	Lagoudakis Michail	en
Συντελεστής [Επιβλέπων Καθηγητής]	Λαγουδακης Μιχαηλ	el
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Bletsas Aggelos	en
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]	Μπλετσας Αγγελος	el
Εκδότης	Πολυτεχνείο Κρήτης	el
Εκδότης	Technical University of Crete	en
Ακαδημαϊκή Μονάδα	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Περιγραφή	Διπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Διπλώματος.	el
Περίληψη	Reinforcement learning is an area of machine learning concerned with how autonomous agents learn to behave in unknown environments through trial-and-error. The goal of a reinforcement learning agent is to learn a sequential decision policy that maximizes the notion of cumulative reward through continuous interaction with the unknown environment. A challenging problem in robotics is the autonomous navigation of an Unmanned Aerial Vehicle (UAV) in worlds with no available map. This ability is critical in many applications, such as search and rescue operations or the mapping of geographical areas. In this thesis, we present a map-less approach for the autonomous, safe navigation of a UAV in unknown environments using reinforcement learning. Specifically, we implemented two popular algorithms, SARSA(λ) and Least-Squares Policy Iteration (LSPI), and combined them with tile coding, a parametric, linear approximation architecture for value function in order to deal with the 5- or 3-dimensional continuous state space defined by the measurements of the UAV distance sensors. The final policy of each algorithm, learned over only 500 episodes, was tested in unknown environments more complex than the one used for training in order to evaluate the behavior of each policy. Results show that SARSA(λ) was able to learn a near-optimal policy that performed adequately even in unknown situations, leading the UAV along paths free-of-collisions with obstacles. LSPI's policy required less learning time and its performance was promising, but not as effective, as it occasionally leads to collisions in unknown situations. The whole project was implemented using the Robot Operating System (ROS) framework and the Gazebo robot simulation environment.	en
Περίληψη	Η ενισχυτική μάθηση είναι ένας τομέας της μηχανικής μάθησης που ασχολείται με το πως οι αυτόνομοι πράκτορες μαθαίνουν να συμπεριφέρονται σε άγνωστα περιβάλλοντα μέσω μιας διαδικασίας δοκιμής και σφάλματος. Ο στόχος ενός πράκτορα ενισχυτικής μάθησης είναι να μάθει μια πολιτική ακολουθιακής λήψης αποφάσεων, η οποία μεγιστοποιεί την έννοια της αθροιστικής αμοιβής, μέσα από συνεχή αλληλεπίδραση με το άγνωστο περιβάλλον. Ένα απαιτητικό πρόβλημα στη ρομποτική είναι η αυτόνομη πλοήγηση ενός μη-επανδρωμένου ιπτάμενου οχήματος (Unmanned Aerial Vehicle – UAV) σε κόσμους χωρίς διαθέσιμο χάρτη. Αυτή η ικανότητα είναι κρίσιμη σε διάφορες εφαρμογές, όπως αποστολές έρευνας και διάσωσης και χαρτογράφηση γεωγραφικών περιοχών. Η παρούσα διπλωματική εργασία παρουσιάζει μια προσέγγιση για την αυτόνομη, ασφαλή πλοήγηση ενός UAV χωρίς χρήση χάρτη, σε άγνωστα περιβάλλοντα χρησιμοποιώντας ενισχυτική μάθηση. Πιο συγκεκριμένα, υλοποιήσαμε δύο γνωστούς αλγορίθμους, τον SARSA(λ) και τον Least-Squares Policy Iteration (LSPI), και τους συνδυάσαμε με την τεχνική tile coding, μια παραμετρική, γραμμική αρχιτεκτονική προσέγγισης της συνάρτησης τιμής με σκοπό να αντιμετωπίσουμε τον 5- ή 3-διάστατο συνεχή χώρο καταστάσεων που ορίζεται από τις μετρήσεις των αισθητήρων απόστασης του UAV. Η τελική πολιτική κάθε αλγορίθμου, μετά από μάθηση σε 500 επεισόδια, δοκιμάστηκε και σε άγνωστα περιβάλλοντα πιο πολύπλοκα από αυτό της εκπαίδευσης με σκοπό να αξιολογηθεί η συμπεριφορά κάθε πολιτικής. Τα αποτελέσματα δείχνουν πως ο SARSA(λ) ήταν ικανός να μάθει μια σχεδόν-βέλτιστη συμπεριφορά, η οποία απέδωσε ικανοποιητικά ακόμη και στις άγνωστες συνθήκες, οδηγώντας το UAV σε διαδρομές χωρίς συγκρούσεις με εμπόδια. Η πολιτική του LSPI απαίτησε λιγότερο χρόνο μάθησης και η απόδοσή της έδειξε καλές προοπτικές, δεν ήταν όμως τόσο αποτελεσματική, καθώς σε κάποιες περιπτώσεις οδήγησε σε συγκρούσεις στις άγνωστες συνθήκες. Η εργασία στο σύνολό της έχει υλοποιηθεί χρησιμοποιώντας το Robot Operating System (ROS) και το περιβάλλον ρομποτικής προσομοίωσης Gazebo.	el
Τύπος	Διπλωματική Εργασία	el
Τύπος	Diploma Work	en
Άδεια Χρήσης	http://creativecommons.org/licenses/by/4.0/	en
Ημερομηνία	2020-10-15	-
Ημερομηνία Δημοσίευσης	2020	-
Θεματική Κατηγορία	Ενισχυτική Μάθηση	el
Θεματική Κατηγορία	Reinforcement Learning	en
Θεματική Κατηγορία	Μη-Επανδρωμένα Ιπτάμενα Οχήματα	el
Θεματική Κατηγορία	Unmanned Aerial Vehicles – UAVs	en
Βιβλιογραφική Αναφορά	Nikolaos Geramanis, "Reinforcement learning for autonomous unmanned aerial vehicles", Diploma Work, School of Electrical and Computer Engineering, Technical Univesity of Crete, Chania, Greece, 2020	el
Βιβλιογραφική Αναφορά	Νικόλαος Γεραμάνης, "Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020	el

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Ενισχυτική μάθηση για αυτόνομα μη-επανδρωμένα ιπτάμενα οχήματα

Geramanis Nikolaos

Διαθέσιμα αρχεία

Υπηρεσίες

Εξαγωγή

Κοινοποίηση

Στατιστικά

Μεταδεδομένων & Περιεχομένου σε METS:

Μεταδεδομένων σε Μορφότυπο: