Το έργο με τίτλο Αυτόνομη πλοήγηση drone για εκτίμηση θέσης διακριτικών με χρήση ενισχυτικής μάθησης από τον/τους δημιουργό/ούς Galanis Michalis διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Μιχάλης Γαλάνης, "Αυτόνομη πλοήγηση drone για εκτίμηση θέσης διακριτικών με χρήση ενισχυτικής μάθησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2021
https://doi.org/10.26233/heallink.tuc.90434
Τα μη επανδρωμένα αεροσκάφη (Unmanned Aerial Vehicles, UAVs) χρησιμοποιούνται ολοένα και περισσότερο για κρίσιμες και απαιτητικές εφαρμογές, οι οποίες συχνά απαιτούν ένα σημαντικό επίπεδο αυτονομίας. ‘ ́Εχουν διερευνηθεί διάφορες προσεγγίσεις για τη δημιουργία συστημάτων αυτόνομης πλοήγησης, όπως ο ταυτόχρονος εντοπισμός και χαρτογράφηση (SLAM) που υλοποιεί σε πραγματικό χρόνο χαρτογράφηση και εκτίμηση θέσης. Η Ενισχυτική Μάθηση (Reinforcement Learning, RL) θεωρείται μια πολλά υποσχόμενη εναλλακτική λύση που επικεντρώνεται στη μάθηση κάποιου έργου μέσω μιας διαδικασίας δοκιμής και σφάλματος, στην οποία ένας πράκτορας αλληλεπιδρά με το περιβάλλον του και λαμβάνει συνεχή αξιολόγηση εξαρτώμενη από τις ενέργειες που επιλέγει, χωρίς ωστόσο να έχει πρόσβαση σε πληροφορίες για το ίδιο το περιβάλλον. Εν τέλει, ο στόχος του πράκτορα είναι να βρει την καλύτερη δυνατή ακολουθία ενεργειών που θα εξασφαλίσουν τη μέγιστη συνολική ανταμοιβή μακροπρόθεσμα. Η παρούσα διπλωματική εργασία διερευνά μια προσέγγιση αυτόνομης πλοήγησης αεροσκαφών (χωρίς χάρτη) σε εντελώς άγνωστα τρισδιάστατα περιβάλλοντα χρησιμοποιώντας βαθιά ενισχυτική μάθηση (Deep Reinforcement Learning, DRL), μια προσέγγιση ενισχυτικής μάθησης που ενσωματώνει τεχνικές βαθιάς μάθησης (βαθιά νευρωνικάδίκτυα) για να αντιμετωπιστούν οι περιορισμοί διαστατικότητας. Ο στόχος του πράκτορα είναι να περιηγηθεί με ασφάλεια στο άγνωστο περιβάλλον, ώστε να εντοπίσει και να προσεγγίσει έναν προκαθορισμένο αριθμό διακριτικών δεικτών ArUco που είναι τοποθετημένοι μέσα στο περιβάλλον. Τα άγνωστα περιβάλλοντα δημιουργούνται δυναμικά και συμπεριλαμβάνουν έναν πλήθος από εμπόδια παραγόμενα με αυτοματοποιημένο τρόπο. Αξιολογούμε τον πράκτορας μας σε πέντε διαφορετικά προφίλ περιβαλλόντων με αυξανόμενο επίπεδο δυσκολίας και παρατηρούμε πως η πολυπλοκότητα του περιβάλλοντος επηρεάζει την απόδοση της μάθησης. Τα αποτελέσματα δείχνουν ότι η βαθιά ενισχυτική μάθηση μπορεί να είναι αποτελεσματική και μπορεί να χρησιμοποιηθεί επιτυχώς σε αποστολές αυτόνομης πλοήγησης. Η εργασία στο σύνολό της έχει υλοποιηθεί μέσω της πλατφόρμας Robot Operating System (ROS) στο περιβάλλον ρομποτικής προσομοίωσης Gazebo.