Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας

Karalakou Athanasia

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/FD73B447-C6D8-4B68-8C2B-BD9621A9A920
Έτος 2022
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Αθανασία Καραλάκου, "Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2022 https://doi.org/10.26233/heallink.tuc.92889
Εμφανίζεται στις Συλλογές

Περίληψη

Η οδική κυκλοφορία σε δρόμους χωρίς λωρίδες είναι ένας νέος τομέας έρευνας με ιδιαίτερες προκλήσεις, όπου τα οχήματα δεν περιορίζονται από την έννοια των λωρίδων, αλλά διαθέτουν τη δυνατότητα να βρίσκονται σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό συνιστά έναν εντελώς διαφορετικό τομέα προβλημάτων για την αυτόνομη οδήγηση σε σύγκριση με την κυκλοφορία που βασίζεται σε λωρίδες κυκλοφορίας, καθώς τα οχήματα λαμβάνουν υπόψη τους τον πραγματικά διαθέσιμο δισδιάστατο χώρο, ενώ και η διαδικασία που ακολουθούν για τη λήψη αποφάσεων πρέπει να προσαρμοστεί σε αυτήν την ιδέα. Επιπλέον, η έλλειψη των «οχημάτων-οδηγών» και της λειτουργίας αλλαγής κυκλοφοριακής λωρίδας σε παρακείμενες λωρίδες, συνιστούν αναγκαία τη σωστή προσαρμογή των παρατηρήσεων των οχημάτων στο περιβάλλον χωρίς λωρίδες, δίχως να υπάρχει μεροληψία από προσεγγίσεις που βασίζονται στην ύπαρξη κυκλοφοριακών λωρίδων. Ακόμα, κάθε όχημα αποσκοπεί να διατηρήσει μια (διαφορετική) επιθυμητή ταχύτητα, δημιουργώντας έτσι πολλές καταστάσεις όπου τα οχήματα πρέπει να προσπεράσουν και να αντιδράσουν κατάλληλα στη συμπεριφορά των άλλων.Ταυτόχρονα, η Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning) έχει ήδη χρησιμοποιηθεί επιτυχώς σε ποίκιλες εφαρμογές, ενώ το γεγονός ότι μπορεί να χειριστεί υψηλών διαστάσεων χώρους καταστάσεων και ενεργειών, την καθιστά ιδιαίτερα κατάλληλη για τον έλεγχο αυτόνομων οχημάτων. Ωστόσο, μέχρι σήμερα, δεν υπάρχουν εργασίες που να έχουν αξιοποιήσει την (Βαθιά ή μη) Ενισχυτική Μάθηση για την κίνηση οχημάτων σε δρόμους χωρίς λωρίδες.Τούτων δοθέντων, η παρούσα διπλωματική εργασία ξεκινά τη μελέτη της εφαρμογής της (Βαθιάς) Ενισχυτικής Μάθησης σε περιβάλλοντα κυκλοφορίας χωρίς λωρίδες. Για το σκοπό αυτό, μοντελοποιήσαμε το πρόβλημα της αυτόνομης οδήγησης χωρίς λωρίδες ως μια Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process), λαμβάνοντας υπόψη όλα τα επιμέρους στοιχεία της. Εξετάσαμε την αναπαράσταση του δισδιάστατου χώρου ενεργειών, θεωρώντας τον, είτε ως συνεχή, είτε ως διακριτό, ενώ ορίσαμε και το χώρο καταστάσεων. Το κύριο μέλημα μας, ωστόσο, υπήρξε η σχεδίαση μίας αποδοτικής συνάρτησης ανταμοιβής, καθώς το μοντέλο ανταμοιβής είναι ιδιαίτερης σημασίας και καθορίζει τη συνολική αποτελεσματικότητα της πολιτικής που προκύπτει.Συγκεκριμένα, κατασκευάσαμε διαφορετικές συνιστώσες συναρτήσεων ανταμοιβής, οι οποίες συνδέονται με το περιβάλλον σε διάφορα επίπεδα πληροφορίας. Έπειτα, συνδυάσαμε και συγκρίναμε τις προαναφερθείσες συνιστώσες, με σκοπό στην εύρεση μιας αποτελεσματικής συνάρτησης ανταμοιβής, η οποία οδηγεί σε μια πολιτική που επιτυγχάνει ταυτόχρονα τη μείωση των συγκρούσεων με άλλα οχήματα, αλλά και την διατήρηση μίας επιθυμητής ταχύτητας. Επιπλέον, συγκρίνουμε δύο αρκετά δημοφιλείς και θεμελιακούς αλγορίθμους βαθιάς μάθησης, πιο συγκεκριμένα τον αλγόριθμο Deep Q-Networks (DQN), εφοδιασμένο με ορισμένες ευρέως χρησιμοποιούμενες επεκτάσεις, και τον αλγόριθμο Deep Deterministic Policy Gradient (DDPG). Tα πειραματικά μας αποτελέσματα υποδεικνύουν ότι ο DDPG έχει συνολικά καλύτερη απόδοση και επιβεβαιώνουν ότι τα αυτόνομα οχήματα που χρησιμοποιούν Βαθιά Ενισχυτική Μάθηση είναι σε θέση να μαθαίνουν σταδιακά όλο και πιο αποτελεσματικές πολιτικές σε περιβάλλοντα με διαφορετικά επίπεδα δυσκολίας.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά