Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας

Karalakou Athanasia

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/FD73B447-C6D8-4B68-8C2B-BD9621A9A920-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.92889-
Γλώσσαen-
Μέγεθος81 pagesen
Μέγεθος2.5 megabytesen
ΤίτλοςDeep reinforcement learning reward function design for lane-free autonomous drivingen
ΤίτλοςΣχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίαςel
ΔημιουργόςKaralakou Athanasiaen
ΔημιουργόςΚαραλακου Αθανασιαel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Lagoudakis Michailen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Papamichail Ioannisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Παπαμιχαηλ Ιωαννηςel
Συντελεστής [Επιβλέπων Καθηγητής]Chalkiadakis Georgiosen
Συντελεστής [Επιβλέπων Καθηγητής]Χαλκιαδακης Γεωργιοςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηLane-free traffic is a novel and challenging research domain, in which vehicles do not adhere to the notion of lanes, but are rather able to be located at any lateral position within the road boundaries. This constitutes an entirely different problem domain for autonomous driving compared to lane-based traffic, as vehicles consider the entirety of the two-dimensional space available, and their decision-making needs to adapt to this concept. There is no leader vehicle or lane-changing operation to adjacent lanes, therefore the observations of the vehicles need to properly accommodate the lane-free environment without carrying over bias from lane-based approaches. In addition, each vehicle wishes to maintain a (different) desired speed, therefore creating many situations in which vehicles need to perform overtaking and react appropriately to the behavior of others. At the same time, Deep Reinforcement Learning (DRL) has already been used in a variety of applications, while the fact that it can handle high dimensional state and action spaces makes it suitable for controlling autonomous vehicles. Existing studies, however, have not employed Reinforcement Learning (deep or otherwise) in the lane-free traffic domain. Against this background, this diploma thesis initiates the study of the application of (Deep) Reinforcement Learning to lane-free traffic environments. To this end, we put forward a Markov Decision Process formulation for the problem of Lane-Free Autonomous Driving, by addressing all its elements. We consider the two-dimensional continuous action space, along with a discretized form, as well as the state space. Our main focus is on designing an effective reward function, as the reward model is crucial and determines the overall efficiency of the resulting policy. Specifically, we construct different components of reward functions tied to the environment at various levels of information. Then, we combine and collate the aforementioned components and focus on attaining a reward function that results in a policy that manages to both reduce the collisions among vehicles, and also address their requirement of maintaining a desired speed. Additionally, we study the performance of two quite popular DRL algorithms---namely Deep Q-Networks (enhanced with some commonly used extensions), and Deep Deterministic Policy Gradient (DDPG). Our experimental results indicate that DDPG has an overall better performance, and confirm that our DRL-employing autonomous vehicles are able to gradually learn effective policies in environments with varying levels of difficulty. en
ΠερίληψηΗ οδική κυκλοφορία σε δρόμους χωρίς λωρίδες είναι ένας νέος τομέας έρευνας με ιδιαίτερες προκλήσεις, όπου τα οχήματα δεν περιορίζονται από την έννοια των λωρίδων, αλλά διαθέτουν τη δυνατότητα να βρίσκονται σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό συνιστά έναν εντελώς διαφορετικό τομέα προβλημάτων για την αυτόνομη οδήγηση σε σύγκριση με την κυκλοφορία που βασίζεται σε λωρίδες κυκλοφορίας, καθώς τα οχήματα λαμβάνουν υπόψη τους τον πραγματικά διαθέσιμο δισδιάστατο χώρο, ενώ και η διαδικασία που ακολουθούν για τη λήψη αποφάσεων πρέπει να προσαρμοστεί σε αυτήν την ιδέα. Επιπλέον, η έλλειψη των «οχημάτων-οδηγών» και της λειτουργίας αλλαγής κυκλοφοριακής λωρίδας σε παρακείμενες λωρίδες, συνιστούν αναγκαία τη σωστή προσαρμογή των παρατηρήσεων των οχημάτων στο περιβάλλον χωρίς λωρίδες, δίχως να υπάρχει μεροληψία από προσεγγίσεις που βασίζονται στην ύπαρξη κυκλοφοριακών λωρίδων. Ακόμα, κάθε όχημα αποσκοπεί να διατηρήσει μια (διαφορετική) επιθυμητή ταχύτητα, δημιουργώντας έτσι πολλές καταστάσεις όπου τα οχήματα πρέπει να προσπεράσουν και να αντιδράσουν κατάλληλα στη συμπεριφορά των άλλων. Ταυτόχρονα, η Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning) έχει ήδη χρησιμοποιηθεί επιτυχώς σε ποίκιλες εφαρμογές, ενώ το γεγονός ότι μπορεί να χειριστεί υψηλών διαστάσεων χώρους καταστάσεων και ενεργειών, την καθιστά ιδιαίτερα κατάλληλη για τον έλεγχο αυτόνομων οχημάτων. Ωστόσο, μέχρι σήμερα, δεν υπάρχουν εργασίες που να έχουν αξιοποιήσει την (Βαθιά ή μη) Ενισχυτική Μάθηση για την κίνηση οχημάτων σε δρόμους χωρίς λωρίδες. Τούτων δοθέντων, η παρούσα διπλωματική εργασία ξεκινά τη μελέτη της εφαρμογής της (Βαθιάς) Ενισχυτικής Μάθησης σε περιβάλλοντα κυκλοφορίας χωρίς λωρίδες. Για το σκοπό αυτό, μοντελοποιήσαμε το πρόβλημα της αυτόνομης οδήγησης χωρίς λωρίδες ως μια Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process), λαμβάνοντας υπόψη όλα τα επιμέρους στοιχεία της. Εξετάσαμε την αναπαράσταση του δισδιάστατου χώρου ενεργειών, θεωρώντας τον, είτε ως συνεχή, είτε ως διακριτό, ενώ ορίσαμε και το χώρο καταστάσεων. Το κύριο μέλημα μας, ωστόσο, υπήρξε η σχεδίαση μίας αποδοτικής συνάρτησης ανταμοιβής, καθώς το μοντέλο ανταμοιβής είναι ιδιαίτερης σημασίας και καθορίζει τη συνολική αποτελεσματικότητα της πολιτικής που προκύπτει. Συγκεκριμένα, κατασκευάσαμε διαφορετικές συνιστώσες συναρτήσεων ανταμοιβής, οι οποίες συνδέονται με το περιβάλλον σε διάφορα επίπεδα πληροφορίας. Έπειτα, συνδυάσαμε και συγκρίναμε τις προαναφερθείσες συνιστώσες, με σκοπό στην εύρεση μιας αποτελεσματικής συνάρτησης ανταμοιβής, η οποία οδηγεί σε μια πολιτική που επιτυγχάνει ταυτόχρονα τη μείωση των συγκρούσεων με άλλα οχήματα, αλλά και την διατήρηση μίας επιθυμητής ταχύτητας. Επιπλέον, συγκρίνουμε δύο αρκετά δημοφιλείς και θεμελιακούς αλγορίθμους βαθιάς μάθησης, πιο συγκεκριμένα τον αλγόριθμο Deep Q-Networks (DQN), εφοδιασμένο με ορισμένες ευρέως χρησιμοποιούμενες επεκτάσεις, και τον αλγόριθμο Deep Deterministic Policy Gradient (DDPG). Tα πειραματικά μας αποτελέσματα υποδεικνύουν ότι ο DDPG έχει συνολικά καλύτερη απόδοση και επιβεβαιώνουν ότι τα αυτόνομα οχήματα που χρησιμοποιούν Βαθιά Ενισχυτική Μάθηση είναι σε θέση να μαθαίνουν σταδιακά όλο και πιο αποτελεσματικές πολιτικές σε περιβάλλοντα με διαφορετικά επίπεδα δυσκολίας.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2022-07-25-
Ημερομηνία Δημοσίευσης2022-
Θεματική ΚατηγορίαMachine learningen
Θεματική ΚατηγορίαDeep reinforcement learningen
Θεματική ΚατηγορίαLane-Free trafficen
Θεματική ΚατηγορίαAutonomous drivingen
Βιβλιογραφική ΑναφοράAthanasia Karalakou, "Deep reinforcement learning reward function design for lane-free autonomous driving", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2022en
Βιβλιογραφική ΑναφοράΑθανασία Καραλάκου, "Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2022el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά