Deep reinforcement learning reward function design for lane-free autonomous driving

Karalakou Athanasia

URI	http://purl.tuc.gr/dl/dias/FD73B447-C6D8-4B68-8C2B-BD9621A9A920	-
Identifier	https://doi.org/10.26233/heallink.tuc.92889	-
Language	en	-
Extent	81 pages	en
Extent	2.5 megabytes	en
Title	Deep reinforcement learning reward function design for lane-free autonomous driving	en
Title	Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας	el
Creator	Karalakou Athanasia	en
Creator	Καραλακου Αθανασια	el
Contributor [Committee Member]	Lagoudakis Michail	en
Contributor [Committee Member]	Λαγουδακης Μιχαηλ	el
Contributor [Committee Member]	Papamichail Ioannis	en
Contributor [Committee Member]	Παπαμιχαηλ Ιωαννης	el
Contributor [Thesis Supervisor]	Chalkiadakis Georgios	en
Contributor [Thesis Supervisor]	Χαλκιαδακης Γεωργιος	el
Publisher	Πολυτεχνείο Κρήτης	el
Publisher	Technical University of Crete	en
Academic Unit	Technical University of Crete::School of Electrical and Computer Engineering	en
Academic Unit	Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών	el
Content Summary	Lane-free traffic is a novel and challenging research domain, in which vehicles do not adhere to the notion of lanes, but are rather able to be located at any lateral position within the road boundaries. This constitutes an entirely different problem domain for autonomous driving compared to lane-based traffic, as vehicles consider the entirety of the two-dimensional space available, and their decision-making needs to adapt to this concept. There is no leader vehicle or lane-changing operation to adjacent lanes, therefore the observations of the vehicles need to properly accommodate the lane-free environment without carrying over bias from lane-based approaches. In addition, each vehicle wishes to maintain a (different) desired speed, therefore creating many situations in which vehicles need to perform overtaking and react appropriately to the behavior of others. At the same time, Deep Reinforcement Learning (DRL) has already been used in a variety of applications, while the fact that it can handle high dimensional state and action spaces makes it suitable for controlling autonomous vehicles. Existing studies, however, have not employed Reinforcement Learning (deep or otherwise) in the lane-free traffic domain. Against this background, this diploma thesis initiates the study of the application of (Deep) Reinforcement Learning to lane-free traffic environments. To this end, we put forward a Markov Decision Process formulation for the problem of Lane-Free Autonomous Driving, by addressing all its elements. We consider the two-dimensional continuous action space, along with a discretized form, as well as the state space. Our main focus is on designing an effective reward function, as the reward model is crucial and determines the overall efficiency of the resulting policy. Specifically, we construct different components of reward functions tied to the environment at various levels of information. Then, we combine and collate the aforementioned components and focus on attaining a reward function that results in a policy that manages to both reduce the collisions among vehicles, and also address their requirement of maintaining a desired speed. Additionally, we study the performance of two quite popular DRL algorithms---namely Deep Q-Networks (enhanced with some commonly used extensions), and Deep Deterministic Policy Gradient (DDPG). Our experimental results indicate that DDPG has an overall better performance, and confirm that our DRL-employing autonomous vehicles are able to gradually learn effective policies in environments with varying levels of difficulty.	en
Content Summary	Η οδική κυκλοφορία σε δρόμους χωρίς λωρίδες είναι ένας νέος τομέας έρευνας με ιδιαίτερες προκλήσεις, όπου τα οχήματα δεν περιορίζονται από την έννοια των λωρίδων, αλλά διαθέτουν τη δυνατότητα να βρίσκονται σε οποιαδήποτε πλευρική θέση εντός των ορίων του δρόμου. Αυτό συνιστά έναν εντελώς διαφορετικό τομέα προβλημάτων για την αυτόνομη οδήγηση σε σύγκριση με την κυκλοφορία που βασίζεται σε λωρίδες κυκλοφορίας, καθώς τα οχήματα λαμβάνουν υπόψη τους τον πραγματικά διαθέσιμο δισδιάστατο χώρο, ενώ και η διαδικασία που ακολουθούν για τη λήψη αποφάσεων πρέπει να προσαρμοστεί σε αυτήν την ιδέα. Επιπλέον, η έλλειψη των «οχημάτων-οδηγών» και της λειτουργίας αλλαγής κυκλοφοριακής λωρίδας σε παρακείμενες λωρίδες, συνιστούν αναγκαία τη σωστή προσαρμογή των παρατηρήσεων των οχημάτων στο περιβάλλον χωρίς λωρίδες, δίχως να υπάρχει μεροληψία από προσεγγίσεις που βασίζονται στην ύπαρξη κυκλοφοριακών λωρίδων. Ακόμα, κάθε όχημα αποσκοπεί να διατηρήσει μια (διαφορετική) επιθυμητή ταχύτητα, δημιουργώντας έτσι πολλές καταστάσεις όπου τα οχήματα πρέπει να προσπεράσουν και να αντιδράσουν κατάλληλα στη συμπεριφορά των άλλων. Ταυτόχρονα, η Βαθιά Ενισχυτική Μάθηση (Deep Reinforcement Learning) έχει ήδη χρησιμοποιηθεί επιτυχώς σε ποίκιλες εφαρμογές, ενώ το γεγονός ότι μπορεί να χειριστεί υψηλών διαστάσεων χώρους καταστάσεων και ενεργειών, την καθιστά ιδιαίτερα κατάλληλη για τον έλεγχο αυτόνομων οχημάτων. Ωστόσο, μέχρι σήμερα, δεν υπάρχουν εργασίες που να έχουν αξιοποιήσει την (Βαθιά ή μη) Ενισχυτική Μάθηση για την κίνηση οχημάτων σε δρόμους χωρίς λωρίδες. Τούτων δοθέντων, η παρούσα διπλωματική εργασία ξεκινά τη μελέτη της εφαρμογής της (Βαθιάς) Ενισχυτικής Μάθησης σε περιβάλλοντα κυκλοφορίας χωρίς λωρίδες. Για το σκοπό αυτό, μοντελοποιήσαμε το πρόβλημα της αυτόνομης οδήγησης χωρίς λωρίδες ως μια Μαρκοβιανή Διαδικασία Λήψης Αποφάσεων (Markov Decision Process), λαμβάνοντας υπόψη όλα τα επιμέρους στοιχεία της. Εξετάσαμε την αναπαράσταση του δισδιάστατου χώρου ενεργειών, θεωρώντας τον, είτε ως συνεχή, είτε ως διακριτό, ενώ ορίσαμε και το χώρο καταστάσεων. Το κύριο μέλημα μας, ωστόσο, υπήρξε η σχεδίαση μίας αποδοτικής συνάρτησης ανταμοιβής, καθώς το μοντέλο ανταμοιβής είναι ιδιαίτερης σημασίας και καθορίζει τη συνολική αποτελεσματικότητα της πολιτικής που προκύπτει. Συγκεκριμένα, κατασκευάσαμε διαφορετικές συνιστώσες συναρτήσεων ανταμοιβής, οι οποίες συνδέονται με το περιβάλλον σε διάφορα επίπεδα πληροφορίας. Έπειτα, συνδυάσαμε και συγκρίναμε τις προαναφερθείσες συνιστώσες, με σκοπό στην εύρεση μιας αποτελεσματικής συνάρτησης ανταμοιβής, η οποία οδηγεί σε μια πολιτική που επιτυγχάνει ταυτόχρονα τη μείωση των συγκρούσεων με άλλα οχήματα, αλλά και την διατήρηση μίας επιθυμητής ταχύτητας. Επιπλέον, συγκρίνουμε δύο αρκετά δημοφιλείς και θεμελιακούς αλγορίθμους βαθιάς μάθησης, πιο συγκεκριμένα τον αλγόριθμο Deep Q-Networks (DQN), εφοδιασμένο με ορισμένες ευρέως χρησιμοποιούμενες επεκτάσεις, και τον αλγόριθμο Deep Deterministic Policy Gradient (DDPG). Tα πειραματικά μας αποτελέσματα υποδεικνύουν ότι ο DDPG έχει συνολικά καλύτερη απόδοση και επιβεβαιώνουν ότι τα αυτόνομα οχήματα που χρησιμοποιούν Βαθιά Ενισχυτική Μάθηση είναι σε θέση να μαθαίνουν σταδιακά όλο και πιο αποτελεσματικές πολιτικές σε περιβάλλοντα με διαφορετικά επίπεδα δυσκολίας.	el
Type of Item	Διπλωματική Εργασία	el
Type of Item	Diploma Work	en
License	http://creativecommons.org/licenses/by/4.0/	en
Date of Item	2022-07-25	-
Date of Publication	2022	-
Subject	Machine learning	en
Subject	Deep reinforcement learning	en
Subject	Lane-Free traffic	en
Subject	Autonomous driving	en
Bibliographic Citation	Athanasia Karalakou, "Deep reinforcement learning reward function design for lane-free autonomous driving", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2022	en
Bibliographic Citation	Αθανασία Καραλάκου, "Σχεδίαση συναρτήσεων ανταμοιβής μεθόδων βαθιάς ενισχυτικής μάθησης για αυτόνομη οδήγηση χωρίς τη χρήση λωρίδων κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2022	el

Search

Browse

My Space

Deep reinforcement learning reward function design for lane-free autonomous driving

Karalakou Athanasia

Available Files

Services

Export

Share

Statistics

Metadata & Content in a METS Package:

Metadata in Format: