URI | http://purl.tuc.gr/dl/dias/D3C88FA1-E3BF-4A7F-A068-C442BEEC9829 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.98702 | - |
Γλώσσα | en | - |
Μέγεθος | 3.1 megabytes | en |
Μέγεθος | 63 pages | en |
Τίτλος | Deep Q-Networks with normalized advantage function for autonomous driving in lane-free traffic | en |
Τίτλος | Ενισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας | el |
Δημιουργός | Bakopoulos Leonidas | en |
Δημιουργός | Μπακοπουλος Λεωνιδας | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Chalkiadakis Georgios | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Χαλκιαδακης Γεωργιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Lagoudakis Michail | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Λαγουδακης Μιχαηλ | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Papamichail Ioannis | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Παπαμιχαηλ Ιωαννης | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | In the past decade Deep Reinforcement Learning (Deep-RL) has evolved into a powerful tool that can outperform both human abilities and traditional algorithms in many domains. Deep-RL differs from classic RL in its ability to handle complex problems in larger, and sometimes continuous, action and state spaces. At the same time, the vehicular traffic research area is of utmost practical importance. Numerous works have proposed that automated vehicles can
optimize traffic flow. Vehicles on the road tend to maintain different desired speeds, leading to various situations requiring overtaking and other appropriate reactions to others’ behavior.
Now, in recent years, a novel vehicular traffic paradigm, namely that of lane-free traffic, has emerged as a means to utilize the full width of a road by automated and (potentially connected) vehicles. In a lane-free environment, vehicles can be positioned anywhere in the two-dimensional state space, complicating the automated vehicles’ decision-making process significantly and making
it entirely different from the traditional lane-based approach. Deep RL is a natural candidate to address the challenges posed by this new traffic paradigm.
Against this background, this thesis builds upon recent work by Karalakou et al. [1] that enabled the application of the Deep Deterministic Policy Gradients (DDPG) Deep RL algorithm in the lane-free traffic domain. Our work progressively builds an autonomous agent that combines various algorithmic components, having as a basis the Normalized Advantage Functions (NAF) deep RL algorithm. Specifically, we put forward the blending of NAF with Prioritized Experience
Replay (PER), Parameter State Noise for Exploration (PSNE), the well-known Boltzmann exploration method, and a local optimization method for exploration; and systematically test our approach in the lane-free highway traffic domain, comparing the performance of various combinations of these algorithmic components against that of the aforementioned DDPG
approach. Our simulation experiments’ results showcase our approach’s superiority to using DDPG; highlight the strengths of each tested algorithmic variant; and demonstrate that our NAF+PER+PSNE variant (in which PSNE is actually combined with Boltzmann exploration) is overall the better method for use in the lane-free traffic scenarios examined. | en |
Περίληψη | Τα περασμένα χρόνια, το Deep Reinforcement Learning (Deep-RL) εξελίχθηκε σε ένα ισχυρό εργαλείο που μπορεί να υπερνικήσει σε πολλούς τομείς τις ικανότητες του ανθρώπου και των τυπικών αλγορίθμων. Το Deep-RL διαφέρει από το κλασικό Reinforcement Learning στην ικανότητά του να αντιμετωπίζει πολύπλοκα προβλήματα που υφίστανται σε μεγαλύτερους και, μερικές φορές, συνεχείς χώρους δράσης και καταστάσεων. Παράλληλα, η έρευνα στον τομέα της κυκλοφορίας οχημάτων, είναι υψίστης σημασίας. Αρκετές μελέτες έχουν προτείνει ότι τα αυτόματα οχήματα μπορούν να βελτιστοποιήσουν τη ροή της κυκλοφορίας. Τα οχήματα στον δρόμο τείνουν να διατηρούν διαφορετικές ταχύτητες, το οποίο οδηγεί σε πληθώρα καταστάσεων που απαιτούν κατάλληλες αντιδράσεις, όπως αυτή της ασφαλούς προσπέρασης. Τα τελευταία χρόνια, το παράδειγμα της κυκλοφορίας χωρίς λωρίδες (lane-free traffic) έχει εμφανιστεί ως καινοτομία στον τομέα της κυκλοφορίας οχημάτων, η οποία, προβλέπει τη χρήση ολόκληρου του πλάτους ενός δρόμου από αυτόματα και (ενδεχομένως διασυνδεδεμένα) οχήματα. Σε ένα περιβάλλον χωρίς λωρίδες, τα οχήματα μπορούν να τοποθετούνται οπουδήποτε στον δισδιάστατο χώρο, περιπλέκοντας σημαντικά τη διαδικασία λήψης αποφάσεων και διαφοροποιώντας την από την παραδοσιακή προσέγγιση με λωρίδες. Το Deep RL είναι ένας φέρελπις υποψήφιος που θα κληθεί να αντιμετωπίσει τις προκλήσεις που προκύπτουν από αυτόν τον νέο σχεδιασμό κυκλοφορίας. Δεδομένου του παραπάνω πλαισίου, η παρούσα διατριβή βασίζεται στην πρόσφατη εργασία των Karalakou et al. [1] που επέτρεψε την εφαρμογή του αλγορίθμου Deep Deterministic Policy Gradients (DDPG) του Deep RL στον τομέα της κυκλοφορίας χωρίς λωρίδες. Η εργασία μας, χτίζει βαθμιαία ένα αυτόνομο πράκτορα που συνδυάζει διάφορα αλγοριθμικά στοιχεία, έχοντας ως βάση τον Deep-RL αλγόριθμο Normalized Advantage Functions (NAF). Συγκεκριμένα, προτείνουμε τον συνδυασμό του NAF με το Prioritized Experience Replay (PER), το Parameter State Noise for Exploration (PSNE), την δημοφιλή μέθοδο εξερεύνησης Boltzmann, και μια μέθοδο τοπικής βελτιστοποίησης. Στη συνέχεια, ελέγχουμε μεθοδικά την προσέγγισή μας χρησιμοποιώντας ως περιβάλλον έναν αυτοκινητόδρομο χωρίς λωρίδες, και συγκρίνουμε την απόδοσή της με αυτή της προαναφερθείσας στο έργο [1]. Τα αποτελέσματα των πειραμάτων μας στην προσομοίωση δείχνουν
τελικά την υπεροχή της προσέγγισής μας σε σύγκριση με τον DDPG, αναδεικνύοντας τα πλεονεκτήματα κάθε δοκιμασμένης αλγοριθμικής παραλλαγής. Τέλος, τα πειράματα εμφανίζουν, πως η παραλλαγή που συνδυάζει NAF+PER+PSNE (στην οποία το PSNE συνδυάζεται με τη μέθοδο εξερεύνησης Boltzmann) επιφέρει τα καλύτερα αποτελέσματα μεταξύ των σεναρίων κυκλοφορίας χωρίς λωρίδες που εξετάστηκαν. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2024-02-14 | - |
Ημερομηνία Δημοσίευσης | 2024 | - |
Θεματική Κατηγορία | Lane-free traffic | en |
Θεματική Κατηγορία | Deep reinforcement learning | en |
Βιβλιογραφική Αναφορά | Leonidas Bakopoulos, "Deep Q-Networks with normalized advantage function for autonomous driving in lane-free traffic", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024 | en |
Βιβλιογραφική Αναφορά | Λεωνίδας Μπακόπουλος, "Ενισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 | el |