Institutional Repository [SANDBOX]
Technical University of Crete
EN  |  EL

Search

Browse

My Space

Deep Q-Networks with normalized advantage function for autonomous driving in lane-free traffic

Bakopoulos Leonidas

Simple record


URIhttp://purl.tuc.gr/dl/dias/D3C88FA1-E3BF-4A7F-A068-C442BEEC9829-
Identifierhttps://doi.org/10.26233/heallink.tuc.98702-
Languageen-
Extent3.1 megabytesen
Extent63 pagesen
TitleDeep Q-Networks with normalized advantage function for autonomous driving in lane-free trafficen
TitleΕνισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίαςel
CreatorBakopoulos Leonidasen
CreatorΜπακοπουλος Λεωνιδαςel
Contributor [Thesis Supervisor]Chalkiadakis Georgiosen
Contributor [Thesis Supervisor]Χαλκιαδακης Γεωργιοςel
Contributor [Committee Member]Lagoudakis Michailen
Contributor [Committee Member]Λαγουδακης Μιχαηλel
Contributor [Committee Member]Papamichail Ioannisen
Contributor [Committee Member]Παπαμιχαηλ Ιωαννηςel
PublisherΠολυτεχνείο Κρήτηςel
PublisherTechnical University of Creteen
Academic UnitTechnical University of Crete::School of Electrical and Computer Engineeringen
Academic UnitΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
Content SummaryIn the past decade Deep Reinforcement Learning (Deep-RL) has evolved into a powerful tool that can outperform both human abilities and traditional algorithms in many domains. Deep-RL differs from classic RL in its ability to handle complex problems in larger, and sometimes continuous, action and state spaces. At the same time, the vehicular traffic research area is of utmost practical importance. Numerous works have proposed that automated vehicles can optimize traffic flow. Vehicles on the road tend to maintain different desired speeds, leading to various situations requiring overtaking and other appropriate reactions to others’ behavior. Now, in recent years, a novel vehicular traffic paradigm, namely that of lane-free traffic, has emerged as a means to utilize the full width of a road by automated and (potentially connected) vehicles. In a lane-free environment, vehicles can be positioned anywhere in the two-dimensional state space, complicating the automated vehicles’ decision-making process significantly and making it entirely different from the traditional lane-based approach. Deep RL is a natural candidate to address the challenges posed by this new traffic paradigm. Against this background, this thesis builds upon recent work by Karalakou et al. [1] that enabled the application of the Deep Deterministic Policy Gradients (DDPG) Deep RL algorithm in the lane-free traffic domain. Our work progressively builds an autonomous agent that combines various algorithmic components, having as a basis the Normalized Advantage Functions (NAF) deep RL algorithm. Specifically, we put forward the blending of NAF with Prioritized Experience Replay (PER), Parameter State Noise for Exploration (PSNE), the well-known Boltzmann exploration method, and a local optimization method for exploration; and systematically test our approach in the lane-free highway traffic domain, comparing the performance of various combinations of these algorithmic components against that of the aforementioned DDPG approach. Our simulation experiments’ results showcase our approach’s superiority to using DDPG; highlight the strengths of each tested algorithmic variant; and demonstrate that our NAF+PER+PSNE variant (in which PSNE is actually combined with Boltzmann exploration) is overall the better method for use in the lane-free traffic scenarios examined.en
Content SummaryΤα περασμένα χρόνια, το Deep Reinforcement Learning (Deep-RL) εξελίχθηκε σε ένα ισχυρό εργαλείο που μπορεί να υπερνικήσει σε πολλούς τομείς τις ικανότητες του ανθρώπου και των τυπικών αλγορίθμων. Το Deep-RL διαφέρει από το κλασικό Reinforcement Learning στην ικανότητά του να αντιμετωπίζει πολύπλοκα προβλήματα που υφίστανται σε μεγαλύτερους και, μερικές φορές, συνεχείς χώρους δράσης και καταστάσεων. Παράλληλα, η έρευνα στον τομέα της κυκλοφορίας οχημάτων, είναι υψίστης σημασίας. Αρκετές μελέτες έχουν προτείνει ότι τα αυτόματα οχήματα μπορούν να βελτιστοποιήσουν τη ροή της κυκλοφορίας. Τα οχήματα στον δρόμο τείνουν να διατηρούν διαφορετικές ταχύτητες, το οποίο οδηγεί σε πληθώρα καταστάσεων που απαιτούν κατάλληλες αντιδράσεις, όπως αυτή της ασφαλούς προσπέρασης. Τα τελευταία χρόνια, το παράδειγμα της κυκλοφορίας χωρίς λωρίδες (lane-free traffic) έχει εμφανιστεί ως καινοτομία στον τομέα της κυκλοφορίας οχημάτων, η οποία, προβλέπει τη χρήση ολόκληρου του πλάτους ενός δρόμου από αυτόματα και (ενδεχομένως διασυνδεδεμένα) οχήματα. Σε ένα περιβάλλον χωρίς λωρίδες, τα οχήματα μπορούν να τοποθετούνται οπουδήποτε στον δισδιάστατο χώρο, περιπλέκοντας σημαντικά τη διαδικασία λήψης αποφάσεων και διαφοροποιώντας την από την παραδοσιακή προσέγγιση με λωρίδες. Το Deep RL είναι ένας φέρελπις υποψήφιος που θα κληθεί να αντιμετωπίσει τις προκλήσεις που προκύπτουν από αυτόν τον νέο σχεδιασμό κυκλοφορίας. Δεδομένου του παραπάνω πλαισίου, η παρούσα διατριβή βασίζεται στην πρόσφατη εργασία των Karalakou et al. [1] που επέτρεψε την εφαρμογή του αλγορίθμου Deep Deterministic Policy Gradients (DDPG) του Deep RL στον τομέα της κυκλοφορίας χωρίς λωρίδες. Η εργασία μας, χτίζει βαθμιαία ένα αυτόνομο πράκτορα που συνδυάζει διάφορα αλγοριθμικά στοιχεία, έχοντας ως βάση τον Deep-RL αλγόριθμο Normalized Advantage Functions (NAF). Συγκεκριμένα, προτείνουμε τον συνδυασμό του NAF με το Prioritized Experience Replay (PER), το Parameter State Noise for Exploration (PSNE), την δημοφιλή μέθοδο εξερεύνησης Boltzmann, και μια μέθοδο τοπικής βελτιστοποίησης. Στη συνέχεια, ελέγχουμε μεθοδικά την προσέγγισή μας χρησιμοποιώντας ως περιβάλλον έναν αυτοκινητόδρομο χωρίς λωρίδες, και συγκρίνουμε την απόδοσή της με αυτή της προαναφερθείσας στο έργο [1]. Τα αποτελέσματα των πειραμάτων μας στην προσομοίωση δείχνουν τελικά την υπεροχή της προσέγγισής μας σε σύγκριση με τον DDPG, αναδεικνύοντας τα πλεονεκτήματα κάθε δοκιμασμένης αλγοριθμικής παραλλαγής. Τέλος, τα πειράματα εμφανίζουν, πως η παραλλαγή που συνδυάζει NAF+PER+PSNE (στην οποία το PSNE συνδυάζεται με τη μέθοδο εξερεύνησης Boltzmann) επιφέρει τα καλύτερα αποτελέσματα μεταξύ των σεναρίων κυκλοφορίας χωρίς λωρίδες που εξετάστηκαν.el
Type of ItemΔιπλωματική Εργασίαel
Type of ItemDiploma Worken
Licensehttp://creativecommons.org/licenses/by/4.0/en
Date of Item2024-02-14-
Date of Publication2024-
SubjectLane-free trafficen
SubjectDeep reinforcement learningen
Bibliographic CitationLeonidas Bakopoulos, "Deep Q-Networks with normalized advantage function for autonomous driving in lane-free traffic", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024en
Bibliographic CitationΛεωνίδας Μπακόπουλος, "Ενισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024el

Available Files

Services

Statistics