Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Ενισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας

Bakopoulos Leonidas

Απλή Εγγραφή


URIhttp://purl.tuc.gr/dl/dias/D3C88FA1-E3BF-4A7F-A068-C442BEEC9829-
Αναγνωριστικόhttps://doi.org/10.26233/heallink.tuc.98702-
Γλώσσαen-
Μέγεθος3.1 megabytesen
Μέγεθος63 pagesen
ΤίτλοςDeep Q-Networks with normalized advantage function for autonomous driving in lane-free trafficen
ΤίτλοςΕνισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίαςel
ΔημιουργόςBakopoulos Leonidasen
ΔημιουργόςΜπακοπουλος Λεωνιδαςel
Συντελεστής [Επιβλέπων Καθηγητής]Chalkiadakis Georgiosen
Συντελεστής [Επιβλέπων Καθηγητής]Χαλκιαδακης Γεωργιοςel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Lagoudakis Michailen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Λαγουδακης Μιχαηλel
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Papamichail Ioannisen
Συντελεστής [Μέλος Εξεταστικής Επιτροπής]Παπαμιχαηλ Ιωαννηςel
ΕκδότηςΠολυτεχνείο Κρήτηςel
ΕκδότηςTechnical University of Creteen
Ακαδημαϊκή ΜονάδαTechnical University of Crete::School of Electrical and Computer Engineeringen
Ακαδημαϊκή ΜονάδαΠολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστώνel
ΠερίληψηIn the past decade Deep Reinforcement Learning (Deep-RL) has evolved into a powerful tool that can outperform both human abilities and traditional algorithms in many domains. Deep-RL differs from classic RL in its ability to handle complex problems in larger, and sometimes continuous, action and state spaces. At the same time, the vehicular traffic research area is of utmost practical importance. Numerous works have proposed that automated vehicles can optimize traffic flow. Vehicles on the road tend to maintain different desired speeds, leading to various situations requiring overtaking and other appropriate reactions to others’ behavior. Now, in recent years, a novel vehicular traffic paradigm, namely that of lane-free traffic, has emerged as a means to utilize the full width of a road by automated and (potentially connected) vehicles. In a lane-free environment, vehicles can be positioned anywhere in the two-dimensional state space, complicating the automated vehicles’ decision-making process significantly and making it entirely different from the traditional lane-based approach. Deep RL is a natural candidate to address the challenges posed by this new traffic paradigm. Against this background, this thesis builds upon recent work by Karalakou et al. [1] that enabled the application of the Deep Deterministic Policy Gradients (DDPG) Deep RL algorithm in the lane-free traffic domain. Our work progressively builds an autonomous agent that combines various algorithmic components, having as a basis the Normalized Advantage Functions (NAF) deep RL algorithm. Specifically, we put forward the blending of NAF with Prioritized Experience Replay (PER), Parameter State Noise for Exploration (PSNE), the well-known Boltzmann exploration method, and a local optimization method for exploration; and systematically test our approach in the lane-free highway traffic domain, comparing the performance of various combinations of these algorithmic components against that of the aforementioned DDPG approach. Our simulation experiments’ results showcase our approach’s superiority to using DDPG; highlight the strengths of each tested algorithmic variant; and demonstrate that our NAF+PER+PSNE variant (in which PSNE is actually combined with Boltzmann exploration) is overall the better method for use in the lane-free traffic scenarios examined.en
ΠερίληψηΤα περασμένα χρόνια, το Deep Reinforcement Learning (Deep-RL) εξελίχθηκε σε ένα ισχυρό εργαλείο που μπορεί να υπερνικήσει σε πολλούς τομείς τις ικανότητες του ανθρώπου και των τυπικών αλγορίθμων. Το Deep-RL διαφέρει από το κλασικό Reinforcement Learning στην ικανότητά του να αντιμετωπίζει πολύπλοκα προβλήματα που υφίστανται σε μεγαλύτερους και, μερικές φορές, συνεχείς χώρους δράσης και καταστάσεων. Παράλληλα, η έρευνα στον τομέα της κυκλοφορίας οχημάτων, είναι υψίστης σημασίας. Αρκετές μελέτες έχουν προτείνει ότι τα αυτόματα οχήματα μπορούν να βελτιστοποιήσουν τη ροή της κυκλοφορίας. Τα οχήματα στον δρόμο τείνουν να διατηρούν διαφορετικές ταχύτητες, το οποίο οδηγεί σε πληθώρα καταστάσεων που απαιτούν κατάλληλες αντιδράσεις, όπως αυτή της ασφαλούς προσπέρασης. Τα τελευταία χρόνια, το παράδειγμα της κυκλοφορίας χωρίς λωρίδες (lane-free traffic) έχει εμφανιστεί ως καινοτομία στον τομέα της κυκλοφορίας οχημάτων, η οποία, προβλέπει τη χρήση ολόκληρου του πλάτους ενός δρόμου από αυτόματα και (ενδεχομένως διασυνδεδεμένα) οχήματα. Σε ένα περιβάλλον χωρίς λωρίδες, τα οχήματα μπορούν να τοποθετούνται οπουδήποτε στον δισδιάστατο χώρο, περιπλέκοντας σημαντικά τη διαδικασία λήψης αποφάσεων και διαφοροποιώντας την από την παραδοσιακή προσέγγιση με λωρίδες. Το Deep RL είναι ένας φέρελπις υποψήφιος που θα κληθεί να αντιμετωπίσει τις προκλήσεις που προκύπτουν από αυτόν τον νέο σχεδιασμό κυκλοφορίας. Δεδομένου του παραπάνω πλαισίου, η παρούσα διατριβή βασίζεται στην πρόσφατη εργασία των Karalakou et al. [1] που επέτρεψε την εφαρμογή του αλγορίθμου Deep Deterministic Policy Gradients (DDPG) του Deep RL στον τομέα της κυκλοφορίας χωρίς λωρίδες. Η εργασία μας, χτίζει βαθμιαία ένα αυτόνομο πράκτορα που συνδυάζει διάφορα αλγοριθμικά στοιχεία, έχοντας ως βάση τον Deep-RL αλγόριθμο Normalized Advantage Functions (NAF). Συγκεκριμένα, προτείνουμε τον συνδυασμό του NAF με το Prioritized Experience Replay (PER), το Parameter State Noise for Exploration (PSNE), την δημοφιλή μέθοδο εξερεύνησης Boltzmann, και μια μέθοδο τοπικής βελτιστοποίησης. Στη συνέχεια, ελέγχουμε μεθοδικά την προσέγγισή μας χρησιμοποιώντας ως περιβάλλον έναν αυτοκινητόδρομο χωρίς λωρίδες, και συγκρίνουμε την απόδοσή της με αυτή της προαναφερθείσας στο έργο [1]. Τα αποτελέσματα των πειραμάτων μας στην προσομοίωση δείχνουν τελικά την υπεροχή της προσέγγισής μας σε σύγκριση με τον DDPG, αναδεικνύοντας τα πλεονεκτήματα κάθε δοκιμασμένης αλγοριθμικής παραλλαγής. Τέλος, τα πειράματα εμφανίζουν, πως η παραλλαγή που συνδυάζει NAF+PER+PSNE (στην οποία το PSNE συνδυάζεται με τη μέθοδο εξερεύνησης Boltzmann) επιφέρει τα καλύτερα αποτελέσματα μεταξύ των σεναρίων κυκλοφορίας χωρίς λωρίδες που εξετάστηκαν.el
ΤύποςΔιπλωματική Εργασίαel
ΤύποςDiploma Worken
Άδεια Χρήσηςhttp://creativecommons.org/licenses/by/4.0/en
Ημερομηνία2024-02-14-
Ημερομηνία Δημοσίευσης2024-
Θεματική ΚατηγορίαLane-free trafficen
Θεματική ΚατηγορίαDeep reinforcement learningen
Βιβλιογραφική ΑναφοράLeonidas Bakopoulos, "Deep Q-Networks with normalized advantage function for autonomous driving in lane-free traffic", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2024en
Βιβλιογραφική ΑναφοράΛεωνίδας Μπακόπουλος, "Ενισχυτική μάθηση με Q-Νευρωνικά δίκτυα με κανονικοποιημένη εκτίμηση πλεονεκτήματος για αυτόνομη οδήγηση χωρίς λωρίδες κυκλοφορίας", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024el

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά