Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Προσαρμογή του χώρου ενεργειών για ενισχυτική μάθηση

Kontzedakis Dimitrios

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/33218A13-C811-425E-BC8B-8D5226842B6F
Έτος 2018
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Δημήτριος Κοντζεδάκης, "Προσαρμογή του χώρου ενεργειών για ενισχυτική μάθηση", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2018 https://doi.org/10.26233/heallink.tuc.79103
Εμφανίζεται στις Συλλογές

Περίληψη

Η Ενισχυτική Μάθηση είναι μια τεχνική Μηχανικής Μάθησης, όπου ένας αλγόριθμος λήψης αποφάσεων, γνωστός και ως αυτόνομος πράκτορας, αλληλεπιδρά με ένα (άγνωστο) περιβάλλον κάνοντας παρατηρήσεις και ενέργειες σε αυτό, ενώ ταυτόχρονα παίρνει θετική ή αρνητική επιβράβευση σε κάθε βήμα με βάση την απόδοσή του. Μέσα από αυτή τη διαδικασία, ο πράκτορας προσπαθεί να μάθει τη βέλτιστη πολιτική λήψης αποφάσεων, πιο συγκεκριμένα να βρει επιλογές ενεργειών σε κάθε κατάσταση που θα βοηθήσουν να μεγιστοποιηθεί η αναμενόμενη συνολική επιβράβευση μακροπρόθεσμα. Η τεχνική αυτή είναι ιδανική για προβλήματα βέλτιστου ελέγχου, για παιχνίδια και πολλά άλλα πεδία. Πολλές αρχιτεκτονικές πρακτόρων Ενισχυτικής Μάθησης χρησιμοποιούν ένα σύνολο διακριτών ενεργειών που αναπαριστούν έναν συνεχή Καρτεσιανό χώρο ενεργειών και ο πράκτορας καλείται να επιλέξει μία από αυτές τις διακριτές ενέργειες σε κάθε χρονικό βήμα. Συχνά, αυτή η διακριτοποίηση του συνεχή χώρου ενεργειών μειώνει την ικανότητα επιλογής ενεργειών που αποδίδουν καλύτερα, ενώ ο πράκτορας είναι αναγκασμένος να επιλέξει μόνο μεταξύ των διακριτών ενεργειών. Υπάρχουν δύο εναλλακτικές λύσεις σε αυτό το πρόβλημα: είτε να αυξηθεί η πυκνότητα των διακριτών σημείων, το οποίο θα επηρεάσει την ταχύτητα αντίδρασης του πράκτορα, είτε να υιοθετηθεί διακριτοποίηση με μεταβλητή ανάλυση προσαρμοσμένη στις ανάγκες του προβλήματος. Σε αυτήν την εργασία παρουσιάζουμε μια μέθοδο δημιουργίας διακριτοποιήσεων που έχουν τη δυνατότητα να προσαρμόζονται δυναμικά ανάλογα με τη χρήση του χώρου ενεργειών. Η προτεινόμενη μέθοδος προσαρμοσμένης διακριτοποίησης μπορεί να χειριστεί αυτόματα μια μεγάλη ποικιλία μοτίβων μέσα σε λίγα βήματα προσαρμογής, ενώ διατηρεί τον αριθμό των διακριτών σημείων σταθερό. Ενσωματώσαμε αυτή τη μέθοδο στον χώρο ενεργειών ενός συγκεκριμένου πράκτορα Βαθιάς Ενισχυτικής Μάθησης που ενεργεί σε περιβάλλοντα που χρήζουν αυξημένης ακρίβειας. Οι προσαρμοσμένες διακριτοποιήσεις μπορούν να εκμεταλλευτούν την επιλεκτική χρήση που κάνει ο πράκτορας στο χώρο ενεργειών και να αυξομειώσουν την πυκνότητα των διακριτών σημείων ανά περιοχή, δίνοντας αυξημένο αριθμό ενεργειών και συνεπώς υψηλότερη ανάλυση σε περιοχές όπου υπάρχει ανάγκη. Αυτό είχε σαν αποτέλεσμα να αυξηθεί η ακρίβεια και τελικά και η απόδοση του πράκτορα, χωρίς σημαντική αύξηση στις απαιτήσεις υπολογιστικών πόρων.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά