Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Επιτάχυνση διαδικασιών βαθιάς ενισχυτικής μάθησης μέσω μίμησης

Papathanasiou Theodoros

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/668C47FF-2EC6-4DDA-BD5A-9CF6B3A7BF5D
Έτος 2020
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Θεόδωρος Παπαθανασίου, "Επιτάχυνση διαδικασιών βαθιάς ενισχυτικής μάθησης μέσω μίμησης", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2020 https://doi.org/10.26233/heallink.tuc.84657
Εμφανίζεται στις Συλλογές

Περίληψη

Η μίμηση έχει εξελιχθεί στο φυσικό περιβάλλον ως προηγμένο συμπεριφορικό εργαλείο για τη μεταφορά γνώσης μεταξύ οργανισμών. Μπορεί να παρατηρηθεί στις περισσότερες μορφές ζωής με υψηλότερα επίπεδα νοημοσύνης όπως στα μέλη των ομάδων simian (πρωτεύοντα, πίθηκοι), delphinidae (δελφίνια) και corvus (κοράκια, κίσσες). Τα πλεονεκτήματά της έναντι της ενστικτώδους δράσης μπορούν να παρατηρηθούν στην ξεκάθαρη επιτυχία των οργανισμών ικανών για μιμητική μάθηση σε όλα τα οικοσυστήματα του κόσμου.Στη μηχανική μάθηση, η μίμηση έχει υλοποιηθεί με τη μορφή εποπτευόμενης μάθησης και έχει χρησιμοποιηθεί στην ενισχυτική μάθηση μέσω τεχνικών απευθείας μίμησης. Επιπρόσθετα, η έμμεση μίμηση έχει δοκιμαστεί ως εναλλακτική μέθοδος άμεσης μεταφοράς γνώσης τόσο σε μονοπρακτορικά όσο και σε πολυπρακτορικά συστήματα, με σκοπό την επιτάχυνση του ρυθμού εκπαίδευσης των πρακτόρων μέσω της χρήσης εμπειριών από προηγούμενες συνεδρίες ή άλλους πράκτορες. Παρόλο που οι τεχνικές αυτές έχουν παρουσιάσει πληθώρα υποσχόμενων αποτελεσμάτων, μέχρι σήμερα δεν έχουν επωφεληθεί από την πρόσφατη επιτυχία των τεχνητών νευρωνικών δικτύων και της βαθιάς μάθησης.Σε αυτή τη διπλωματική εργασία, προτείνουμε την εφαρμογή εμμέσου μίμησης σε τεχνικές βαθιάς ενισχυτικής μάθησης χωρίς μοντέλο προκειμένου να επιταχυνθούν τα στάδια εκπαίδευσης των αντίστοιχων πρακτόρων. Εν συντομία, εξάγοντας την υπάρχουσα εμπειρία από έναν πράκτορα- μέντορα και μεταλλάσσοντας τις εξισώσεις Bellman ενός άλλου πράκτορα-παρατηρητή ώστε να μπορεί να επωφεληθεί από αυτή, καταφέρνουμε να προσφέρουμε έναν τρόπο καθοδήγησης της εκπαίδευσης. Ο πράκτορας-παρατηρητής αποφασίζει εάν θα εμπιστευτεί ή θα αγνοήσει τις πληροφορίες αυτές βάσει ενός μηχανισμού ελέγχου εμπιστοσύνης. Μέσω των πειραμάτων μας δοκιμάζουμε το μοντέλο μας σε μία παραλλαγή του αλγορίθμου DQN σε κλασικά περιβάλλοντα ελέγχου και παρουσιάζουμε επιταχυμένα επίπεδα μάθησης. Αν και περιορίζουμε τις δοκιμές μας σε έναν μόνο αλγόριθμο βαθιάς μάθησης και σε απλά περιβάλλοντα, σχολιάζουμε τις επεκτάσεις του μοντέλου μας σε άλλους πράκτορες και πιο πολύπλοκα περιβάλλοντα.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά