Ιδρυματικό Αποθετήριο [SANDBOX]
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Ενισχυτική Μάθηση για Υπέρβαση Εμποδίωνμε χρήση Τρισδιάστατου Ανθρωποειδούς Μοντέλου

Petroulakis Ioannis

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/6E376B8D-A0C4-45AB-B387-AF05B550593F
Έτος 2024
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Ιωάννης Πετρουλάκης, "Ενισχυτική Μάθηση για Υπέρβαση Εμποδίων με χρήση Τρισδιάστατου Ανθρωποειδούς Μοντέλου", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2024 https://doi.org/10.26233/heallink.tuc.98893
Εμφανίζεται στις Συλλογές

Περίληψη

Στον χώρο της τεχνητής νοημοσύνης και της ρομποτικής, η δημιουργία πρακτόρων ικανών να υπερβαίνουν εμπόδια αποτελεσματικά αποτελεί σημαντική πρόκληση. H Ενισχυτική Μάθηση (Reinforcement Learning) έχει λάβει ιδιαίτερη προσοχή για την ικανότητά της να επιτρέπει στις μηχανές να μαθαίνουν και να προσαρμόζονται στο περιβάλλον τους μέσω της αλληλεπίδρασής τους με αυτό. Αυτό έχει οδηγήσει σε πρωτοποριακές εξελίξεις στον τομέα των αυτόνομων πρακτόρων. Η παρούσα διπλωματική εργασία εκκινεί ένα εγχείρημα να αξιοποιήσει τη δυναμική της Ενισχυτικής Μάθησης, εστιά ζοντας στη δυνατότητα της υπέρβασης εμποδίων με χρήση ενός τρισδιάστατου ανθρωποειδούς μοντέλου, ξεκινώντας από ένα παράδειγμα μάθησης βαδίσματος. Χτίζοντας σε ένα ολοκληρωμένο υπόβαθρο, το οποίο περιλαμβάνει την πλατφόρμα Unity GameDevelopment, την εργαλειοθήκη ML-Agents, το περιβάλλον Anaconda για βέλτιστηδιαχείριση εξαρτήσεων και τις θεμελιώδεις αρχές της Ενισχυτικής Μάθησης και του αλγορίθμου Proximal Policy Optimization (PPO), οι προϋποθέσεις είναι έτοιμες για μια βαθιά κατάδυση στις προκλήσεις της δημιουργίας ενός μοντέλου ικανού να υπερβαίνει εμπόδια. Μέσα από μια σειρά πειραμάτων, παρουσιάζονται οι ρυθμίσεις και η πρόοδος, μαζί με τη δημιουργία μιας συνάρτησης ανταμοιβής και του χώρου παρατηρήσεων για τους πράκτορές μας. Εισάγονται αλλαγές στο περιβάλλον για την αξιολόγηση της προσαρμοστικότητας και της ανθεκτικότητας του μοντέλου μας και οι υπερ-παράμετροι του PPO ρυθμίζονται σχολαστικά για τη βελτιστοποίηση των αποτελεσμάτων. Η παρούσα εργασία ολοκληρώνεται με πολλά υποσχόμενα αποτελέσματα, παρουσιάζοντας τη δημιουργία ενός πλήρως λειτουργικού μοντέλου, προσαρμόσιμου σε διαφορετικά περιβάλλοντα. Επιπλέον, σκιαγραφεί μελλοντικές κατευθύνσεις για έρευνα και ανάπτυξη, με στόχο να ενισχύσει την ανάπτυξη ευφυών πρακτόρων ικανών να αντιμετωπίζουν δύσκολες προκλήσεις.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά