<efrbr:recordSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:efrbr="http://vfrbr.info/efrbr/1.1" xmlns:efrbr-work="http://vfrbr.info/efrbr/1.1/work" xmlns:efrbr-expression="http://vfrbr.info/efrbr/1.1/expression" xmlns:efrbr-manifestation="http://vfrbr.info/efrbr/1.1/manifestation" xmlns:efrbr-person="http://vfrbr.info/efrbr/1.1/person" xmlns:efrbr-corporateBody="http://vfrbr.info/efrbr/1.1/corporateBody" xmlns:efrbr-concept="http://vfrbr.info/efrbr/1.1/concept" xmlns:efrbr-structure="http://vfrbr.info/efrbr/1.1/structure" xmlns:efrbr-responsible="http://vfrbr.info/efrbr/1.1/responsible" xmlns:efrbr-subject="http://vfrbr.info/efrbr/1.1/subject" xmlns:efrbr-other="http://vfrbr.info/efrbr/1.1/other" xsi:schemaLocation="http://vfrbr.info/efrbr/1.1 http://vfrbr.info/schemas/1.1/efrbr.xsd"><efrbr:entities><efrbr-work:work identifier="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C"><efrbr-work:titleOfTheWork>Ενισχυτική μάθηση ρομποτικού ελέγχου μέσω πιθανοτικού συμπερασμού</efrbr-work:titleOfTheWork></efrbr-work:work><efrbr-expression:expression identifier="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C"><efrbr-expression:titleOfTheExpression>Ενισχυτική μάθηση ρομποτικού ελέγχου μέσω πιθανοτικού συμπερασμού</efrbr-expression:titleOfTheExpression><efrbr-expression:formOfExpression vocabulary="DIAS:TYPES">
            Πλήρης Δημοσίευση σε Συνέδριο
            Conference Full Paper
         </efrbr-expression:formOfExpression><efrbr-expression:dateOfExpression type="issued">2015-11-13</efrbr-expression:dateOfExpression><efrbr-expression:dateOfExpression type="published">2009</efrbr-expression:dateOfExpression><efrbr-expression:languageOfExpression vocabulary="iso639-1">el</efrbr-expression:languageOfExpression><efrbr-expression:summarizationOfContent>Παρουσιάζουμε μία νέα προσέγγιση στο πρόβλημα της αυτόματης μάθησης ρομποτικού ελέγ-
χου με Ενισχυτική Μάθηση (Reinforcement Learning, RL). Πρόσφατες εργασίες στη βιβλιο-
γραφία έχουν δείξει ότι ένα πρόβλημα Βέλτιστου Ελέγχου Διακριτού Χρόνου (Discrete Time
Optimal Control) μπορεί να αναχθεί σε ένα πρόβλημα Πιθανοτικού Συμπερασμού (Probabilistic
Inference) και να λυθεί με αντίστοιχες τεχνικές. Στην παρούσα εργασία δείχνουμε ότι μια τέτοια
αναγωγή είναι επίσης δυνατή στην περίπτωση που το δυναμικό μοντέλου του συστήματος είναι
άγνωστο, οπότε η μάθηση του ρομποτικού ελέγχου θα πρέπει να γίνει με μεθοδολογίες δοκιμής-
και-σφάλματος (trial-and-error). Η ανάλυση που προτείνουμε οδηγεί σε ένα Monte-Carlo αλ-
γόριθμο Προσδοκίας-Μεγιστοποίησης (Expectation-Maximization, EM) σε ένα μοντέλο μικτής
κατανομής πιθανότητας (probabilistic mixture model). Παραθέτουμε αποτελέσματα από την ε-
φαρμογή του προτεινόμενου αλγορίθμου σε ένα πρόβλημα ισορροπίας κινούμενου ρομπότ.</efrbr-expression:summarizationOfContent><efrbr-expression:useRestrictionsOnTheExpression type="creative-commons">http://creativecommons.org/licenses/by/4.0/</efrbr-expression:useRestrictionsOnTheExpression><efrbr-expression:note type="conference name">1ο Πανελλήνιο Συνέδριο Ρομποτικής</efrbr-expression:note></efrbr-expression:expression><efrbr-manifestation:manifestation identifier="http://purl.tuc.gr/dl/dias/947E0E7C-9CCE-4154-97B4-EA39322D6CDA"><efrbr-manifestation:titleOfTheManifestation>Vlassis_et_al_1o PanSinRobotikis_2009.pdf</efrbr-manifestation:titleOfTheManifestation><efrbr-manifestation:publicationDistribution><efrbr-manifestation:placeOfPublicationDistribution type="distribution">Chania [Greece]</efrbr-manifestation:placeOfPublicationDistribution><efrbr-manifestation:publisherDistributor type="distributor">Library of TUC</efrbr-manifestation:publisherDistributor><efrbr-manifestation:dateOfPublicationDistribution>2016-05-18</efrbr-manifestation:dateOfPublicationDistribution></efrbr-manifestation:publicationDistribution><efrbr-manifestation:formOfCarrier>application/pdf</efrbr-manifestation:formOfCarrier><efrbr-manifestation:extentOfTheCarrier>671.3 kB</efrbr-manifestation:extentOfTheCarrier><efrbr-manifestation:accessRestrictionsOnTheManifestation>free</efrbr-manifestation:accessRestrictionsOnTheManifestation></efrbr-manifestation:manifestation><efrbr-person:person identifier="http://users.isc.tuc.gr/~nvlassis"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Vlassis Nikolaos
            Βλασσης Νικολαος
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-person:person identifier="http://users.isc.tuc.gr/~gkontes"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Kontes Georgios
            Κοντες Γεωργιος
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-person:person identifier="http://users.isc.tuc.gr/~spiperidis"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Piperidis Savvas
            Πιπεριδης Σαββας
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-concept:concept identifier="http://id.loc.gov/authorities/subjects/sh85114639"><efrbr-concept:termForTheConcept>
            Industrial robots
            robots industrial
            industrial robots
         </efrbr-concept:termForTheConcept></efrbr-concept:concept></efrbr:entities><efrbr:relationships><efrbr-structure:structureRelations><efrbr-structure:realizedThrough sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="expression" targetURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C"/><efrbr-structure:embodiedIn sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="manifestation" targetURI="http://purl.tuc.gr/dl/dias/947E0E7C-9CCE-4154-97B4-EA39322D6CDA"/></efrbr-structure:structureRelations><efrbr-responsible:responsibleRelations><efrbr-responsible:createdBy sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~nvlassis"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~nvlassis" role="author"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~gkontes" role="author"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~spiperidis" role="author"/></efrbr-responsible:responsibleRelations><efrbr-subject:subjectRelations><efrbr-subject:hasSubject sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/A14031E6-2685-4574-881F-77A04017278C" targetEntity="concept" targetURI="http://id.loc.gov/authorities/subjects/sh85114639"/></efrbr-subject:subjectRelations><efrbr-other:otherRelations/></efrbr:relationships></efrbr:recordSet>