<efrbr:recordSet xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:efrbr="http://vfrbr.info/efrbr/1.1" xmlns:efrbr-work="http://vfrbr.info/efrbr/1.1/work" xmlns:efrbr-expression="http://vfrbr.info/efrbr/1.1/expression" xmlns:efrbr-manifestation="http://vfrbr.info/efrbr/1.1/manifestation" xmlns:efrbr-person="http://vfrbr.info/efrbr/1.1/person" xmlns:efrbr-corporateBody="http://vfrbr.info/efrbr/1.1/corporateBody" xmlns:efrbr-concept="http://vfrbr.info/efrbr/1.1/concept" xmlns:efrbr-structure="http://vfrbr.info/efrbr/1.1/structure" xmlns:efrbr-responsible="http://vfrbr.info/efrbr/1.1/responsible" xmlns:efrbr-subject="http://vfrbr.info/efrbr/1.1/subject" xmlns:efrbr-other="http://vfrbr.info/efrbr/1.1/other" xsi:schemaLocation="http://vfrbr.info/efrbr/1.1 http://vfrbr.info/schemas/1.1/efrbr.xsd"><efrbr:entities><efrbr-work:work identifier="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C"><efrbr-work:titleOfTheWork>Distributed k-Means streaming algorithms in Spark</efrbr-work:titleOfTheWork></efrbr-work:work><efrbr-expression:expression identifier="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C"><efrbr-expression:titleOfTheExpression>Distributed k-Means streaming algorithms in Spark</efrbr-expression:titleOfTheExpression><efrbr-expression:titleOfTheExpression>Κατανεμημένοι αλγόριθμοι Κ-Μέσων στο σύστημα Spark</efrbr-expression:titleOfTheExpression><efrbr-expression:formOfExpression vocabulary="DIAS:TYPES">
            Διπλωματική Εργασία
            Diploma Work
         </efrbr-expression:formOfExpression><efrbr-expression:dateOfExpression type="issued">2021-06-22</efrbr-expression:dateOfExpression><efrbr-expression:dateOfExpression type="published">2021</efrbr-expression:dateOfExpression><efrbr-expression:languageOfExpression vocabulary="iso639-1">en</efrbr-expression:languageOfExpression><efrbr-expression:summarizationOfContent>K-means is one of the most commonly used clustering algorithms that clusters the multi-dimensional data points into a predefined number of clusters. When data arrives in a stream, there is a need to estimate clusters dynamically, updating them on arrival. In this thesis, we will apply a sampling technique using a data structure called coreset trees, before any approximation algorithm is applied. Coresets are used to obtain a small weighted sample from the data stream. Using coresets in a tree-like form we successfully speed up the process of computing a summary of the original data. The advantage of such a coreset is that we can apply any clustering algorithm on a much smaller sample to compute a solution for the original dataset faster. In the second step, we are using a StreamKM++ to estimate the cluster centres of the summary. We evaluate the algorithm on how the parallelism level impacts the time needed to extract the clusters, finally we compare the consistency within clusters of data conclusions about the usage of coreset trees as a distributed sampling method.</efrbr-expression:summarizationOfContent><efrbr-expression:summarizationOfContent>Ο αλγόριθμος K-means είναι ένας από τους πιο αποτελεσματικούς αλγόριθμους για την ομαδοποίηση (clustering) πολυδιάστατων δεδομένων σε ένα προκαθορισμένο αριθμό ομάδων (clusters). Όταν τα δεδομένα έρχονται σε stream, θέλουμε να υπολογίζουμε με δυναμικό τρόπο τις ομάδες που έχουμε και να τις ενημερώνουμε για κάθε νέα εισαγωγή. Σε αυτή τη διπλωματική εργασία, εφαρμόζουμε μια τεχνική δειγματοληψίας (sampling) χρησιμοποιώντας ως δομή δεδομένων τα Coreset Trees πριν εφαρμόσουμε κάποιον αλγόριθμο προσέγγισης δεδομένων. Τα coresets χρησιμοποιούνται για να δημιουργήσουμε ένα μικρό σταθμισμένο δείγμα από μια ροή δεδομένων. Επιπλέον, όταν χρησιμοποιήσουμε τα coresets ως μια δενδρική δομή καταφέρνουμε να επιταχύνουμε την διαδικασία δημιουργίας μιας σύνοψης των αρχικών δεδομένων. Η χρήση των coresets μας δίνει το πλεονέκτημα να εφαρμόσουμε έναν αλγόριθμο ομαδοποίησης σε ένα πολύ μικρότερο δείγμα και να υπολογίσουμε το αποτέλεσμα του αρχικού stream ταχύτερα. Στο αποτέλεσμα της σύνοψης που δημιουργήσαμε με χρήση των coreset trees εφαρμόζουμε τον k-means αλγόριθμο για να εξάγουμε τα clusters. Αξιολογούμε τον αλγόριθμο ως προς τον βαθμό παραλληλισμού και την ακρίβεια των κέντρων της σύνοψης. Τέλος, καταλήγουμε σε συμπεράσματα για την χρήση των coreset trees ως κατανεμημένη μέθοδο δειγματοληψίας.</efrbr-expression:summarizationOfContent><efrbr-expression:useRestrictionsOnTheExpression type="creative-commons">http://creativecommons.org/licenses/by/4.0/</efrbr-expression:useRestrictionsOnTheExpression><efrbr-expression:note type="academic unit">Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών</efrbr-expression:note></efrbr-expression:expression><efrbr-manifestation:manifestation identifier="https://dias.library.tuc.gr/view/89432"><efrbr-manifestation:titleOfTheManifestation>Kyriakidou_Ioanna_Dip_2021.pdf</efrbr-manifestation:titleOfTheManifestation><efrbr-manifestation:publicationDistribution><efrbr-manifestation:placeOfPublicationDistribution type="distribution">Chania [Greece]</efrbr-manifestation:placeOfPublicationDistribution><efrbr-manifestation:publisherDistributor type="distributor">Library of TUC</efrbr-manifestation:publisherDistributor><efrbr-manifestation:dateOfPublicationDistribution>2021-06-22</efrbr-manifestation:dateOfPublicationDistribution></efrbr-manifestation:publicationDistribution><efrbr-manifestation:formOfCarrier>application/pdf</efrbr-manifestation:formOfCarrier><efrbr-manifestation:extentOfTheCarrier>5.0 MB</efrbr-manifestation:extentOfTheCarrier><efrbr-manifestation:accessRestrictionsOnTheManifestation>free</efrbr-manifestation:accessRestrictionsOnTheManifestation></efrbr-manifestation:manifestation><efrbr-person:person identifier="http://users.isc.tuc.gr/~ikyriakidou"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Kyriakidou Ioanna
            Κυριακιδου Ιωαννα
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-person:person identifier="http://users.isc.tuc.gr/~adeligiannakis"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Deligiannakis Antonios
            Δεληγιαννακης Αντωνιος
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-person:person identifier="http://users.isc.tuc.gr/~mgarofalakis"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Garofalakis Minos
            Γαροφαλακης Μινως
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-person:person identifier="http://users.isc.tuc.gr/~lagoudakis"><efrbr-person:nameOfPerson vocabulary="TUC:LDAP">
            Lagoudakis Michail
            Λαγουδακης Μιχαηλ
         </efrbr-person:nameOfPerson></efrbr-person:person><efrbr-corporateBody:corporateBody identifier="D9AC54E2-5BDB-4F99-89D1-30FAC757A981"><efrbr-corporateBody:nameOfTheCorporateBody vocabulary="">
            Πολυτεχνείο Κρήτης
            Technical University of Crete
         </efrbr-corporateBody:nameOfTheCorporateBody></efrbr-corporateBody:corporateBody><efrbr-concept:concept identifier="ECF53C33-57A0-494D-9357-E54059882AF6"><efrbr-concept:termForTheConcept>
            k-Means
         </efrbr-concept:termForTheConcept></efrbr-concept:concept><efrbr-concept:concept identifier="BE9E8C60-DD59-4ED2-8E60-6922C3EEB007"><efrbr-concept:termForTheConcept>
            Data mining
         </efrbr-concept:termForTheConcept></efrbr-concept:concept><efrbr-concept:concept identifier="C5C2F3F3-6E4B-4464-86E1-E7F453FC8C25"><efrbr-concept:termForTheConcept>
            Streaming algorithms
         </efrbr-concept:termForTheConcept></efrbr-concept:concept></efrbr:entities><efrbr:relationships><efrbr-structure:structureRelations><efrbr-structure:realizedThrough sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="expression" targetURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C"/><efrbr-structure:embodiedIn sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="manifestation" targetURI="http://purl.tuc.gr/dl/dias/11C0B37A-6411-4C25-91C1-6F8B1D0AC604"/></efrbr-structure:structureRelations><efrbr-responsible:responsibleRelations><efrbr-responsible:createdBy sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~ikyriakidou"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~ikyriakidou" role="author"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~adeligiannakis" role="http://purl.tuc.gr/dl/dias/vocabs/contributor-roles/1"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~mgarofalakis" role="http://purl.tuc.gr/dl/dias/vocabs/contributor-roles/2"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="http://users.isc.tuc.gr/~lagoudakis" role="http://purl.tuc.gr/dl/dias/vocabs/contributor-roles/2"/><efrbr-responsible:realizedBy sourceEntity="expression" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="person" targetURI="D9AC54E2-5BDB-4F99-89D1-30FAC757A981" role="publisher"/></efrbr-responsible:responsibleRelations><efrbr-subject:subjectRelations><efrbr-subject:hasSubject sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="concept" targetURI="ECF53C33-57A0-494D-9357-E54059882AF6"/><efrbr-subject:hasSubject sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="concept" targetURI="BE9E8C60-DD59-4ED2-8E60-6922C3EEB007"/><efrbr-subject:hasSubject sourceEntity="work" sourceURI="http://purl.tuc.gr/dl/dias/0569DC4B-8A26-4026-9964-7F802533074C" targetEntity="concept" targetURI="C5C2F3F3-6E4B-4464-86E1-E7F453FC8C25"/></efrbr-subject:subjectRelations><efrbr-other:otherRelations/></efrbr:relationships></efrbr:recordSet>