URI | http://purl.tuc.gr/dl/dias/A3990ECE-1406-416A-9F4E-C5469A70F59D | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.96456 | - |
Γλώσσα | en | - |
Μέγεθος | 85 pages | en |
Μέγεθος | 1.9 megabytes | en |
Τίτλος | Accelerating dictionary-based sentiment analysis with GPGPUs | en |
Τίτλος | Επιτάχυνση της συναισθηματικής ανάλυσης βασισμένη σε λεξικό με χρήση GPGPUs | el |
Δημιουργός | Theodoraki Emmanouela | en |
Δημιουργός | Θεοδωρακη Εμμανουελα | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Ioannidis Sotirios | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Ιωαννιδης Σωτηριος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Dollas Apostolos | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Δολλας Αποστολος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Zervakis Michail | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Ζερβακης Μιχαηλ | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | Sentiment analysis is a natural language processing (NLP) technique that extracts subjective information such as opinions and emotions from textual data. The rapid growth of online social networks and the vast amount of content generated by their users has led the research community to dedicate a significant amount of study to the development of effective analysis techniques in this field. In addition, sentiment analysis has wide application in various areas, such as brand intelligence and market research, political campaigns, and spam detection, among others. The goal of this thesis is to develop the algorithms and tools that enable the acceleration of dictionary-based sentiment analysis using General Purpose Graphics Processing Units (GPGPUs) and other multi-core processors. To achieve this, we design and implement a data-parallel sentiment analysis system that extends previous literature on data-parallel pattern matchers, based on the Aho-Corasick algorithm, using thousands of data blobs as input, simultaneously. This system is able to analyze large feeds of data (e.g., Twitter feeds) and assign the respective scores to the content. Also, we re-design and implement sentiment analysis techniques found in popular tools, such as Vader, aiming to provide fast and accurate sentiment analysis results. We implement the core engine of our system using C/OpenCL, enabling it to execute on a large variety of devices and evaluate our system using a large corpus of Twitter feeds related to the COVID-19 pandemic. We compare our sentiment analysis tool against state-of-the-art solutions found in the literature, utilizing both lexicon-based sentiment analysis and machine learning and identify that our proposal can outperform them in computational speed by orders of magnitude while providing the same accuracy. This work provides a fast and accurate sentiment analysis tool that can execute on commodity systems without modifications, operating either as a stand-alone tool or as a library that can be embedded in other applications, allowing users to obtain sentiment analysis results in an almost real-time fashion. | en |
Περίληψη | Η ανάλυση συναισθήματος (Sentiment Analysis - SA), είναι μια τεχνική επεξεργασίας φυσικής γλώσσας (NLP) που αναγνωρίζει υποκειμενικές πληροφορίες, όπως απόψεις και συναισθήματα σε περιεχόμενο κειμένου. Η ραγδαία ανάπτυξη των μέσων κοινωνικής δικτύωσης και ο μεγάλος όγκος περιεχομένου που παράγεται από τους χρήστες τους, έχει οδηγήσει την επιστημονική κοινότητα να αφιερώσει σημαντικό ποσοστό της έρευνας στην ανάπτυξη αποτελεσματικών τεχνικών ανάλυσης για το πεδίο αυτό. Επιπλέον, η ανάλυση συναισθήματος έχει ευρεία εφαρμογή σε πολλούς τομείς, όπως στο brand intelligence και στην έρευνα αγοράς, στις πολιτικές καμπάνιες, στο spam detection, κ.ά. Ο στόχος της παρούσας διπλωματικής εργασίας είναι η ανάπτυξη αλγορίθμων και εργαλείων που επιταχύνουν την ανάλυση συναισθήματος βασισμένη σε λεξικά χρησιμοποιώντας επεξεργαστές γενικού σκοπού (GPGPUs) και άλλους πολυπύρηνους επεξεργαστές. Για να το επιτύχουμε αυτό, σχεδιάζουμε και υλοποιούμε ένα σύστημα ανάλυσης συναισθήματος με παράλληλη επεξεργασία δεδομένων, το οποίο επεκτείνει υπάρχουσα μελέτη για παράλληλη αναζήτηση αλφαριθμητικών προτύπων, βασισμένη στον αλγόριθμο Aho-Corasick, χρησιμοποιώντας χιλιάδες blobs δεδομένων ως είσοδο, ταυτόχρονα. Το σύστημα αυτό, είναι ικανό να αναλύει μεγάλες ροές δεδομένων (π.χ. Twitter feeds) και να αναθέτει τα αντίστοιχα σκορ στο περιεχόμενο. Ακόμα, υλοποιούμε και επανασχεδιάζουμε τεχνικές SA που χρησιμοποιούνται σε δημοφιλή εργαλεία, όπως το Vader, με στόχο να παρέχουμε γρήγορα και ακριβή αποτελέσματα συναισθηματικής ανάλυσης. Επίσης, η κύρια μηχανή του συστήματός μας υλοποιείται με τη χρήση C/OpenCL, δίνοντας τη δυνατότητα να εκτελείται σε μεγάλη ποικιλία συσκευών. Η απόδοση του συστήματός μας αξιολογείται χρησιμοποιώντας ένα μεγάλο σύνολο κειμένων από Twitter feeds τα οποία αναφέρονται στην πανδημία COVID-19. Τέλος, συγκρίνουμε την προσέγγιση μας για ανάλυση συναισθήματος με τις προηγμένες λύσεις που υπάρχουν στη βιβλιογραφία, χρησιμοποιώντας τόσο αναλύσεις συναισθήματος που βασίζονται σε λεξικά (Lexicon-based), όσο και σε μηχανική μάθηση (Machine Learning – ML) και διαπιστώνουμε ότι η πρότασή μας μπορεί να τις ξεπεράσει σε υπολογιστική ταχύτητα κατά πολλές τάξεις μεγέθους, διατηρώντας την ίδια ακρίβεια. Αυτή η εργασία, παρέχει ένα γρήγορο και ακριβές εργαλείο ανάλυσης συναισθήματος το οποίο μπορεί να εκτελείται σε κοινά συστήματα γενικής χρήσης χωρίς τροποποιήσεις. Καταλήγοντας, το σύστημά μας λειτουργεί είτε ως ένα αυτόνομο εργαλείο είτε ως μία βιβλιοθήκη που μπορεί να ενσωματωθεί σε άλλες εφαρμογές, επιτρέποντας στους χρήστες να αποκτήσουν αποτελέσματα συναισθηματικής ανάλυσης σε σχεδόν πραγματικό χρόνο. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2023-07-14 | - |
Ημερομηνία Δημοσίευσης | 2023 | - |
Θεματική Κατηγορία | Sentiment analysis | en |
Θεματική Κατηγορία | GPGPU acceleration | en |
Θεματική Κατηγορία | Lexicon-based | en |
Θεματική Κατηγορία | Dictionary-based | en |
Θεματική Κατηγορία | Natural language processing | en |
Θεματική Κατηγορία | Twitter | en |
Θεματική Κατηγορία | User generated content | en |
Θεματική Κατηγορία | Data-parallel | en |
Θεματική Κατηγορία | Ανάλυση συναισθήματος | el |
Θεματική Κατηγορία | Παράλληλα | el |
Βιβλιογραφική Αναφορά | Emmanouela Theodoraki, "Accelerating dictionary-based sentiment analysis with GPGPUs", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2023 | en |
Βιβλιογραφική Αναφορά | Εμμανουέλα Θεοδωράκη, "Επιτάχυνση της συναισθηματικής ανάλυσης βασισμένη σε λεξικό με χρήση GPGPUs", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023 | el |