URI | http://purl.tuc.gr/dl/dias/945B72EC-BCF0-40B3-9E88-3CE687E418D9 | - |
Αναγνωριστικό | https://doi.org/10.26233/heallink.tuc.94861 | - |
Γλώσσα | en | - |
Μέγεθος | 1.2 megabytes | en |
Μέγεθος | 68 pages | en |
Τίτλος | Study of gradient and stochastic gradient algorithms for Logistic Regression
| en |
Τίτλος | Μελέτη αλγορίθμων βαθμίδας και στοχαστικής βαθμίδας για το πρόβλημα της Logistic Regression | el |
Δημιουργός | Limnaios Emmanouil | en |
Δημιουργός | Λημναιος Εμμανουηλ | el |
Συντελεστής [Επιβλέπων Καθηγητής] | Liavas Athanasios | en |
Συντελεστής [Επιβλέπων Καθηγητής] | Λιαβας Αθανασιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Karystinos Georgios | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Καρυστινος Γεωργιος | el |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Samoladas Vasilis | en |
Συντελεστής [Μέλος Εξεταστικής Επιτροπής] | Σαμολαδας Βασιλης | el |
Εκδότης | Πολυτεχνείο Κρήτης | el |
Εκδότης | Technical University of Crete | en |
Ακαδημαϊκή Μονάδα | Technical University of Crete::School of Electrical and Computer Engineering | en |
Ακαδημαϊκή Μονάδα | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Περίληψη | In this Diploma thesis, we study the Logistic Regression (LR), which is a widely used method for classification. We start by presenting the regularized LR cost function and computing its gradient and Hessian. It is well known that the LR is a convex function. Our main aim is to study the performance (convergence speed and solution accuracy) of deterministic versus stochastic algorithms for the minimization of the regularized LR cost function. First, we present two variants of the deterministic (full) gradient algorithm, one with a “naive” step-size and one with backtracking line search. Next, we move to the (Nesterov-type) accelerated full gradient algorithm. Then, we present variants of the stochastic gradient descent with step-sizes computed by various methods. For example,
(1) by exploiting the strong convexity property of the regularized LR,
(2) by using Armijo line-search using only a subset of the data determined by the batch size, (3) by using an ad-hoc line-search based on the angle of two successive stochastic gradients, etc. We test the performance of the various algorithms by using synthetic data (linearly separable and linearly non-separable). We observe that some stochastic variants (especially the variant which exploits the strong convexity of the regularized LR) perform quite well
during the first epochs, while the accelerated gradient algorithms become more accurate after the first epochs. In general, accelerated stochastic gradient-type algorithms are fast during the first epochs but not very accurate. Thus, more sophisticated accelerated stochastic algorithms must be pursued. | en |
Περίληψη | Σε αυτή τη διπλωματική εργασία μελετάμε την Λογιστική Παλινδρόμηση (ΛΠ) η οποία χρησιμοποιείται ευρέως ως μέθοδος ταξινόμησης. Ξεκινάμε παρουσιάζοντας την κανονικοποιημένη συνάρτηση κόστους της ΛΠ και υπολογίζουμε τη βαθμίδα και την Εσσιανή της. Είναι γνωστό ότι η ΛΠ είναι κυρτή συνάρτηση. Κύριος στόχος μας είναι να μελετήσουμε την απόδοση (ταχύτητα σύγκλισης και ακρίβεια λύσης) ντετερμινιστικών έναντι στοχαστικών αλγόριθμων, για την ελαχιστοποίηση της κανονικοποιημένης συνάρτησης κόστους της ΛΠ. Πρώτα, παρουσιάζουμε δύο παραλλαγές του ντετερμινιστικού αλγόριθμου Gradient Descent, μία με "αφελές" μέγεθος βήματος και μία με αναζήτηση γραμμής με οπισθοχώρηση. Έπειτα, προχωράμε στον (τύπου Nesterov) επιταχυνόμενο ντετερμινιστικό αλγόριθμο. Στη συνέχεια, παρουσιάζουμε παραλλαγές του αλγόριθμου Stochastic Gradient Descent με μέγεθος βήματος που υπολογίζεται με διάφορες μεθόδους. Για παράδειγμα, (1) αξιοποιώντας την ιδιότητα της ισχυρής κυρτότητας της κανονικοποιημένης ΛΠ, (2) αξιοποιώντας την αναζήτηση γραμμής κατά Armijo, χρησιμοποιώντας μόνο ένα υποσύνολο των δεδομένων που προσδιορίζεται από το μέγεθος παρτίδας, (3) χρησιμοποιώντας μια επί τούτου αναζήτηση γραμμής βασισμένη στη γωνία δύο διαδοχικών στοχαστικών βαθμίδων κ.λπ. Δοκιμάζουμε την απόδοση των διάφορων αλγόριθμων χρησιμοποιώντας συνθετικά δεδομένα (γραμμικά διαχωρίσιμα και γραμμικά μη διαχωρίσιμα). Παρατηρούμε ότι ορισμένες παραλλαγές στοχαστικών αλγόριθμων (ειδικά η παραλλαγή που εκμεταλλεύεται την ισχυρή κυρτότητα της κανονικοποιημένης ΛΠ) αποδίδει αρκετά καλά κατά τις πρώτες εποχές, ενώ οι επιταχυνόμενοι αλγόριθμοι γίνονται πιο ακριβείς μετά τις πρώτες εποχές. Γενικά, οι επιταχυνόμενοι στοχαστικοί αλγόριθμοι είναι γρήγοροι κατά τις πρώτες εποχές αλλά όχι πολύ ακριβείς. Έτσι, πιο εξελιγμένοι επιταχυνόμενοι στοχαστικοί αλγόριθμοι πρέπει να εξεταστούν. | el |
Τύπος | Διπλωματική Εργασία | el |
Τύπος | Diploma Work | en |
Άδεια Χρήσης | http://creativecommons.org/licenses/by/4.0/ | en |
Ημερομηνία | 2023-02-15 | - |
Ημερομηνία Δημοσίευσης | 2023 | - |
Θεματική Κατηγορία | Supervised learning | en |
Θεματική Κατηγορία | Machine learning | en |
Θεματική Κατηγορία | Classification | en |
Θεματική Κατηγορία | Optimization | en |
Βιβλιογραφική Αναφορά | Emmanouil Limnaios, "Study of gradient and stochastic gradient algorithms for Logistic Regression", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2023 | en |
Βιβλιογραφική Αναφορά | Εμμανουήλ Λημναίος, "Μελέτη αλγορίθμων βαθμίδας και στοχαστικής βαθμίδας για το πρόβλημα της Logistic Regression", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023 | el |