Το έργο με τίτλο Προσαρμοστικά μοντέλα πιστοληπτικής αξιολόγησης μέσω τοπικών μεθόδων ταξινόμησης από τον/τους δημιουργό/ούς Nikolaidis Dimitrios διατίθεται με την άδεια Creative Commons Αναφορά Δημιουργού 4.0 Διεθνές
Βιβλιογραφική Αναφορά
Δημήτριος Νικολαΐδης, "Προσαρμοστικά μοντέλα πιστοληπτικής αξιολόγησης μέσω τοπικών μεθόδων ταξινόμησης", Διδακτορική Διατριβή, Σχολή Μηχανικών Παραγωγής και Διοίκησης, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2023
https://doi.org/10.26233/heallink.tuc.94513
Το πρόβλημα της ασυμμετρίας της πληροφορίας (information asymmetry) έχει μελετηθεί εκτενώς όπως και οι συνέπειές του στο χρηματοπιστωτικό χώρο. Έτσι η ανταλλαγή πληροφοριών και δεδομένων οικονομικής συμπεριφοράς, μέσω μηχανισμών όπως τα γραφεία πίστης (Credit bureaus) λειτούργησε ως αντίβαρο στην ασυμμετρία αυτή και ως υποστηρικτικό εργαλείο στις πιστοδοτικές αποφάσεις. Από το τα τέλη του 19ου αιώνα που λειτούργησε το πρώτο γραφείο πίστης Dun & Bradstreet, αναπτύχθηκαν μεθοδολογίες για την υποστήριξη της πιστοληπτικής αξιολόγησης υποψηφίων δανειοληπτών. Η βασικότερη ίσως μεθοδολογία των γραφείων πίστης διεθνώς είναι η πιστοληπτική βαθμολόγηση (credit scoring) και συνίσταται στη χρήση στατιστικών και αλγοριθμικών μεθόδων που αποσκοπούν στο μετασχηματισμό των δεδομένων σε αριθμητικές μετρήσεις οι οποίες μπορούν να χρησιμοποιηθούν για την αυτοματοποιημένη "κατάρτιση προφίλ" υποψηφίων δανειοληπτών. Μεθοδολογικά η πιστοληπτική βαθμολόγηση αρχικά στηρίζονταν σε αμιγώς στατιστικές προσεγγίσεις (π.χ. λογιστική παλινδρόμηση, δέντρα αποφάσεων κλπ), ωστόσο η σχετικά πρόσφατη "έκρηξη" των μεθόδων μηχανικής μάθησης (machine learning) οδήγησε σε αντίστοιχη ανάπτυξη των σχετικών μεθόδων και υποδειγμάτων που χρησιμοποιούνται στην πιστωτική βαθμολόγηση.Παρόλα αυτά η εφαρμογή αυτών των μεθόδων συναντά θεωρητικά αλλά και πρακτικά προβλήματα, το βασικότερο των οποίων είναι η πληθυσμιακή μετατόπιση (population drift): Όπως όλα τα μοντέλα εκτίμησης (Predictive models) έτσι και τα υποδείγματα πιστοληπτικής βαθμολόγησης αντιμετωπίζουν το πρόβλημα της πληθυσμιακής μετατόπισης (population drift), όταν οι στατιστικές κατανομές του υπό μοντελοποίηση πληθυσμού, αναπόφευκτα, μεταβάλλονται στο χρόνο. Αυτό το πρόβλημα αντιμετωπίζεται με τη διαρκή παρακολούθηση (Monitoring) των επιδόσεων των υποδειγμάτων (Performance measures) και με τις κατάλληλες προσαρμογές όταν απαιτείται. Λαμβάνοντας υπόψη το γεγονός ότι για την ανάπτυξή τέτοιων μοντέλων χρειάζονται δεδομένα κατ' ελάχιστο 2 ετών και προθέτοντας και τον απαιτούμενο χρόνο υλοποίησης και θέσης σε παραγωγική λειτουργία, σε πρακτικό επίπεδο εντείνεται ακόμα περισσότερο το πρόβλημα της πληθυσμιακής μετατόπισης.Στην παρούσα διατριβή προτείνεται η αντιμετώπιση του προβλήματος της πληθυσμιακής μετατόπισης με αυτόματη και δυναμική προσαρμογή των υποδειγμάτων βαθμολόγησης (dynamic adaptation) με χρήση τοπικών μεθόδων ταξινόμησης (local classification). Συγκεκριμένα το προτεινόμενο σχήμα συνίσταται στον υπολογισμό της πιστοληπτικής βαθμολόγησης χρησιμοποιώντας μεθόδους Lazy learning για κάθε ένα εισερχόμενο αίτημα score (σημείο εισόδου ή query instance), χρησιμοποιώντας μόνο εκείνο το υποσύνολο των ομοειδών εγγραφών προς το εισερχόμενο σημείο (Instance selection, local region of competence). Η έννοια της ομοιότητας (similarity) καθορίζεται από την απόσταση (distance) με συγκεκριμένη μετρική (π.χ. ευκλείδια απόσταση) μεταξύ της εισερχόμενης εγγραφής και του n-διάστατου χώρου του συνόλου των εγγραφών (feature space), όπου είναι το πλήθος των διαφορετικών μεταβλητών (attributes ή characteristics), όπου n είναι το πλήθος των πεδίων κάθε εγγραφής. To υποσύνολο των ομοειδών εγγραφών κάθε εισερχόμενου σημείου προσδιορίζεται με τη μέθοδο των πλησιέστερων γειτόνων (kNN) . Έτσι κάθε γειτονιά χρησιμοποιείται ως σύνολο εκπαίδευσης (training set) ενός υποδείγματος πιστωτικής βαθμολόγησης αποκλειστικά για το συγκεκριμένο σημείο εισόδου.Συγκρίνονται μεθοδολογίες στατιστικές και μηχανικής μάθησης (λογιστική παλινδρόμηση που λαμβάνεται και ως σημείο αναφοράς, Random Forests και Gradient Boosting Trees), χρησιμοποιώντας πραγματικά δεδομένα γραφείου πίστης για ένα βάθος 11 ετών (2009-2019) ανά τρίμηνο με συνολικά 3,520,000 εγγραφές και 125 διαφορετικές μεταβλητές. Για τον υπολογισμό των μέτρων επίδοσης (performance measures) χρησιμοποιήθηκαν τα AUC and H-Measure με κατάλληλες στατιστικές μεθοδολογίες σύγκρισης διαφορετικών ταξινομητών (classifiers): Friedman’s aligned ranks σε συνδυασμό με το post-hoc Nemenyi test.Ειδικότερα διερευνήθηκαν οι εξής στατιστικές υποθέσεις:H1: 'Έχουν καλύτερες επιδόσεις οι τοπικές μέθοδοι (local classification methods) σε σχέση με τις καθολικές (global);H2: Υπάρχει σημαντικά στατιστική διαφοροποίηση μεταξύ των μεθόδων μάθησης και της λογιστικής παλινδρόμησης;H3: Επηρεάζει η επιλογή των γειτόνων με βάση την ομοιότητα (KNN) τα αποτελέσματα;Η διερεύνηση των ανωτέρω υποθέσεων καταδεικνύει ότι οι τοπικές μέθοδοι επιφέρουν κατά περίπτωση καλύτερα αποτελέσματα σε σχέση με τις καθολικές, ωστόσο η διαφορές είναι στατιστικά σημαντικές μόνο στην περίπτωση της λογιστικής παλινδρόμησης. Ιδιαίτερα ενδιαφέρον παρουσιάζει το γεγονός ότι, σε συμφωνία με τα ευρήματα της βιβλιογραφίας, οι μέθοδοι μηχανικής μά