URI | http://purl.tuc.gr/dl/dias/E6D5E201-CA1E-4AED-82D3-528558FFCFF5 | - |
Identifier | https://doi.org/10.26233/heallink.tuc.104081 | - |
Language | en | - |
Extent | 110 pages | en |
Title | Implementation of a platform for the update, management and analysis of data for the «HelTh» nutrition database | en |
Title | Υλοποίηση πλατφόρμας για την ενημέρωση, διαχείριση και ανάλυση της βάσης διατροφικών δεδομένων «HelTH» | el |
Creator | Vlassopoulos Evaggelos-Stylianos | en |
Creator | Βλασσοπουλος Ευαγγελος-Στυλιανος | el |
Contributor [Thesis Supervisor] | Zervakis Michail | en |
Contributor [Thesis Supervisor] | Ζερβακης Μιχαηλ | el |
Contributor [Committee Member] | Lagoudakis Michail | en |
Contributor [Committee Member] | Λαγουδακης Μιχαηλ | el |
Contributor [Committee Member] | Kapsokefalou Maria | en |
Publisher | Πολυτεχνείο Κρήτης | el |
Publisher | Technical University of Crete | en |
Academic Unit | Technical University of Crete::School of Electrical and Computer Engineering | en |
Academic Unit | Πολυτεχνείο Κρήτης::Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών | el |
Description | Διπλωματική Εργασία που υποβλήθηκε στη σχολή ΗΜΜΥ του Πολ. Κρήτης για την πλήρωση προϋποθέσεων λήψης του Προπτυχιακού Διπλώματος. | el |
Content Summary | Purpose: The study aims to test whether Natural Language Processing (NLP) and Machine Learning teaching can be employed to accurately predict the nutritional composition- namely total fat, protein, total sugar, sodium and fiber content- of food products using their ingredient list as input. This approach is centered around the development of AI-tool to support food labelling standardization, address public health concerns and raise consumer awareness.
Methodology: DistilBERT embeddings were employed to transform text from a food’s ingredient list into structured numerical representation, in a deep learning based predictive framework. The experimental dataset was the USDA FoodData Central Branded Food Composition database which ensures a comprehensive representation of the food environment and the variation in composition. Experimental regression models and Multi-Layer Perceptron (MLP) networks
employed a variety of loss functions, epochs, dataset sizes and batch sizes. The evaluation of the different experimental conditions was carried out using validation loss, Mean Absolute Error (MAE), and R2 score. Optimization was carried out using AdamW.
Results: Findings indicate that using datasets with data from a single food category (category-specific), provide models with improved predictive accuracy, validation loss and model convergence compared to those using data from various food categories (generalized). SmoothL1Loss function was associated with improved validation and training loss compared to other loss functions, while AdamW enhanced training stability. The study further highlights that using datasets with higher structure as opposed to unstructured datasets improves prediction
accuracy and reduces noise and overfitting risks.
Conclusions: The results indicate that NLP-driven models can be proposed as a reliable alternative in the estimation/prediction of a food’s nutritional composition from its ingredient list. This proposes the choice of scalable and cost-effective AI-based alternatives to traditional laboratory-based methods. Future research needs are identified in the areas of refinement of real-time prediction capabilities, optimization of feature selection techniques and ultimately the usability of such techniques in regulatory environments. The study highlights the potential of machine learning and intelligent food composition prediction in the food industry as a tool to increase consumer trust and support high quality labelling. | en |
Content Summary | Σκοπός: Η μελέτη διερευνά τη δυνατότητα χρήσης της Επεξεργασίας Φυσικής Γλώσσας (NLP) και τεχνικών μηχανικής μάθησης για την ακριβή πρόβλεψη της διατροφικής σύστασης τροφίμων— ειδικότερα της περιεκτικότητας σε ολικά λιπαρά, πρωτεΐνες, ολικά σάκχαρα, νάτριο και φυτικές ίνες —βάσειτης λίστας συστατικών τους. Η έρευνα υποκινείται από την αυξανόμενη ζήτηση για ακριβή και τυποποιημένη επισήμανση τροφίμων λόγω των ρυθμιστικών αλλαγών,
των ανησυχιών για τη δημόσια υγεία και της αυξημένης καταναλωτικής ευαισθητοποίησης.
Μεθοδολογία: Αναπτύχθηκε ένα προγνωστικό πλαίσιο βασισμένο στη βαθιά μάθηση, αξιοποιώντας DistilBERT embeddings για τη μετατροπή των λιστών συστατικών σε αριθμητικές αναπαραστάσεις. Χρησιμοποιήθηκε ένα σύνολο δεδομένων από την USDA FoodData Central, διασφαλίζοντας την ευρεία κάλυψη της διατροφικής σύστασης τροφίμων. Πειραματικά μοντέλα παλινδρόμησης και δίκτυα Multi-Layer Perceptron (MLP), μελετησαν μια ποικιλία συναρτήσεων
απώλειας, εποχών, μεγεθών συνόλου δεδομένων και μεγεθών παρτίδας. Η αξιολόγηση των διαφορετικών πειραματικών συνθηκών πραγματοποιήθηκε με τη χρήση της απώλειας επικύρωσης (validation loss), του μέσου απόλυτου σφάλματος (MAE) και τoυ Συντελεστή Προσδιορισμού (R2 Score). Η βελτιστοποίηση πραγματοποιήθηκε με τη χρήση του AdamW.
Αποτελέσματα: Τα ευρήματα δείχνουν ότι η χρήση συνόλων δεδομένων με δεδομένα από μία μόνο κατηγορία τροφίμων (ειδική κατηγορία), παρέχει μοντέλα με βελτιωμένη ακρίβεια πρόβλεψης, απώλεια επικύρωσης και σύγκλιση του μοντέλου σε σύγκριση με εκείνα που χρησιμοποιούν δεδομένα από διάφορες κατηγορίες τροφίμων (γενικευμένα). Η συνάρτηση SmoothL1Loss συσχετίστηκε με βελτιωμένες απώλειες επικύρωσης και εκπαίδευσης σε σύγκριση με άλλες συναρτήσεις απωλειών, ενώ η AdamW ενίσχυσε τη σταθερότητα της
εκπαίδευσης. Η μελέτη υπογραμμίζει περαιτέρω ότι η χρήση συνόλων δεδομένων με υψηλότερη δομή σε αντίθεση με τα μη δομημένα σύνολα δεδομένων βελτιώνει την ακρίβεια πρόβλεψης και μειώνει τους κινδύνους θορύβου και υπερπροσαρμογής.
Συμπεράσματα: Τα αποτελέσματα υποδεικνύουν ότι τα μοντέλα που βασίζονται σε NLP μπορούν να προταθούν ως αξιόπιστη εναλλακτική λύση για την εκτίμηση/πρόβλεψη της διατροφικής σύνθεσης ενός τροφίμου από τη λίστα συστατικών του. Αυτό προτείνει την επιλογή κλιμακούμενων και οικονομικά αποδοτικών εναλλακτικών λύσεων με βάση την ΤΝ σε σχέση με τις παραδοσιακές μεθόδους που βασίζονται σε εργαστήρια. Μελλοντικές ερευνητικές ανάγκες εντοπίζονται στους τομείς της βελτίωσης των δυνατοτήτων πρόβλεψης σε πραγματικό χρόνο, της βελτιστοποίησης των τεχνικών επιλογής χαρακτηριστικών και τελικά της χρηστικότητας αυτών των τεχνικών εντός των κανονιστικών πλαισίων της επισήμανσης τροφίμων. Η μελέτη αναδεικνύει τις δυνατότητες της μηχανικής μάθησης και της ευφυούς πρόβλεψης της σύνθεσης των τροφίμων για τη βιομηχανία τροφίμων ως εργαλείο αύξησης της εμπιστοσύνης των καταναλωτών προς τα συσκευασμένα τρόφιμα και την υποστήριξη της επισήμανσης υψηλής ποιότητας. | el |
Type of Item | Διπλωματική Εργασία | el |
Type of Item | Diploma Work | en |
License | http://creativecommons.org/licenses/by/4.0/ | en |
Date of Item | 2025-07-21 | - |
Date of Publication | 2025 | - |
Subject | Nutrient composition | en |
Subject | Prediction model | en |
Subject | Food dataset | en |
Subject | AI | en |
Subject | NLP | en |
Bibliographic Citation | Evaggelos-Stylianos Vlassopoulos, "Implementation of a platform for the update, management and analysis of data for the «HelTh» nutrition database", Diploma Work, School of Electrical and Computer Engineering, Technical University of Crete, Chania, Greece, 2025 | en |
Bibliographic Citation | Ευάγγελος-Στυλιανός Βλασσόπουλος, "Υλοποίηση πλατφόρμας για την ενημέρωση, διαχείριση και ανάλυση της βάσης διατροφικών δεδομένων «HelTH»", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2025 | el |