Home Διπλωματικές Παλιότερα Θέματα Ταξινομητής κειμένων πολλαπλών θεματικών κατηγοριών τύπου “ECOC” με εφαρμογή στο αρχείο της εφημερίδας «ΤΑ ΝΕΑ»
Ταξινομητής κειμένων πολλαπλών θεματικών κατηγοριών τύπου “ECOC” με εφαρμογή στο αρχείο της εφημερίδας «ΤΑ ΝΕΑ» PDF Εκτύπωση E-mail
Συντάχθηκε απο τον/την Giorgos Siolas   

Το αρχείο της εφημερίδας «ΤΑ ΝΕΑ» είναι μια συλλογή αρχείων XML που καλύπτει όλες τις εκδόσεις της εφημερίδας για μια περίοδο δύο χρόνων (περίπου 700 φύλλα). Κάθε αρχείο και άρα κάθε φύλλο της εφημερίδας είναι οργανωμένο σε μια δενδρική δομή που βασίζεται σε κόμβους. Ένα οποιοδήποτε κείμενο μπορεί να ανήκει σε διάφορους τύπους κόμβων που μπορούν να αφορούν στο τμήμα της εφημερίδας στο οποίο βρίσκεται (Πρωτοσέλιδο, Κύριο τεύχος, Ομάδα, Ορίζοντες, Βιβλιοδρόμιο,…), στη θεματολογία του (Πολιτική, Οικονομία, Κόσμος, Ελλάδα,…), στο κειμενικό του είδος (άρθρο, ρεπορτάζ, συνέντευξη,…) και σε πληροφορία δομής (τίτλος, υπότιτλος, εισαγωγή, μεσότιτλος, παράγραφος,…). Δείτε ένα παράδειγμα του XML του φύλλου της 2/1/2008.

Από την άποψη της μηχανικής μάθησης μια πρακτικά χρήσιμη λειτουργικότητα θα ήταν η δυνατότητα να μπορεί κάθε νέο κείμενο που εισέρχεται στο σύστημα να μπορεί να ανατίθεται αυτόματα σε κόμβους θεματικού περιεχομένου (κατηγοριοποίηση) με μόνη πληροφορία το ίδιο το κείμενο και της πληροφορίες δομής του. Μια τυπική διαδικασία κατηγοριοποίησης κειμένων χρησιμοποιεί την αναπαράσταση του κειμένου ως διάνυσμα (Vector Space Model, VSP) και την εφαρμογή ταξινομητών όπως ο Naïve Bayes ή τα Support Vector Machines (SVM) για την ανάθεση ενός κειμένου σε μία κατηγορία. Η ανάθεση ενός κειμένου σε μια θεματική κατηγορία μπορεί να είναι σχετικά σωστή σε ιδιαίτερες περιπτώσεις (πχ ένα άρθρο ιατρικής) στην περίπτωση όμως κειμένων όπως αυτά μιας εφημερίδας είναι πιο ρεαλιστικό να αποδίδονται περισσότερες κατηγορίες σε κάθε κείμενο (πχ Ελλάδα και Οικονομία). Για τον λόγο αυτό είναι απαραίτητη η χρήση κάποιου ταξινομητή πολλαπλών κλάσεων (multiclass classifier), ο οποίος μπορεί να είναι εγγενώς πολλαπλών κλάσεων ( πχ C4.5, Neural Networks) ή να είναι μια σύνθεση και συνδυασμός πρωτίστως δυαδικών ταξινομητών όπως πχ τα SVM.

Μια ιδιαίτερα ενδιαφέρουσα και αποτελεσματική προσέγγιση στο πρόβλημα της πολλαπλής κατηγοριοποίησης με πολλές εφαρμογές στην κατηγοριοποίηση κειμένων [Berger, Ghani] είναι η χρήση ταξινομητών με κώδικες διόρθωσης σφαλμάτων εξόδου (error-correcting output codes, ECOC). Η βασική ιδέα στους ταξινομητές ECOC είναι ότι σε κάθε κατηγορία αντιστοιχείται ένας μοναδικός δυαδικός κωδικός, όπως στο παρακάτω παράδειγμα 4 κατηγοριών:

Στη συνέχεια εκπαιδεύονται ταξινομητές ίσοι σε πλήθος με το μήκος του κώδικα (10) εκ των οποίων ο καθένας καλείται να μπορεί να διαχωρίσει (με βάση την αναπαράσταση VSP) τις κατηγορίες που εμφανίζονται με “1” σε κάθε κολώνα (για παράδειγμα ο τρίτος ταξινομητής μπορεί να ξεχωρίσει μεταξύ “politics” και “business”). Κατά τον τρόπο αυτό, ένα νέο κείμενο που θα δοθεί ως είσοδος στους ταξινομητές θα παράξει ένα κώδικα εξόδου, όχι απαραίτητα ίδιο με τον κώδικα οποιασδήποτε κατηγορίας. Στο σημείο αυτό το πρόβλημα ταξινόμησης μπορεί να ειδωθεί ως πρόβλημα μεταβίβασης μηνύματος και διόρθωσης σφάλματος: οι κατηγορίες που αντιστοιχούν στο κείμενο εισόδου θα είναι εκείνες των οποίων ο κώδικας εξόδου έχει τη μικρότερη απόσταση (πχ κατά Hamming) από τον κώδικα του εξόδου του κειμένου. Προτείνεται λοιπόν η μελέτη της μεθόδου ταξινόμησης μέσω ECOC για έγγραφα καθώς φέρεται να έχει πολύ ικανοποιητικά αποτελέσματα ιδιαίτερα με συγκεκριμένες επιλογές κωδικοποίησης (όπως η εξαντλητική) αλλά και όταν συνδυάζεται με state-of-the-art ταξινομητές όπως τα SVM.

Τέλος, αξίζει να σημειωθεί το ξεχωριστό ενδιαφέρον του προτεινόμενου θέματος ως προς δύο σημεία, πρώτον το ότι η λειτουργία του συστήματος θα γίνεται πάνω σε ένα σύνολο δεδομένων το οποίο αντιστοιχεί σε ένα πραγματικό (real world) πρόβλημα και άρα χρειάζεται να είναι αποτελεσματική και δεύτερον ότι θα το σύστημα θα αναπτυχθεί μα βάση την ελληνική γλώσσα η οποία έχει μελετηθεί και χρησιμοποιηθεί πολύ λιγότερο από την αγγλική σε προβλήματα εξόρυξης πληροφορίας από κείμενα.

 

 

Powered by Joomla!. Valid XHTML and CSS.