Home Διπλωματικές Παλιότερα Θέματα Ενίσχυση πιθανοτικών μοντέλων Bayes για κατηγοριοποίηση εγγράφων με πληροφορία από εξωτερική πηγή γνώσης (Wikipedia)
Ενίσχυση πιθανοτικών μοντέλων Bayes για κατηγοριοποίηση εγγράφων με πληροφορία από εξωτερική πηγή γνώσης (Wikipedia) PDF Εκτύπωση E-mail
Συντάχθηκε απο τον/την Gerasimos Spanakis   

 

 

Η κατηγοριοποίηση εγγράφων-κειμένου (text categorization) ορίζεται ως η κατάταξη κειμένων φυσικής γλώσσας σε προκαθορισμένες θεματικές κατηγορίες (γνωστές εκ των προτέρων). Τα συστήματα αυτόματης κατηγοριοποίησης εγγράφων αποτελούν σήμερα ένα από τα ανοικτά ερευνητικά ζητήματα, λόγω αφενός της ανάγκης για οργάνωση του ολοένα αυξανόμενου όγκου πληροφοριών και αφετέρου της ίδιας της τεχνογνωσίας που επιτρέπει την ανάπτυξη περισσότερων αποτελεσματικών “ευφυών” μεθόδων.

 

 

Τα πιθανοτικά μοντέλα Bayes (Naive Bayes) αποτελούν μία από τις πιο απλές και διαδεδομένες μεθόδους μηχανικής μάθησης με εφαρμογή και στο πεδίο της κατηγοριοποίησης εγγράφων. Κατά τη διαδικασία της δημιουργίας του αυτόματου ταξινομητή με τα μοντέλα Bayes θεωρούμε τα ακόλουθα:

 

  • το κάθε έγγραφο κωδικοποιείται ως ένα διάνυσμα λέξεων με τιμές 0 ή 1 ανάλογα με το αν η λέξη είναι παρούσα ή όχι στο έγγραφο
  • υπάρχει ένα σύνολο εγγράφων (σύνολο εκπαίδευσης) για τα οποία γνωρίζουμε την κατηγορία που ανήκουν και θα χρησιμοποιηθούν για την “εκμάθηση” των “χαρακτηριστικών” κάθε κατηγορίας
  • η συνεισφορά κάθε τέτοιου “χαρακτηριστικού” είναι ανεξάρτητη

 

Για περισσότερες πληροφορίες ανατρέξτε στο paper των Susana Eyheramendy, David D. Lewis και David Madigan με τίτλο “On the Naive Bayes Model for Text Categorization”, το οποίο επισυνάπτεται στο σχετικό υποστηρικτικό υλικό

 

Τα αποτελέσματά της εφαρμογής των μοντέλων αυτών είναι ικανοποιητικά (δεδομένης της απλότητας του μοντέλου) εφόσον υπάρχουν διαθέσιμα για εκπαίδευση αρκετά έγγραφα από κάθε κατηγορία, παρόλα αυτά, διάφορα προβλήματα ανακύπτουν : επίδραση μεγέθους κάθε εγγράφου, κατηγορίες με μικρό αριθμό εγγράφων για εκπαίδευση αλλά και γενικότερα προβλήματα στο πεδίο της κατηγοριοποίησης όπως θεώρηση των λέξεων ως αυτόνομων οντοτήτων αγνοώντας τη σημασιολογία κτλ.

 

Το πρόβλημα του εμπλουτισμού της πληροφορίας ενός κειμένου μπορεί να αντιμετωπιστεί με χρήση πληροφορίας από εξωτερικές πηγές γνώσεις όπως κάποια οντολογία. Η Wikipedia αποτελεί σήμερα μία από τις μεγαλύτερες πηγές γνώσης με ολοένα αυξανόμενο όγκο πληροφοριών και δυνατότητα άμεσης προσθήκης πληροφοριών. Επιπλέον, η Wikipedia περιλαμβάνει : καλά οργανωμένη ιεραρχική δομή των διαφόρων άρθρων σε κατηγορίες, πλούσια διασύνδεση των άρθρων μεταξύ τους, επεξηγηματικούς τίτλους για πολύσημες λέξεις, καλά οργανωμένες προτάσεις. Όλα αυτά τα χαρακτηριστικά, κάνουν τη Wikipedia μία κατάλληλη πηγή για εμπλουτισμό της πληροφορίας των κειμένων.

 

 

Σκοπός της συγκεκριμένης διπλωματικής είναι:

  • να ενισχύσει τη δομή των πιθανοτικών Bayes μοντέλων αξιοποιώντας πληροφορίες από τη δομή και το περιεχόμενο της Wikipedia
  • να αντιμετωπίσει επαρκώς κάποια από τα προβλήματα (με αντίστοιχες μεθοδολογίες του paper “Some Effective Techniques for Naive Bayes Text Classification” των Sang-Bum Kim, Kyoung-Soo Han, Hae-Chang Rim και Sung Hyon Myaeng, το οποίο επισυνάπτεται στο σχετικό υποστηρικτικό υλικό) που εμφανίζονται στην εφαρμογή των Naive Bayes στην κατηγοριοποίηση εγγράφων.
Ο έλεγχος της μεθοδολογίας θα γίνει σε γνωστά δεδομένα της βιβλιογραφίας.

 

 

Attachments:
Download this file (Bayes_Wikipedia.zip)Bayes_Wikipedia.zip[Σχετικό Υποστηρικτικό Υλικό]Georgios Alexandridis1073 Kb
 

Powered by Joomla!. Valid XHTML and CSS.