Home Διπλωματικές Παλιότερα Θέματα Εφαρμογή της μεθόδου LDA (Latent Dirichlet Allocation) στην ομαδοποίηση εγγράφων
Εφαρμογή της μεθόδου LDA (Latent Dirichlet Allocation) στην ομαδοποίηση εγγράφων PDF Εκτύπωση E-mail
Συντάχθηκε απο τον/την Gerasimos Spanakis   

Η ομαδοποίηση εγγράφων-κειμένου (text clustering) ορίζεται ως η διαδικασία χωρισμού κειμένων φυσικής γλώσσες σε ξεχωριστές θεματικές κατηγορίες (που όμως δεν είναι γνωστές εκ των προτέρων). Τέτοια συστήματα αυτόματης ομαδοποίησης εγγράφων, αποτελούν ένα από τα ανοικτά ερευνητικά ζητήματα, λόγω αφενός της ανάγκης για οργάνωση του ολοένα αυξανόμενου όγκου πληροφοριών και αφετέρου της ίδιας της τεχνογνωσίας που επιτρέπει την ανάπτυξη περισσότερων αποτελεσματικών “ευφυών” μεθόδων.

 

Η LDA (Latent Dirichlet Allocation) αποτελεί μία πρόσφατη τεχνική που χρησιμεύει στην ανίχνευση θεμάτων σε μία συλλογή εγγράφων. Βασίζεται στην ιδέα, ότι τα έγγραφα δεν ανήκουν σε μία κατηγορία αλλά πραγματεύονται διάφορα θέματα (σε διαφορετικές αναλογίες). Πιο συγκεκριμένα, κάθε θέμα ορίζεται ως μία κατανομή σε ένα σύνολο λέξεων (το λεξιλόγιο της συλλογής των εγγράφων) και κάθε έγγραφο αποτελείται από λέξεις που προέρχονται από διάφορετικά θέματα. Για παράδειγμα στο σχήμα 1α, φαίνεται πως από δύο θέματα (topic1, topic2) που έχουν διάφορες λέξεις, μπορώ και δημιουργώ τρία διαφορετικά έγγραφα (DOC1, DOC2, DOC3) των οποίων οι λέξεις προέρχονται από το ένα θέμα ή το άλλο (φαίνεται από τον εκθέτη κάθε λέξης) βάσει κάποιας πιθανότητας (φαίνεται στα βέλη 1 ή 0.5).

 

Η “πρόκληση” είναι πως γενικά, τα θέματα δεν είναι εκ των προτέρων γνωστά (θεωρούνται κρυφές μεταβλητές) και στόχος είναι η εκμάθηση από τα δεδομένα. Δηλαδή, στην πραγματικότητα έχω μία εικόνα αντίστοιχη με αυτή του σχήματος 1β, στην οποία θέλω να βρω ποια είναι τα θέματα και πως οι λέξεις κατανέμονται σε αυτά. Για περισσότερες πληροφορίες για την LDA μπορείτε να ανατρέξετε στο Σχετικό Υποστηρικτικό Υλικό ή στην online διάλεξη του David Blei.

 

Σκοπός της συγκεκριμένης διπλωματικής είναι :
α) να μελετήσει την
LDA και να την εφαρμόσει στο ζήτημα της ομαδοποίησης εγγράφων,

β) να εξετάσει εάν και κατά πόσον είναι δυνατή η εισαγωγή ενός συστήματος βαρών των λέξεων, βάσει εξωτερικής πηγής γνώσης (προτείνεται η Wikipedia)

Attachments:
Download this file (topic models.zip)topic models.zip[Σχετικό υποστηρικτικό υλικό]Gerasimos Spanakis1635 Kb
 

Powered by Joomla!. Valid XHTML and CSS.