Home Διπλωματικές Παλιότερα Θέματα Επίλυση του προβλήματος της συναναφοράς σε σύνολο κειμένων
Επίλυση του προβλήματος της συναναφοράς σε σύνολο κειμένων PDF Εκτύπωση E-mail
Συντάχθηκε απο τον/την Georgios Stratogiannis   

Στη γλωσσολογία, η συναναφορά (co-reference) συμβαίνει όταν δύο ή περισσότερες ονοματικές φράσεις σε ένα κείμενο αναφέρονται στο ίδιο πρόσωπο, τοποθεσία, οργανισμό ή πράγμα, π.χ.

 

Lyndon Baines Johnson, often referred to as LBJ, was the 36th President of the United States (1963–1969), a position he assumed after his service as the 37th Vice President(1961–1963). Johnson, a Democrat from Texas, served as a United States Representative from 1937 to 1949.”,

όπου οι ονοματικέςφράσεις “Lyndon Baines Johnson”, “ LBJ ”, “36th President of the United States” και “Johnson” αναφέρονται στο ίδιο πρόσωπο.

 

Η θεωρία της συναναφοράς διερευνά την συντακτική σχέση που υπάρχει μεταξύ συναναφορών εκφράσεων σε προτάσεις και κείμενα. Όταν δύο εκφράσεις είναι συναναφερόμενες, η μια από τις δύο συνήθως βρίσκεται σε πλήρη μορφή, πχ. “Lyndon Baines Johnson”, ενώ η άλλη είναι μια συντομότερη έκφραση, πχ. “Johnson” ή ένα ακρωνύμιο, πχ “ LBJ ”. Υπάρχουν διάφοροι τύποι συναναφορών:

1.       Αναφορά, πχ. “The music was so loud that it couldn't be enjoyed.” – Η αναφορά ακολουθεί την έκφραση στην οποία αναφέρεται.

2.       Καταφορά, πχ. “If they are angry about the music, the neighbors will call the cops.” – Η καταφορά προηγείται της έκφρασης στην οποία αναφέρεται.

3.       Διάσπασηπροηγουμένωναναφορών, πχ. “When Carol helps Bob and Bob helps Carol, they can accomplish any task.” – Ηαναφορά“they” αναφέρεται στα “Carol” and “Bob” μαζί.

4.       Συναναφοράονοματικώνφράσεων, πχ. “The project leader is refusing to help. The jerk thinks only of himself.” – Συναναφορά ονοματικών φράσεων, όπου το δεύτερο ουσιαστικό είναι κατηγόρημα του πρώτου.

Στο πλαίσιο της διπλωματικής εργασίας θα μελετηθούν πιθανοί τρόποι βελτίωσης των υπαρχόντων συστημάτων αναγνώρισης συναναφορών:

1.       Συστήματα που βασίζονται στη χρήση συγκεκριμένων συντακτικών προτύπων (patterns) [1][6].

2.       Συστήματα που επιλύουν τις συναναφορές με χρήση μεθόδων μηχανικής μάθησης (machine learning) [4], όπως για παράδειγμα η ομαδοποίηση (clustering) του συνόλου εκφράσεων [9]. Για την επιβλεπόμενη εκπαίδευση (supervised learning) του συστήματος [8], θα χρησιμοποιηθεί το σύνολο δεδομένων το οποίο έχει διατεθεί στο εργαστήριο στα πλαίσια του διαγωνισμού TAC Entity Linking 2014 και περιέχει κείμενα τριών ειδών, κείμενα φόρουμ συζητήσεων, ειδησεογραφικά πρακτορεία και διάφορων ιστοσελίδων.

Η εκπαίδευση μπορεί να βασιστεί:

a.       στην ομοιότητα των χαρακτήρων των εκφράσεων αυτών [2][3][7],

b.      στα συμφραζόμενα του κειμένου όπου εντοπίστηκαν οι εκφράσεις [5][7].

 

Βιβλιογραφία:

[1] Yang, Xiaofeng, and Jian Su. "Coreference resolution using semantic relatedness information from automatically discovered patterns." ACL. 2007.

 [2] Garcia, Marcos, and Pablo Gamallo. "An Entity-Centric Coreference Resolution System for Person Entities with Rich Linguistic Information." Proceedings of the International Conference on Computational Linguistics. 2014.

[3] Prochazka, Alan Eckhardt Juraj Hresko Jan, and Otakar Smrz. "Entity Recognition Based on the Co-occurrence Graph and Entity Probability."

[4] Ng, Vincent, and Claire Cardie. "Improving machine learning approaches to coreference resolution." Proceedings of the 40th Annual Meeting on Association for Computational Linguistics. Association for Computational Linguistics, 2002.

[5] Hajishirzi, Hannaneh, et al. "Joint Coreference Resolution and Named-Entity Linking with Multi-Pass Sieves." EMNLP. 2013.

[6] Bontcheva, Kalina, et al. "Shallow methods for named entity coreference resolution." Cha?nes de references et resolveurs d’anaphores, workshop TALN. 2002.

 [7] Rao, Delip, Paul McNamee, and Mark Dredze. "Streaming cross document entity coreference resolution." Proceedings of the 23rd International Conference on Computational Linguistics: Posters. Association for Computational Linguistics, 2010.

[8] Ng, Vincent. "Supervised noun phrase coreference research: The first fifteen years." Proceedings of the 48th annual meeting of the association for computational linguistics. Association for Computational Linguistics, 2010.

[9] Yangy, Xiaofeng, et al. "An NP-cluster based approach to coreference resolution." Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics, 2004.

 

Attachments:
Download this file (papers.zip)papers.zip[ ]Giorgos Stratogiannis2033 Kb
 

Powered by Joomla!. Valid XHTML and CSS.