Ιδρυματικό Αποθετήριο
Πολυτεχνείο Κρήτης
EN  |  EL

Αναζήτηση

Πλοήγηση

Ο Χώρος μου

Περίληψη από πολλαπλά κείμενα

Kritharakis Emmanouil

Πλήρης Εγγραφή


URI: http://purl.tuc.gr/dl/dias/05317020-94D3-4C9E-A94B-992A53AA835F
Έτος 2019
Τύπος Διπλωματική Εργασία
Άδεια Χρήσης
Λεπτομέρειες
Βιβλιογραφική Αναφορά Εμμανουήλ Κριθαράκης, "Περίληψη από πολλαπλά κείμενα", Διπλωματική Εργασία, Σχολή Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Πολυτεχνείο Κρήτης, Χανιά, Ελλάς, 2019 https://doi.org/10.26233/heallink.tuc.83613
Εμφανίζεται στις Συλλογές

Περίληψη

Τα τελευταία χρόνια, έχει παρατηρηθεί έντονο ενδιαφέρον για την αυτόματη περίληψη κειμένων, καθώς υπάρχουν πολλές εφαρμογές που απαιτούν την συμπίεση της μεγάλης ποσότητας πληροφορίας που είναι διαθέσιμη σε μικρές, συνοπτικές περιλήψεις. Σε αυτή την κατεύθυνση, η περίληψη κειμένου με μοντέλα sequence-to-sequence (seq2seq) έχει προσελκύσει το ενδιαφέρον της επιστημονικής κοινότητας. Παρόμοιες αρχιτεκτονικές κωδικοποίησης-αποκωδικοποίησης (encoder-decoder) έχουν επίσης χρησιμοποιηθεί και σε περίληψη πολλαπλών κειμένων. Ωστόσο, η προσαρμογή των μοντέλων seq2seq πάνω σε περιλήψεις πολλαπλών κειμένων δεν είναι πάντα επιτυχής και απαιτεί εξειδικευμένους μηχανισμούς εστίασης προσοχής (attention) για την αποφυγή περιττών νοηματικών επαναλήψεων. Σε αυτή την εργασία, προτείνουμε έναν καινοτόμο μηχανισμό εστίασης προσοχής, ο οποίος βασίζεται πάνω στην ομοιότητα των προτάσεων, προκειμένου να βελτιώσουμε την περίληψη σε πολλαπλά κείμενα. Με τον προτεινόμενο μηχανισμό, το σύστημα λαμβάνει υπ’ όψιν του την σημασιολογική και συντακτική φύση των προτάσεων, κάτι πολύ χρήσιμο σε δεδομένα από πολλαπλά κείμενα. Για να διερευνήσουμε την αποτελεσματικότητα του αλγορίθμου ομοιότητας των προτάσεων, διεξήγαμε δύο ομάδες πειραμάτων. Στην πρώτη, ο προτεινόμενος αλγόριθμος συγκρίνεται με έναν πρόσφατα δημοσιευμένο αλγόριθμο ομοιότητας προτάσεων. Χρησιμοποιώντας ως κριτήριο τον συντελεστή συσχέτισης Pearson και άλλες στατιστικές μετρήσεις παρατηρήσαμε ότι ο αλγόριθμος μας πετυχαίνει καλύτερα αποτελέσματα. Στη δεύτερη οικογένεια πειραμάτων, ο προτεινόμενος αλγόριθμος ενσωματώθηκε ως μηχανισμός εστίασης προσοχής σε μοντέλα seq2seq για την περίληψη πολλαπλών κειμένων. Η αποτίμηση της επίδοσης με αυτοματοποιημένες μετρικές απέδειξε ότι το προτεινόμενο σύστημα υπερβαίνει συστηματικά σε επίδοση άλλες μεθόδους που βρίσκονται στην αιχμή της τεχνολογίας (state-of-the-art) πάνω στις βάσεις δεδομένων πολλαπλών ειδησεογραφικών κειμένων DUC-2004 και TAC-2011.

Διαθέσιμα αρχεία

Υπηρεσίες

Στατιστικά