Διπλωματική Εργασία Αναγνώριση και ταξινόμηση...

31
Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων Αναστασιάδης Αντώνιος

Transcript of Διπλωματική Εργασία Αναγνώριση και ταξινόμηση...

Page 1: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Αναστασιάδης Αντώνιος

Page 2: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

● Τα ιστολόγια σήμερα

● Η σημασία των πληροφοριών των ιστολόγιων

● Μέθοδοι κατάτμησης ιστολόγιων

● Αξιολόγηση κατάτμησης

● Ταξινόμηση καταχωρήσεων

● Αξιολόγηση ταξινόμησης

● Συμπεράσματα

● Σχόλια

Περιεχόμενα

Page 3: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Σκοπός της εργασίας

Σκοπός της εργασίας είναι η αποδοτική ανάλυση των ιστολόγιων και εξαγωγή των καταχωρήσεών τους, και κατόπιν η ταξινόμηση κάποιου συνόλου καταχωρήσεων με κριτικές ταινιών ως προς την άποψη που εκφράζουν.

Page 4: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

● Iστοσελίδες σε μορφή προσωπικού ημερολογίου.

● Συνήθως δημιουργούνται απο απλούς ανθρώπους που θέλουν να μοιραστούν την γνώμη τους και τις εμπειρίες τους με άλλους χρήστες του διαδικτύου.

● Η χρήση τους είναι πολύ διαδεδομένη:● Περισσότερο απο 70 εκατομμύρια ιστολόγια παγκοσμίως.● Eκθετική αύξηση απο το 2003 έως σήμερα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Τί είναι τα ιστολόγια

Page 5: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ρυθμός αύξησης των ιστολόγιων

Page 6: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

● Οι δημιουργοί των ιστολόγιων παρουσιάζουν μεγάλη ποκιλία ως προς τις ενασχολήσεις και τα ενδιαφέροντά τους.

● Yπάρχουν κοινότητες απο ιστολόγια, π.χ.● Φοιτητές, ερευνητές και ακαδημαϊκοί,● Χρήστες και προγραμματιστές υπολογιστών,● Αθλητές και φίλαθλοι,● Δημοσιογράφοι,● κ.ο.κ.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Τί περιέχουν;

Page 7: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Τα συμπεράσματα που μπορούν να προκύψουν από τις καταχωρήσεις των ιστολόγιων μπορούν να χρησιμοποιηθούν για:

● Ανάλυση της γνώμης των ανθρώπων για κάποιο προϊόν.

● Εξαγωγή της σημασίας και της διάδοσης κάποιου γεγονότος.

● Στατιστικές αναλύσεις.

● Marketing και διαφήμιση.

● ...και άλλα πολλά.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Χρησιμότητα των πληροφοριών που περιέχουν

Page 8: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Mε χρήση των feeds που προσφέρουν οι ιστοσελίδες.

Με χρήση των αναγνωριστικών (tags) που παραθέτουν στον HTML κώδικα τα συστήματα δημιουργίας ιστολόγιων.

Με χρήση των ημερομηνιών που παρεμβάλλονται ανάμεσα στις καταχωρήσεις.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Μέθοδοι εξαγωγής των καταχωρήσεων

Page 9: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εξαγωγή με βάση τα feeds

●Tα feeds χρησιμοποιούνται για εύκολη ανάγνωση της πληροφορίας δίχως να επισκευθούμε την ιστοσελίδα.

●Δυστυχώς, πολλά δεν προσφέρουν ολόκληρες τις καταχωρήσεις παρά μόνο μέρος αυτών.

●Λύση: Εφόσον εχουμε μέρος της καταχώρησης, εξάγουμε το πλήρες κείμενο από την αρχική ιστοσελίδα:

● Εντοπίζουμε τον κόμβο HTML που περιέχει το κείμενο με βάση το ημιτελές που έχουμε.

● Εξάγουμε όλα τα περιεχόμενα του κόμβου τα οποία και θα αποτελούν το πλήρες κείμενο της καταχώρησης.

Page 10: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εξαγωγή με βάση τα feeds● Πλεονεκτήματα της μεθόδου:

● Ποσοστό επιτυχίας 100%.● Δέν χρειάζεται να προσπελάσουμε την ιστοσελίδα εαν επιτύχει.

● Μειονεκτήματα:● Οδηγούμαστε σε λάθος αποτελέσματα εάν επιλέξουμε λανθασμένο feed

➔ Λύση: Για την επιλογή του σωστού feed αναπτύχθηκαν ευριστικές μέθοδοι με τα εξής κριτήρια:

➔ Απόρριψη όσων feeds είναι αποθηκευμένα σε άλλους ιστοχώρους➔ Το URL του feed θα πρέπει να είναι αποθηκεύεται στον ίδιο κατάλογο του εξυπηρετητή με την ιστοσελίδα➔ Το URL του feed θα πρέπει να εμπεριέχεται στο ίδιο domain

● Στην πράξη, εάν υπάρχει feed η μέθοδος βρίσκει το σωστό και αναλύει σωστά όλες τις περιπτώσεις ιστολόγιων που συναντήσαμε.

Page 11: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εξαγωγή με βάση τα αναγνωριστικά

● Εκμεταλλευόμαστε το οτι τα περισσότερα ιστολόγια κατασκευάζονται από συστήματα ειδικά για αυτό το σκοπό.

● Ενδεικτικά εργαλεία:

➔ Blogger➔ Wordpress➔ Livejournal➔ Typepad

● Tα εργαλεία αυτά τοποθετούν αναγνωριστικά (tags) τα οποίαπεριγράφουν τον HTML κώδικα και χρησιμεύουν στο ναχαρακτηρίζουν τις δομές του.

Page 12: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

● Εκμεταλλευόμαστε το ότι για κάθε καταχώρηση θα υπάρχει ένα πεδίο με την ημερομηνία δημιουργίας της.

● Ουσιαστικά, οι ημερομηνίες παρεμβάλλονται μεταξύ των καταχωρήσεων.

● Η παραπάνω υπόθεση ισχύει στην πλειοψηφία των ιστολόγιων, ιδιαίτερα σε αυτά που δημιουργούνται μέσω έτοιμων συστημάτων.

● Στόχος: Εύρεση των κόμβων των ημερομηνιών που παρεμβάλλονται μεταξύ των καταχωρήσεων, και κατόπιν εξαγωγή των ενδιάμεσων δεδομένων.

Εξαγωγή με βάση τις ημερομηνίες (1/5)

Page 13: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Προβλήματα της μεθόδου:

➔ Το ιστολόγιο και κατ'επέκταση οι ημερομηνίες ενδέχεται να είναι σε διάφορες γλώσσες

✔ Εύκολα αντιμετωπίζεται με την εισαγωγή επιπλέον κανονικών εκφράσεων στην αντίστοιχη γλώσσα.

✔ Στην παρούσα εργασία: Αγγλικές, Ισπανικές, Ελληνικές κανονικές εκφράσεις.

➔ Συνήθως υπάρχουν ημερομηνίες παντού στην ιστοσελίδα όπως ημερολόγια, ευρετήρια κλπ. Πώς θα ξεχωρίσουμε μόνο τις

ημερομηνίες που αντιστοιχούν στις καταχωρήσεις;

Εξαγωγή με βάση τις ημερομηνίες (2/5)

Page 14: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εξαγωγή με βάση τις ημερομηνίες (3/5)

Αλγόριθμος:

● Εξάγουμε τις ημερομηνίες με χρήση κανονικών εκφράσεων.

● Τις ταξινομούμε σε σύνολα με βάση το βάθος των κόμβων τους στο DOM Tree της ιστοσελίδας.

● Επιλέγουμε το σύνολο που ενδιάμεσα περιέχει το μεγαλύτερο μέγεθος δεδομένων.

● Εξάγουμε τα δεδομένα ανάμεσα στις ημερομηνίες του συνόλου, τα οποία και θα είναι οι καταχωρήσεις.

Page 15: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Παράδειγμα:

● DOM Tree ιστολόγιου με ευρετήριο.

● 2 Σύνολα ημερομηνιών (πράσινα).

● Τελικά θα επιλεχθεί το Σύνολο 2 λόγω μεγαλύτερου μεγέθους των ενδιάμεσων κόμβων (πορτοκαλί).

● Δηλαδή στο ίδιο επίπεδο με τις ημ/νίες και ανάμεσά τους είναι οι καταχωρήσεις.

Ευρετήριο

Καταχωρήσεις

...

...

...

Ημ/νια

ROOT

Σύνολο 1

Σύνολο 2

Ημ/νια

...

Ημ/νια

...

Ημ/νια

Εξαγωγή με βάση τις ημερομηνίες (4/5)

...

Page 16: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εξαγωγή με βάση τις ημερομηνίες (5/5)

● Ποιά η αξιοπιστία της κατάτμησης με βάση τις ημερομηνίες;

● Χειροκίνητος έλεγχος σε σύνολο 90 σελίδων το οποίο αναλύθηκε μόνο με την παρούσα μέθοδο.

● Οι 86 (95,5%) αναλύθηκαν σωστά.

● Σε τρείς περιπτώσεις επιλέχτηκε λανθασμένο σύνολο ημερομηνιών, και τα αποτελέσματα δεν περιείχαν τις καταχωρήσεις.

● Σε μία περίπτωση δεν διαχωρίστηκαν σωστά τα δεδομένα ενδιάμεσα των ημερομηνιών.

ΣωστάΛάθος

Page 17: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Συνολική διαδικασία εφαρμογής των μεθόδων

Επιλογή των ιστολόγιων προς κατάτμηση

Το ιστολόγιο περιέχει feed? Επιτυχής η ανάλυση του feed;

Έχει δημιουργηθεί απογνωστό εργαλείο;

Επιτυχής η ανάλυση με βάση τιςετικέτες του εργαλείου;

Περιέχει ημερομηνίες; Επιτυχής η ανάλυσημε βάση τις ημερομηνίες;

Επιλογή επόμενου ιστολόγιου

Ναι

Όχι

Ναι

ΝαιΌχι Όχι

Ναι

Όχι

Υπάρχουν άλλα ιστολόγια;

Εκτύπωση αποτελεσμάτων

Καταγραφή της αποτυχίαςτης κατάτμησης του ιστολογίου

ΌχιΌχι

Καταγραφή της επιτυχίαςτης κατάτμησης του ιστολογίου

Ναι

Ναι

Ναι

Όχι

Page 18: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Εύρεση ιστολόγιων προς κατάτμηση

● H εταιρεία Ιntelliseek προσφέρει ελεύθερη πρόσβαση σε δεδομένα απο εκατομμύρια ιστολόγια τα οποία αναλύθηκαν παλαιότερα.

● Απο αυτά τα δεδομένα, επιλέχθησαν 10.000 διευθύνσεις ιστολόγιων στο διαδίκτυο.

● Καθώς τα δεδομένα χρονολογούνται απο το 2006, αρκετές διευθύνσεις είτε δεν υπήρχαν πια είτε δεν οδηγούσαν σε ιστολόγια.

● Με χρήση προγραμμάτων απορρίψαμε τα ανύπαρκτα, καθώς και όσα είχαν πολύ μικρό μέγεθος (< 2 Κb).

● Τελικά παρέμειναν 7.857 ιστολόγια προς ανάλυση.

Page 19: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Αξιολόγηση της απόδοσης της κατάτμησης των ιστολόγιων

ΑποτυχίαFeedsΑναγνωριστικάΗμερομηνίες

● Ιστολόγια προς ανάλυση: 7857

● Αποτυχία ανάλυσης: 788 (10%)

● Επιτυχία με χρήση feeds: 4614 (65,3%)

● Επιτυχία με χρήση αναγνωριστικών: 1123 (15,9%)

● Επιτυχία με χρήση ημερομηνιών: 1332 (18,8%)

● Συνολικό ποσοστό επιτυχίας: 90%

Page 20: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Αλγόριθμος ταξινόμησης SVM

SVM: Μηχανή Διανυσμάτων Υποστήριξης(Support Vector Machine)

● Διανυσματική αναπαράσταση του χώρου του προβλήματος

➔ Επιλογή των διανυσμάτων υποστήριξης που συνορεύουν με στιγμιότυπα άλλων κλάσεων.

➔ Υπολογισμός γραμμικής συνάρτησης διάκρισης ώστε να επιτυγχάνεται βέλτιστος διαχωρισμός.

● Aπό τις δημοφιλέστερες προσεγγίσεις στο χώρο της κατηγοριοποίησης κειμένου λόγω της αποτελεσματικότητας και της ταχύτητας του.

● Ο αλγόριθμος έχει την δυνατότητα να εκπαιδευτεί σε ένα σύνολο στιγμιοτύπων με γνωστές κλάσεις (σύνολο εκπαίδευσης), ώστε να δημιουργηθεί ο χώρος στιγμιοτύπων του προβλήματος, και έπειτα να εφαρμοστεί σε ένα διαφορετικό σύνολο προς ταξινόμηση (σύνολο δοκιμών).

Page 21: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Kατηγοριοποίηση με βάση την άποψη● Στόχος: Ο διαχωρισμός κάποιου συνόλου κειμένων με βάση την άποψη που αναπαριστούν για κάποιο θέμα.

● Η άποψη κάποιου κειμένου είναι δύσκολο να οριστεί μεθοδολογικά, π.χ. άμεση/έμμεση, εξαιρετική/θετική/αδιάφορη/αρνητική...

● Δύσκολη η αξιόπιστη εξαγωγή της από το κείμενο λόγω πολυπλοκότητας της ανθρώπινης γλώσσας.

● Η Ειρήνη Καλδέλη σε σχετική διπλωματική της πραγματοποίησε πολλά πειράματα σε αυτόν τον τομέα:

➔ Χρήση όρων άρνησης (no, not κλπ), και προσδιορισμός της εμβέλειάς τους στις επόμενες λέξεις.

➔ Χρήση λεξικών υποκειμενικότητας & απόδοση μεγαλύτερου βάρους στις αντίστοιχες λέξεις.✔ Χρήσιμο συμπέρασμα (στο οποίο στηριχτήκαμε): Συνήθως οι

προσπάθειες γλωσσολογικής ανάλυσης οδηγούν σε μείωση της απόδοσης του ταξινομητή.

● Στην εργασία μας θεωρήσαμε δύο πιθανές κατηγορίες για κάθε στιγμιότυπο: Θετική/Αρνητική άποψη.

Page 22: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Kατηγοριοποίηση με βάση την άποψη

● Θέμα: Κριτικές ταινιών

● Πρόσφορο θέμα για κατηγοριοποίηση, έχουν γίνει πολλές προσπάθειες.

● Υπάρχουν ήδη σύνολα με κατηγοριοποιημένα κείμενα, όπως η συλλογή των Pang et al. (1000 θετικές και 1000 αρνητικές κριτικές) την οποία και χρησιμοποιήσαμε.

● Είναι εύκολο να συλλέξουμε αυτόματα μεγάλο αριθμό κριτικών με γνωστό αποτέλεσμα, καθώς συνήθως συνοδεύονται απο μια βαθμολογία.

● Εύκολο να συλλεχθούν σχετικά ιστολόγια.

Page 23: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ταξινόμηση των καταχωρήσεων● Συλλέχθησαν 70 ιστολόγια

➔ Τα οποία έδωσαν 235 καταχωρήσεις με κριτικές ταινιών.

● Για εκπαίδευση χρησιμοποιήθηκαν: ● Η συλλογή των Pang et al. (2000 κριτικές).● 200 κριτικές απο την σελίδα http:///www.rottentomatoes.com τις οποίες πήραμε αυτόματα

καθώς η κάθε μία είχε θετική ή αρνητική βαθμολογία.

● Πραγματοποιήθηκαν δύο είδη πειραμάτων:

➔ Ταξινόμηση με δεκαπλή σταυρωτή επικύρωση στο σύνολο των κειμένων των καταχωρήσεων, των Pang et all και του rotten tomatoes.

✔ Χρήσιμο για να έχουμε μια εικόνα της γενικής απόδοσης του ταξινομητή

➔ Εκμάθηση του ταξινομητή με το σύνολο των Pang et al. καθώς και του Rotten tomatoes, και κατόπιν ταξινόμηση των καταχωρήσεων.

✔ Χρήσιμο όταν θέλουμε να ταξινομήσουμε νέα, άγνωστα κείμενα με όσο το δυνατόν πιο καλά εκπαιδευμένο ταξινομητή.

Page 24: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ταξινόμηση των καταχωρήσεων

● Πειράματα με δύο είδη αναπαραστάσεων των χαρακτηριστικών στα στιγμιότυπα προς ταξινόμηση:

➔ Απλές συχνότητες εμφάνισης των χαρακτηριστικών.

➔ Τιμές TF/IDF. Oι τιμές TF/IDF προσπαθούν να περιγράψουν ένα μέτρο της σημαντικότητας του εκάστοτε χαρακτηριστικού στο κάθε στιγμιότυπο.

✔ Θεωρητικώς οι τιμές TF/IDF προσφέρουν μεγαλύτερη απόδοση.

● Τα δεδομένα κανονικοποιήθηκαν στο [-1,1] ώστε να αποφύγουμε προβλήματα με υπερβολικά μεγάλες τιμές.

● Ζητούμενο στα πειράματα: Η ακρίβεια ταξινόμησης του αλγορίθμου.

➔ Ακρίβεια = (αριθμός σωστά ταξινομημένων στιγμιότυπων) / (σύνολο στιγμιότυπων)

Page 25: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ταξινόμηση των καταχωρήσεων

1η σειρά πειραμάτων (αξιολόγηση του ταξινομητή)

● 2.435 κριτικές ταινιών (Καταχωρήσεις, Pang et al., rotten tomatoes).

● 10-πλή σταυρωτή επικύρωση.

● Πραγματοποιήθηκαν πολλά διαδοχικά πειράματα για την εύρεση της βέλτιστης συνάρτησης πυρήνα καθώς και της παραμέτρου σφάλματος του SVM.

● Μέγιστη ακρίβεια: 85% (2066 σωστές κριτικές) με χρήση τιμών TF-IDF.

➔ Αναμενόμενο και από την θεωρία για τις τιμές TF-IDF.

➔ Συμβαδίζει με αποτελέσματα από προηγούμενες εργασίες.

Page 26: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ταξινόμηση των καταχωρήσεων

2η σειρά πειραμάτων (ταξινόμηση των καταχωρήσεων)

● 235 καταχωρήσεις με κριτικές ταινιών από ιστολόγια.

● Εκπαίδευση του ταξινομητή σε 2.200 κριτικές (Pang et al., rotten tomatoes).

● Χρήση των προηγούμενων βέλτιστων παραμέτρων για τον αλγόριθμο SVM.

● Μέγιστη ακρίβεια: 60% (139 σωστές καταχωρήσεις).

➔ Σύνολο εκμάθησης τελείως διαχωρισμένο από το σύνολο ταξινόμησης.

➔ Αναμενόμενη η μικρότερη απόδοση από πριν.

Page 27: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ταξινόμηση των καταχωρήσεων

Συμπεράσματα

● Ο αλγόριθμος SVM μας έδωσε ανάμικτα αποτελέσματα στο πεδίο της ταξινόμησης με βάση την άποψη.

● Με χρήση σταυρωτής επικύρωσης, τα αποτελέσματα ήταν σχετικά καλά.

● Οταν χρησιμοποιήσαμε ξεχωριστά σώματα εκπαίδευσης και ταξινόμησης, τα αποτελέσματα ήταν αρκετά πιο χαμηλά.

✔ Η απόδοση βελτιώνεται με χρήση μεγαλύτερου όγκου σώματος εκπαίδευσης.

✔ Επίσης, και η χαμηλή απόδοση μπορεί να οδηγήσει σε συμπεράσματα λόγω του τεράστιου δυνατού όγκου δεδομένων που μπορούμε να έχουμε.

Page 28: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Σύνοψη● Στην εργασία αυτή μελετήθηκαν δύο θέματα.

● Στο πρώτο σκέλος, υλοποιήθηκαν μέθοδοι με τις οποίες μπορούμε να επεξεργαστούμε τα ιστολόγια και να τα χωρίσουμε στις καταχωρίσεις που περιέχουν.

➔ Οι τρείς αυτές μέθοδοι δουλεύουν συμπληρωματικά, καθώς ένα ιστολόγιο θα αναλυθεί κατα σειρά με καθεμία απο αυτές εως ότου διαχωριστεί επιτυχώς.

● Κατόπιν, αξιοποιώντας τα δεδομένα που προέκυψαν επιδείξαμε την χρησιμότητα της διαδικασίας σε μια συγκεκριμένη εφαρμογή η οποία είναι η ταξινόμηση κριτικών για ταινίες με βάση την άποψη που εκφράζουν.

➔ Η μέθοδος αυτή είναι ενδιαφέρουσα καθώς ένας καλύτερα εκπαιδευμένος ταξινομητής θα μπορούσε να χρησιμοποιηθεί για την συνεχή ταξινόμηση νέων καταχωρήσεων.

● Με την εφαρμογή κατάτμησης των ιστολόγιων που υλοποιήσαμε προκύπτει ένα βασικό σύστημα αυτόματης κατάτμησης και κατηγοριοποίησης των νέων ή ανανεωμένων ιστολογίων.

Page 29: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Ανοιχτά θέματα

● Βελτίωση της αυτόματης ανάλυσης των ιστολογίων:

✔ Βελτίωση της μεθόδου ανάλυσης των ημερομηνιών ίσως με:➔ Κανονικοποίηση ημ/ών (σίγουρος εντοπισμός τους).➔ Αυτόματη προσαρμογή των κανονικών εκφράσεων.

✔ Συνδυασμοί μεθόδων και βελτίωσή τους μέσω μηχανικής μάθησης.

● Βελτίωση της απόδοσης της ταξινόμησης με βάση την άποψη:

✔ Με χρήση εξελιγμένης γλωσσολογικής ανάλυσης και άλλων μεθόδων.✔ Αξιολόγηση κάποιων άλλων αλγορίθμων εκπαίδευσης και ταξινόμησης.

Page 30: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Επίλογος

Το βασικό συμπέρασμα αυτής της εργασίας είναι οτι ο πλούτος της πληρο-φορίας που υπάρχει σε εκατομμύρια ιστοσελίδες είναι δυνατόν να αξιοποιηθείκαι να μας δώσει πολύ ενδιαφέρουσες πληροφορίες, και η εργασία προσφέρειμια βάση για περαιτέρω έρευνα με στόχο την ανάπτυξη μιας εύρωστηςμεθόδου ανάλυσης του αστρονομικού μεγέθους των δεδομένων που μπορείνα προκύψουν απο τα ιστολόγια.

Page 31: Διπλωματική Εργασία Αναγνώριση και ταξινόμηση ιστολόγιων · Στην εργασία αυτή μελετήθηκαν δύο θέματα.

Διπλωματική ΕργασίαΑναγνώριση και ταξινόμηση ιστολόγιων

Xρήσιμο πιθανό παράδειγμα

Σύστημα με χρήση πολλαπλών εφαρμογών:

● Crawler που ανακαλύπτει και κατεβάζει ιστολόγια.

● Απευθείας ανάλυσή τους απο την εφαρμογή.

● Κατηγοριοποίησή τους με βάση το θέμα.

● Κατηγοριοποίησή τους με βάση την άποψη.

● Συμπεράσματα

● Πχ:

➔ “Βγήκε νέα γεύση coca-cola-2. Τί γνώμη έχει ο κόσμος για το προϊόν μας;”➔ “Βγήκε νέο λειτουργικό Windows. Έχει μεγάλη ανταπόκριση;”➔ ...

● Kάτι ανάλογο: google trends