Σάββατο 27 Οκτωβρίου 2018

Μιά άλλη μέθοδος γιά τήν σωστή πρόβλεψη τών εκλογικών αποτελεσμάτων...

Το Τwitter «απειλεί» τους δημοσκόπους
Twitter
Για να διαβάσετε αυτό το κείμενο θα χρειαστείτε περίπου επτά λεπτά. Την ίδια ώρα στο Τwitter θα έχουν αναρτηθεί περίπου 3.456.203 σχόλια με ρυθμό 8.219 σχόλια το δευτερόλεπτο. Ενα από αυτά τα σχόλια μπορεί να μιλάει για την αποτυχία των δημοσκοπήσεων να προβλέψουν τα εκλογικά αποτελέσματα (Τραμπ, Brexit, ελληνικές εκλογές 2015 κ.ά.). 
Η ακαδημαϊκή χρονιά που διανύουμε θα ολοκληρωθεί με μια σειρά εκλογικών αναμετρήσεων, ενώ δεκάδες δημοσκοπήσεις θα δημοσιευτούν επιχειρώντας να καταγράψουν τις τάσεις. 
Κι όμως, είναι πιο πιθανό να καταλάβουμε αν ο Αλέξης Τσίπρας ή ο Κυριάκος Μητσοτάκης θα είναι ο επόμενος πρωθυπουργός από το twitter και όχι από τις παραδοσιακές δημοσκοπήσεις. Ας γυρίσουμε δύο χρόνια πίσω...
συνέχεια
Στις 8 Νοεμβρίου 2016, σχεδόν όλα τα αμερικανικά δίκτυα μέσω των δημοσκοπήσεων και των πρώτων exit polls προέβλεπαν τη νίκη της Χίλαρι Κλίντον.
Την ίδια ώρα στη μακρινή Βομβάη ο Ινδός προγραμματιστής και επιχειρηματίας Σαντζίβ Ράι, ιδρυτής της Genic AI, εταιρείας αξιοποίησης της Τεχνητής Νοημοσύνης και των «Μεγάλων Δεδομένων» (Big Data), επέμενε βάσει του δικού του συστήματος πρόγνωσης εκλογικών αποτελεσμάτων πως νικητής θα είναι χωρίς αμφιβολία ο Ντόναλντ Τραμπ, ο οποίος εκείνη την ώρα ήταν «δημοφιλέστερος από τον Μπαράκ Ομπάμα το 2008».
Ο Ράι δεν ήταν ο μοναδικός (ήταν από τους λίγους) και φυσικά δεν έκανε κάποια μαγικά. Σε μια εποχή που σχεδόν το σύνολο της κοινωνικής μας ζωής σταδιακά διαμορφώνεται από ψηφιακές τεχνολογίες, με εργαλεία που εισβάλλουν είτε ως σύμμαχοι είτε ως δυνάστες σχεδόν σε κάθε πτυχή της καθημερινότητάς μας, μια νέα επιστήμη αναπτύσσεται.
Στη σχετική βιβλιογραφία αναφέρεται ως υπολογιστική κοινωνική επιστήμη (computational social science) και πρόκειται για έναν τομέα που συνδυάζει την επεξεργασία φυσικής γλώσσας (natural language processing) και τη μηχανική μάθηση (machine learning).
H «Εφ.Συν.» παρουσιάζει σήμερα την έρευνα για το δημοψήφισμα του 2015 τεσσάρων Ελλήνων ακαδημαϊκών, η οποία θα παρουσιαστεί στα τέλη Οκτωβρίου στο Τορίνο σε ένα από τα μεγαλύτερα επιστημονικά συνέδρια Data Science παγκοσμίως (ACM International Conference of Information and Knowledge Management 2018).
Το θέμα της μελέτης τους σχετίζεται με την άμεση πρόβλεψη της τοποθέτησης των χρηστών κοινωνικών μέσων σε μια ξαφνική εκλογική αναμέτρηση, με παράδειγμα αναφοράς το ελληνικό δημοψήφισμα του 2015.
Το αποτέλεσμά τους είναι εντυπωσιακό. Αποδεικνύουν πως μπόρεσαν να προβλέψουν την επικράτηση του ΟΧΙ μέσα από την εκπαίδευση ενός συγκεκριμένου μοντέλου μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας, για την πρόβλεψη της στάσης που θα έπαιρναν οι Ελληνες χρήστες του Twitter στο ελληνικό δημοψήφισμα του 2015.

Τα βασικά ευρήματα είναι τα εξής:
◼ Η τελική πρόβλεψή τους πέτυχε ιδιαίτερα υψηλό ποσοστό ακρίβειας (τουλάχιστον 88%). Μάλιστα, όσο προχωρούσαν οι μέρες, το μοντέλο γινόταν πιο ακριβές, αφού οι χρήστες εξέφραζαν ολοένα και πιο ανοιχτά τη στάση τους. Συγκεκριμένα, την τελευταία ημέρα πριν από το δημοψήφισμα, το μοντέλο ήταν σε θέση να προβλέψει τη στάση των χρηστών με ακρίβεια σχεδόν 94%, ενώ κατά τη διάρκεια των εννιά ημερών της προεκλογικής περιόδου πέτυχε ακρίβεια 88% κατά μέσο όρο ανά ημέρα.
«Αυτό δείχνει πως μπορούμε να κατηγοριοποιήσουμε εκατομμύρια χρήστες με πολύ υψηλή ακρίβεια, μέσα σε ελάχιστα δευτερόλεπτα (και μάλιστα σε ημερήσια βάση), ενώ ένας αναλυτής θα χρειαζόταν μάλλον μερικούς μήνες για να πετύχει αντίστοιχο αποτέλεσμα» μας εξηγούν οι ερευνητές.
◼ Διαπιστώθηκε πως η μεγάλη πλειοψηφία των χρηστών του Twitter που χρησιμοποιήθηκαν στα πειράματα τάχθηκε υπέρ του ΟΧΙ σε ποσοστό πολύ μεγαλύτερο από το εκλογικό αποτέλεσμα (77%).
◼ Οι υποστηρικτές του ΝΑΙ ανέφεραν πιο συχνά στα tweets τους τα ονόματα κομμάτων και των αρχηγών τού ΟΧΙ – και το αντίστροφο. Διαπιστώθηκε εμπειρικά πως ένας χρήστης του Τwitter που αναφέρεται σε ένα κόμμα είναι πιο πιθανό να αναφέρεται με επιθετικούς χαρακτηρισμούς ή σαρκασμό απέναντι στο κόμμα αυτό παρά να προωθεί τις θέσεις του. Για παράδειγμα, πριν από την ανακοίνωση του δημοψηφίσματος, οι μετέπειτα υποστηρικτές του ΝΑΙ αναφέρονταν πιο συχνά στη Νέα Δημοκρατία, κάτι που άλλαξε μετά τις 27 Ιουνίου.
◼ Πριν από την ανακοίνωση του δημοψηφίσματος παρατηρήθηκε πως δεν υπάρχει κάποιος ξεκάθαρος διαχωρισμός μεταξύ των υποστηρικτών του ΝΑΙ και του ΟΧΙ σε σχέση με τους λογαριασμούς που επιλέγουν να αναπαραγάγουν (retweet). Μετά την ανακοίνωση είναι ξεκάθαρος ο σχηματισμός των λεγόμενων «θαλάμων αντήχησης» (echo chambers), όρος που περιγράφει ανθρώπους που μοιράζονται τις απόψεις τους σε περιβάλλοντα, ιδιαίτερα στα μέσα κοινωνικής δικτύωσης, όπου εκείνοι που ακούν ή διαβάζουν έχουν τις ίδιες απόψεις.
Στα γραφήματα που προέκυψαν από τη μελέτη φαίνονται καθαρά τα στοιχεία της μεγάλης πόλωσης εκείνης της περιόδου, όπως τη ζήσαμε όλοι. Oμως «είναι λάθος να εκτιμήσεις την πόλωση βάσει των βιωμάτων σου και των προσωπικών σου δικτύων», μας λέει ο επικεφαλής των ερευνητών, Αδάμ Τσακαλίδης.
◼ Μετά την ανακοίνωση του δημοψηφίσματος, καταγράφεται σημαντική αύξηση στη δραστηριοποίηση των Ελλήνων χρηστών του Twitter κατά το διάστημα 27/6 ώς 5/7.
Πώς γίνεται η πρόβλεψη
Οι ερευνητές έβαλαν τον εαυτό τους στη θέση κάποιου πολιτικού αναλυτή που παρακολουθεί τη στάση των χρηστών του Twitter καθ’ όλη τη διάρκεια της εννιαήμερης προεκλογικής περιόδου. Ξεκίνησαν να εκπαιδεύουν έναν αλγόριθμο, δίνοντάς του ως παραδείγματα ορισμένους χρήστες που θα ψήφιζαν ΝΑΙ και κάποιους άλλους που θα ψήφιζαν ΟΧΙ.
Στόχος ήταν το δημιούργημά τους, ο αλγόριθμός τους, να μάθει να ξεχωρίζει τους χρήστες ΝΑΙ από τους ΟΧΙ βάσει του λεξιλογίου που χρησιμοποιούσαν και των χρηστών που αναπαρήγαν οι μεν και οι δε, ούτως ώστε να είναι δυνατή η κατηγοριοποίηση οποιουδήποτε άλλου χρήστη του Twitter. Ετσι, αναπτύχθηκε ένα μοντέλο το οποίο πληροφορεί για τη στάση οποιουδήποτε χρήστη του Twitter, σε ημερήσια βάση, μέσα από ανάλυση των αναρτημένων σχολίων μέχρι και εκείνη την ημέρα.
Για να βρουν παραδείγματα λογαριασμών χρηστών που θα ψήφιζαν ΝΑΙ και ΟΧΙ, ώστε να τα χρησιμοποιήσει ο αλγόριθμος στη φάση της εκπαίδευσής του, οι ακαδημαϊκοί έκαναν μια απλή υπόθεση: λογαριασμοί χρηστών που συνδέονταν με την κυβέρνηση ή με κόμματα που σίγουρα θα λάμβαναν στάση κατά της συμφωνίας μόλις ανακοινωνόταν το δημοψήφισμα θεωρούνται παραδείγματα χρηστών του ΟΧΙ (ΣΥΡΙΖΑ, ΑΝ.ΕΛΛ., Χ.Α., ΑΝΤΑΡΣΥΑ).
Αντίστοιχα, λογαριασμοί χρηστών που συνδέονταν με κόμματα τα οποία θα λάμβαναν σίγουρα στάση υπέρ της συμφωνίας (Ν.Δ., ΠΑΣΟΚ, Ποτάμι, ΚΙΔΗΣΟ, Δημιουργία Ξανά) θεωρούνται παραδείγματα χρηστών του ΝΑΙ. Το ΚΚΕ με τη στάση του τους δυσκόλεψε στην κατηγοριοποίηση.
Με αυτόν τον τρόπο, εντοπίστηκαν 2.100 χρήστες. Το 54,5% αυτών συνδέονταν με τα κόμματα του ΟΧΙ, ενώ το υπόλοιπο 45,5% με αυτά του ΝΑΙ. Αφού συγκεντρώθηκαν τα χιλιάδες tweets, χρειάστηκε να τα διαβάσουν ένα προς ένα ώστε να αποφανθούν για τη στάση του καθενός. Χρήστες οι οποίοι δεν εξέφραζαν καθαρά τη στάση τους αποκλείστηκαν από την ανάλυση.
Καθρέφτης
Και τι γίνεται με τους χιλιάδες πολίτες που δεν χρησιμοποιούν το twitter, ρωτάμε τον ερευνητή Αδάμ Τσακαλίδη. Εκ των πραγμάτων, μας εξηγεί, «καθώς είναι αχαρτογράφητα τα δημογραφικά χαρακτηριστικά των Ελλήνων χρηστών στο Τwitter, θα υπάρχει βαθμός απόκλισης από την αποτύπωση της ακριβούς εικόνας, η οποία δεν είναι στατική και μπορεί να αλλάξει ακόμα και λίγες ώρες πριν από την κάλπη».
Η πόλωση της εβδομάδας του δημοψηφίσματος έκανε κάπως ευκολότερη τη δουλειά των ερευνητών σε σχέση με μια εκλογική διαδικασία στην οποία το ερώτημα δεν τίθεται διλημματικά και οι επιλογές είναι περισσότερες. Ωστόσο, αντίστοιχες περίοδοι μεγάλης πόλωσης παρατηρούνται συχνά σε προεκλογικές εκστρατείες και σε περιόδους μεγάλης κρίσης.
Στο μοντέλο τους υπολογίζουν και τη στάση που έχουν κρατήσει οι ίδιοι χρήστες στο παρελθόν. «Για παράδειγμα, στο μακεδονικό ζήτημα θα κρατήσουμε την πληροφορία ότι, π.χ., κάποιος αναδημοσιεύει συνεχώς κάποιον “μακεδονομάχο”. Οπότε έχεις και μια πληροφορία για τη στάση αυτού του προσώπου στη συγκεκριμένη χρονική στιγμή για το συγκεκριμένο θέμα. Δεν σημαίνει ότι άμεσα τον κατηγοριοποιώ ως “μακεδονομάχο”, αλλά τον παρακολουθώ και βλέπω τα επόμενά του σχόλια. Μετά μπορεί να εκφραστεί θετικά π.χ. για το προσφυγικό και τη διαχείριση της κυβέρνησης. Θα χρειαστώ και άλλα δεδομένα λοιπόν για να προβλέψω τη συμπεριφορά του» διευκρινίζει ο Α. Τσακαλίδης.
Στόχος όσων ακαδημαϊκών ασχολούνται με αυτόν τον κλάδο είναι να μπορέσουν μέσα από το τι λέει ο κόσμος στα μέσα δικτύωσης να επισκοπήσουν ολόκληρη την κοινωνία. «Δεν σχετίζεται μόνο με την πρόβλεψη ενός εκλογικού αποτελέσματος, αλλά κυρίως με την αντίληψη των στάσεων απέναντι σε κοινωνικοπολιτικά ζητήματα. Αντί να έχεις χρονοβόρες και ακριβές δημοσκοπήσεις που μπορούν να έχουν μόνο ένα μικρό δείγμα, είναι εφικτό να συγκεντρώνεις εκατοντάδες χιλιάδες σχόλια (στο δημοψήφισμα υπήρχαν 300.000 χρήστες) σε πραγματικό χρόνο και έτσι να παρακολουθείς τις μεταβολές των στάσεων σε πραγματικό χρόνο» καταλήγει η καθηγήτρια Μαρία Λιακάτα.

Οι έξυπνοι αλγόριθμοι

Οι αλγόριθμοι μηχανικής μάθησης για επεξεργασία φυσικής γλώσσας είναι μαθηματικά εργαλεία που «μαθαίνουν» να κατηγοριοποιούν γλωσσικά δεδομένα με αυτόματο τρόπο από προηγούμενα δεδομένα. Η διαδικασία της μάθησης γίνεται μέσα από παραδείγματα της μορφής {x, y} όπου, για παράδειγμα, το x μπορεί να είναι μια πρόταση και το y να υποδηλώνει το συναίσθημα που εκφράζεται στην πρόταση (π.χ. «θετικό» ή «αρνητικό»).
Ο αλγόριθμος μαθαίνει μέσα από συσχετίσεις των χαρακτηριστικών της κάθε πρότασης κάποια μοτίβα (π.χ. αλληλουχίες λέξεων που εμφανίζονται στην κάθε πρόταση) και έπειτα είναι έτοιμος να κατηγοριοποιήσει μια νέα πρόταση που θα του δώσουμε, ώστε να μας πει αν σε αυτήν υπάρχει θετικό ή αρνητικό συναίσθημα.
Το μεγάλο κέρδος που έχουμε εκπαιδεύοντας τέτοιους αλγόριθμους είναι πως μετά το τέλος της μάθησης, ο αλγόριθμος είναι έτοιμος να κατηγοριοποιήσει εκατομμύρια προτάσεις μέσα σε ελάχιστα δευτερόλεπτα, κάτι που είναι πέρα από τις ανθρώπινες δυνατότητες.

Οι ερευνητές

Επικεφαλής της έρευνας είναι ο Αδάμ Τσακαλίδης (διδακτορικός φοιτητής, Πανεπιστήμιο του Warwick και ερευνητής στο Alan Turing Institute of Data Science and Artificial Intelligence). Δίπλα του η Μαρία Λιακατά (αναπληρώτρια καθηγήτρια Επεξεργασίας Φυσικής Γλώσσας, Πανεπιστήμιο του Warwick και ερευνήτρια στο Alan Turing Institute) σε συνεργασία με τον Νίκο Αλετρά (λέκτορα Επεξεργασίας Φυσικής Γλώσσας, Πανεπιστήμιο Sheffield) και την Αλεξάνδρα Κριστέα (καθηγήτρια Σημασιολογικού Ιστού, Πανεπιστήμιο Durham).
Η ίδια σχεδόν ομάδα είχε πρωτοασχοληθεί με το ίδιο αντικείμενο στις ευρωεκλογές του 2014, εστιάζοντας στην περίπτωση της Ελλάδας, της Γερμανίας και της Ολλανδίας (social sensor eu project). Και πάλι στις προβλέψεις τους είχαν πέσει πάρα πολύ μέσα.
Στις 25 Ιανουαρίου 2015, το ξημέρωμα πριν ανοίξουν οι κάλπες, ο Αδάμ Τσακαλίδης ανεβάζει στο προσωπικό του ιστολόγιο μια πρόβλεψη τελικού αποτελέσματος.
Το αποτέλεσμα ήταν μακράν πιο ακριβές από τις τελευταίες 30 δημοσκοπήσεις. Ομως στις εκλογές της Βρετανίας το 2015, το ίδιο μοντέλο δεν δούλεψε και μάλιστα προέβλεψαν λάθος νικητή!
Ο λόγος ήταν απλός: είχαν χρησιμοποιήσει εκτός από το Twitter τις ίδιες τις δημοσκοπήσεις, οι οποίες αστόχησαν εντυπωσιακά.

 Διαβάστε

Nowcasting the Stance of Social Media Users in a Sudden Vote: The Case of the Greek Referendum 
Ολη η έρευνα των ακαδημαϊκών όπως δημοσιεύτηκε
Predicting Voter Behavior: Twitter vs Polls
Predicting and Interpolating State-Level Polls Using Twitter Textual Data
Ανάλυση του επίκουρου καθηγητή πολιτικών επιστημών στο Πανεπιστήμιο Northeastern, Νικολά Μπoσάμ. Ο τελευταίος συγκέντρωσε περισσότερα από 120 εκατομμύρια tweets που γράφτηκαν στις προηγούμενες προεδρικές εκλογές των ΗΠΑ. Συγκρίνοντας τα εκατομμύρια των λέξεων που δημοσιεύτηκαν online με τις αλλαγές στις προγνώσεις των δημοσκοπήσεων, κατέληξε ότι το Twitter είναι ένα σαφώς καλύτερο εργαλείο σε σύγκριση με τις παραδοσιακές δημοσκοπήσεις.

27.10.2018
Κώστας Ζαφειρόπουλος

από τήν: ΕΦΗΜΕΡΙΔΑ ΤΩΝ ΣΥΝΤΑΚΤΩΝ
                                      efsyn.gr

ΣΗΜΕΙΩΣΗ : Ο υπέρτιτλος γράφτηκε από τή "Νέα Μύκονο"

Δεν υπάρχουν σχόλια:

Δημοσίευση σχολίου

Σημείωση: Μόνο ένα μέλος αυτού του ιστολογίου μπορεί να αναρτήσει σχόλιο.