Οι άνθρωποι χρησιμοποιούν φόρουμ, κοινωνικά δίκτυα, ιστολόγια και άλλες πλατφόρμες για να μοιραστούν τη γνώμη τους, δημιουργώντας έτσι ένα τεράστιο ποσό δεδομένα . Εν τω μεταξύ, οι χρήστες ή οι καταναλωτές θέλουν να γνωρίζουν ποιο προϊόν θα αγοράσουν ή ποια ταινία θα παρακολουθήσουν, οπότε διαβάζουν επίσης κριτικές και προσπαθούν να λάβουν τις αποφάσεις τους αναλόγως.
Η μη αυτόματη συλλογή πληροφοριών σχετικά με τα δεδομένα που δημιουργούνται από τον χρήστη είναι χρονοβόρα. Γι 'αυτό όλο και περισσότερες εταιρείες και οργανισμοί ενδιαφέρονται για τις μεθόδους αυτόματης ανάλυσης συναισθημάτων βοηθήστε τους να το καταλάβουν .
Η ανάλυση συναισθημάτων είναι η διαδικασία μελέτης των απόψεων και των συναισθημάτων των ανθρώπων, γενικά χρησιμοποιώντας γλωσσικές ενδείξεις. Με την πρώτη ματιά, είναι απλώς ένα ταξινόμηση κειμένου πρόβλημα, αλλά αν βουτήξουμε βαθύτερα, θα ανακαλύψουμε ότι υπάρχουν πολλά προκλητικά προβλήματα που επηρεάζουν σοβαρά την ακρίβεια της ανάλυσης συναισθημάτων. Παρακάτω, θα εξερευνήσω μερικές παγίδες που αντιμετωπίζετε το γενικό πρόβλημα ανάλυσης συναισθημάτων :
Θα εξετάσουμε κάθε θέμα και θα προσπαθήσουμε να κατανοήσουμε πώς τα περιγραφόμενα προβλήματα επηρεάζουν την ποιότητα του ταξινομητή συναισθημάτων και ποιες τεχνολογίες μπορούν να χρησιμοποιηθούν για την επίλυσή τους.
Σε σαρκαστικό κείμενο, οι άνθρωποι εκφράζουν τα αρνητικά τους συναισθήματα χρησιμοποιώντας θετικές λέξεις. Αυτό το γεγονός επιτρέπει στον σαρκασμό να εξαπατά εύκολα τα μοντέλα ανάλυσης συναισθημάτων, εκτός εάν έχουν σχεδιαστεί ειδικά για να λαμβάνουν υπόψη τη δυνατότητά του.
Ο σαρκασμός εμφανίζεται συχνότερα σε περιεχόμενο που δημιουργείται από χρήστες, όπως σχόλια στο Facebook, tweets κλπ. Η ανίχνευση σαρκασμού στην ανάλυση συναισθημάτων είναι πολύ δύσκολο να επιτευχθεί χωρίς να έχει καλή κατανόηση του πλαισίου της κατάστασης, του συγκεκριμένου θέματος και του περιβάλλοντος.
Μπορεί να είναι δύσκολο να γίνει κατανοητό όχι μόνο για μια μηχανή αλλά και για έναν άνθρωπο. Η συνεχής διακύμανση των λέξεων που χρησιμοποιούνται σε σαρκαστικές προτάσεις καθιστά δύσκολη την επιτυχή εκπαίδευση μοντέλων ανάλυσης συναισθημάτων. Τα κοινά θέματα, τα ενδιαφέροντα και οι ιστορικές πληροφορίες πρέπει να μοιραστούν μεταξύ δύο ατόμων για να καταστεί διαθέσιμος ο σαρκασμός.
Οι ζημίες από εταιρείες δεν είναι ποτέ διαθέσιμες για να αντισταθμίσουν το προσωπικό εισόδημα ενός μετόχου.
Πρώτον, ας δούμε τον σαρκασμό από την προοπτική του γλωσσολογία , όπου μελετάται ευρέως ο σαρκασμός. Σε ένα από τα πιο αναφερόμενα κομμάτια έρευνας σε αυτόν τον τομέα , η συγγραφέας Elisabeth Camp προτείνει τους ακόλουθους τέσσερις τύπους σαρκασμού:
Η έρευνα του Camp δημοσιεύθηκε το 2012. Το 2017, ερευνητές από το Πανεπιστήμιο του Στάνφορντ ανακοίνωσαν τη δική τους αρκετά ενδιαφέρουσα έρευνα «Έχοντας 2 ώρες για να γράψετε ένα χαρτί είναι διασκεδαστικό!»: Ανίχνευση σαρκασμού σε αριθμητικά τμήματα κειμένου όπου μίλησαν για έναν άλλο τύπο σαρκασμού που ονομάζεται αριθμητικός σαρκασμός . Ο αριθμητικός σαρκασμός είναι πολύ συχνός στα κοινωνικά δίκτυα. Η ιδέα πίσω από αυτό σχετίζεται με αλλαγές στις αριθμητικές τιμές που στη συνέχεια επηρεάζουν την πολικότητα του κειμένου. Για παράδειγμα:
Όπως μπορούμε να δούμε, αυτές οι προτάσεις διαφέρουν μόνο στον αριθμό που χρησιμοποιείται - ως εκ τούτου, ο αριθμητικός σαρκασμός.
Υπάρχουν διαφορετικές προσεγγίσεις για την αυτόματη ανίχνευση σαρκασμού, όπως:
Οι προσεγγίσεις που βασίζονται στη βαθιά μάθηση κερδίζουν δημοτικότητα. Οι Kumar, Somani και Bhattacharyya ολοκληρώθηκαν το 2017 ότι ένα συγκεκριμένο μοντέλο βαθιάς μάθησης (η αρχιτεκτονική CNN-LSTM-FF) ξεπερνά τις προηγούμενες προσεγγίσεις, φτάνοντας στο υψηλότερο επίπεδο ακρίβειας για την ανίχνευση αριθμητικών σαρκασμών.
Όμως, τα βαθιά νευρωνικά δίκτυα (DNN) δεν ήταν μόνο τα καλύτερα για τον αριθμητικό σαρκασμό - αλλά ξεπέρασαν και άλλες προσεγγίσεις ανιχνευτών σαρκασμού γενικά. Ghosh και Veale στο έγγραφο του 2016 χρησιμοποιήστε έναν συνδυασμό ενός συνελικτικού νευρικού δικτύου, ενός δικτύου μακροπρόθεσμης μνήμης (LSTM) και ενός DNN. Συγκρίνουν την προσέγγισή τους με μηχανήματα αναδρομικής υποστήριξης (SVMs) και καταλήγουν στο συμπέρασμα ότι η αρχιτεκτονική βαθιάς μάθησης είναι μια βελτίωση σε σχέση με αυτές τις προσεγγίσεις.
πώς να κωδικοποιήσετε ένα ρομπότ
Στη γλωσσολογία, η άρνηση είναι ένας τρόπος αντιστροφής της πολικότητας των λέξεων, των φράσεων, ακόμη και των προτάσεων. Οι ερευνητές χρησιμοποιούν διαφορετικούς γλωσσικούς κανόνες για να προσδιορίσουν εάν συμβαίνει άρνηση, αλλά είναι επίσης σημαντικό να προσδιοριστεί το εύρος των λέξεων που επηρεάζονται από λέξεις άρνησης.
Δεν υπάρχει σταθερό μέγεθος για το εύρος των επηρεασμένων λέξεων. Για παράδειγμα, στην πρόταση «Η παράσταση δεν ήταν ενδιαφέρουσα», το πεδίο εφαρμογής είναι μόνο η επόμενη λέξη μετά τη λέξη άρνησης. Αλλά για προτάσεις όπως «Δεν αποκαλώ αυτήν την ταινία κωμωδία», το αποτέλεσμα της λέξης άρνησης «όχι» είναι μέχρι το τέλος της πρότασης. Η αρχική έννοια των λέξεων αλλάζει εάν μια θετική ή αρνητική λέξη εμπίπτει στο πεδίο της άρνησης - σε αυτήν την περίπτωση, θα επιστραφεί η αντίθετη πολικότητα.
Η απλούστερη προσέγγιση για την αντιμετώπιση της άρνησης σε μια πρόταση, η οποία χρησιμοποιείται στις περισσότερες τεχνικές ανάλυσης συναισθημάτων τελευταίας τεχνολογίας, σηματοδοτεί ως άρνησε όλες τις λέξεις από μια ένδειξη άρνησης στο επόμενο σημείο στίξης. Η αποτελεσματικότητα του μοντέλου άρνησης μπορεί να αλλάξει λόγω της ειδικής κατασκευής της γλώσσας σε διαφορετικά περιβάλλοντα.
Υπάρχουν διάφορες μορφές για να εκφράσετε μια αρνητική γνώμη σε προτάσεις:
Η κατοχή δειγμάτων με διαφορετικούς τύπους περιγραφόμενων αρνητικών θα αυξήσει την ποιότητα ενός συνόλου δεδομένων για εκπαίδευση και δοκιμή μοντέλων ταξινόμησης συναισθημάτων εντός της άρνησης. Σύμφωνα με την τελευταία έρευνα για επαναλαμβανόμενα νευρωνικά δίκτυα (RNN), διάφορα αρχιτεκτονικές μοντέλων LSTM ξεπεράσει όλες τις άλλες προσεγγίσεις στον εντοπισμό τύπων αρνητικών σε προτάσεις.
Στο χαρτί Επίδραση της άρνησης στην ανάλυση συναισθημάτων , ένα μοντέλο ανάλυσης συναισθημάτων αξιολόγησε 500 κριτικές που συλλέχθηκαν από την Amazon και την Trustedreviews.com. Οι συγγραφείς δείχνουν μια σύγκριση των μοντέλων με και χωρίς ανίχνευση άρνησης. Η αξιολόγησή τους δείχνει πώς η εξέταση της άρνησης μπορεί να αυξήσει σημαντικά την ακρίβεια ενός μοντέλου.
στη μνήμη mongodb για δοκιμή
Η ασάφεια των λέξεων είναι μια άλλη παγίδα που θα αντιμετωπίσετε σε ένα πρόβλημα ανάλυσης συναισθημάτων. Το πρόβλημα της ασάφειας λέξεων είναι η αδυναμία καθορισμού της πολικότητας εκ των προτέρων, επειδή η πολικότητα για ορισμένες λέξεις εξαρτάται σε μεγάλο βαθμό από το πλαίσιο της πρότασης.
Οι προσεγγίσεις ανάλυσης συναισθημάτων με βάση το λεξικό είναι δημοφιλείς μεταξύ των υπαρχουσών μεθόδων. Ένα λεξικό γνώμης περιέχει λέξεις γνώμης με την αξία πολικότητάς τους. Υπάρχουν μερικά λεξικά κοινής γνώμης διαθέσιμα στο Διαδίκτυο: SentiWordNet, General Inquirer και SenticNet, μεταξύ άλλων. Επειδή η πολικότητα των λέξεων ποικίλλει σε διαφορετικούς τομείς, είναι αδύνατο να αναπτυχθεί ένα καθολικό λεξικό γνώμης που έχει πολικότητα για κάθε λέξη. Για παράδειγμα :
Αυτά τα δύο παραδείγματα δείχνουν πώς το πλαίσιο επηρεάζει το συναίσθημα της λέξης γνώμης. Στο πρώτο παράδειγμα, η λέξη πολικότητα του «απρόβλεπτου» προβλέπεται ως θετική. Στο δεύτερο, η πολικότητα της ίδιας λέξης είναι αρνητική.
Μερικές φορές, μια δεδομένη πρόταση ή έγγραφο - ή οποιαδήποτε ενότητα κειμένου που θα θέλαμε να αναλύσουμε - θα εμφανίζει πολυπολικότητα. Σε αυτές τις περιπτώσεις, το να έχεις μόνο το συνολικό αποτέλεσμα της ανάλυσης μπορεί να είναι παραπλανητικό, όπως το πώς ένας μέσος όρος μπορεί μερικές φορές να κρύψει πολύτιμες πληροφορίες για όλους τους αριθμούς που πήγαν σε αυτό.
Εικόνα όταν οι συγγραφείς μιλούν για διαφορετικά άτομα, προϊόντα ή εταιρείες (ή πτυχές τους) σε ένα άρθρο ή κριτική. Είναι συνηθισμένο ότι σε ένα κομμάτι κειμένου, ορισμένα θέματα θα επικριθούν και κάποια θα επαινηθούν.
ολόκληρα τρόφιμα που ανήκουν στην Walmart
Εδώ, η συνολική πολικότητα συναισθημάτων δεν θα έχει βασικές πληροφορίες. Αυτός είναι ο λόγος για τον οποίο είναι απαραίτητο να εξαγάγετε όλες τις οντότητες ή τις πτυχές της πρότασης με εκχωρημένες ετικέτες συναισθημάτων και να υπολογίσετε μόνο τη συνολική πολικότητα εάν χρειάζεται.
Ας δούμε ένα παράδειγμα που αποτελείται από πολλές πολικότητες: 'Η ποιότητα ήχου του νέου φορητού υπολογιστή μου είναι τόσο ωραία, αλλά τα χρώματα της οθόνης δεν είναι πολύ καλά.'
Ορισμένα μοντέλα ανάλυσης συναισθημάτων θα εκχωρήσουν αρνητική ή ουδέτερη πολικότητα σε αυτήν την πρόταση. Για την αντιμετώπιση τέτοιων καταστάσεων, ένα μοντέλο ανάλυσης συναισθημάτων πρέπει να αποδώσει μια πολικότητα σε κάθε πτυχή της πρότασης. εδώ, το «ήχος» είναι μια πτυχή που έχει θετική πολικότητα και η «οθόνη» είναι μια ξεχωριστή πτυχή με αρνητική πολικότητα.
Για μια πιο εμπεριστατωμένη περιγραφή αυτής της προσέγγισης, προτείνω το ενδιαφέρον και χρήσιμο έγγραφο Βαθιά μάθηση για ανάλυση συναισθημάτων που βασίζεται σε διαστάσεις από τους Bo Wanf και Min Liu από το Πανεπιστήμιο του Στάνφορντ.
Σε αυτό το άρθρο, μιλήσαμε για δημοφιλή προβλήματα ταξινόμησης ανάλυσης συναισθημάτων: σαρκασμός, άρνηση, ασάφεια λέξεων και πολυπολικότητα. Η γνώση κάθε ενός από αυτά θα σας βοηθήσει να αποφύγετε πιθανά προβλήματα: Λαμβάνοντας υπόψη τις καταστάσεις που έχουμε συζητήσει, θα αυξηθεί σημαντικά η ακρίβεια της ανάλυσης συναισθημάτων σε ένα μοντέλο ταξινόμησης. Ελπίζω να βρείτε αυτό το άρθρο μια χρήσιμη εισαγωγή στο θέμα.
Σχετίζεται με: Αξιοποιώντας στο έπακρο τα προ-εκπαιδευμένα μοντέλαΗ ανάλυση συναισθημάτων είναι η διαδικασία μελέτης των απόψεων και των συναισθημάτων των ανθρώπων.
Οι άνθρωποι χρησιμοποιούν φόρουμ, κοινωνικά δίκτυα, ιστολόγια και άλλες πλατφόρμες για να μοιραστούν τη γνώμη τους, δημιουργώντας έτσι τεράστιο όγκο δεδομένων. Οι εταιρείες και οι οργανισμοί ενδιαφέρονται να αναλύσουν αυτόματα αυτά τα δεδομένα που δημιουργούνται από τον χρήστη, προκειμένου να μάθουν αποτελεσματικά για αυτά σε κλίμακα.
Μια υποκειμενική πρόταση εκφράζει προσωπικά συναισθήματα, απόψεις ή πεποιθήσεις.
Ένα λεξικό περιέχει λέξεις γνώμης με την αξία πολικότητάς τους. Τα μοντέλα ανάλυσης συναισθημάτων βάσει λεξικού θα συνοψίσουν τις τιμές πολικότητας για λέξεις λεξικού που εμφανίζονται σε μια πρόταση και θα ορίσουν το συναίσθημα σύμφωνα με τη συνολική βαθμολογία πολικότητας.
διαφορά μεταξύ s corp και c corp llc
Η ταξινόμηση συναισθημάτων είναι μια διαδικασία αυτόματου εντοπισμού της πολικότητας μιας πρότασης. Τις περισσότερες φορές, υπάρχουν τρεις πιθανές έξοδοι που χρησιμοποιούνται στην ταξινόμηση συναισθημάτων: θετικά, ουδέτερα ή αρνητικά.