portaldacalheta.pt
  • Κύριος
  • Τροποσ Ζωησ
  • Ζωή Σχεδιαστών
  • Kpi Και Analytics
  • Σχεδιασμός Μάρκας
Πίσω Μέρος

Επιταχύνετε με BERT: Μοντέλα βελτιστοποίησης NLP



Επιτάχυνση του NLP με BERT: Αποτελέσματα παγκόσμιας κλάσης με 100x λιγότερα δεδομένα

Υπάρχουν δύο βασικές δυσκολίες κατά τη δημιουργία μοντέλων ταξινόμησης βαθιάς εκμάθησης φυσικής γλώσσας (NLP).



  1. Συλλογή δεδομένων (λήψη χιλιάδων ή εκατομμυρίων διαβαθμισμένων σημείων δεδομένων)
  2. Βαθιά μάθηση αρχιτεκτονική και εκπαίδευση

Η ικανότητά μας να δημιουργήσουμε πολύπλοκα μοντέλα βαθιάς μάθησης που είναι ικανά να κατανοήσουν την πολυπλοκότητα της γλώσσας συνήθως απαιτούσε χρόνια εμπειρίας σε αυτούς τους τομείς. Όσο πιο δύσκολο είναι το πρόβλημά σας, τόσο πιο διαφορετικό είναι το αποτέλεσμα, τόσο περισσότερο χρόνο πρέπει να αφιερώσετε σε καθένα από αυτά τα βήματα.



Η συλλογή δεδομένων είναι επαχθής, χρονοβόρα, ακριβή και αποτελεί τον νούμερο ένα περιοριστικό παράγοντα για επιτυχημένα έργα NLP. Η προετοιμασία δεδομένων, η κατασκευή ανθεκτικών αγωγών, η επιλογή ανάμεσα σε εκατοντάδες πιθανές επιλογές προετοιμασίας και η προετοιμασία του «μοντέλου έτοιμου» μπορεί εύκολα να πάρει μήνες προσπάθειας ακόμη και με ταλαντούχοι μηχανικοί μηχανικής μάθησης . Τέλος, η εκπαίδευση και η βελτιστοποίηση μοντέλων βαθιάς μάθησης απαιτούν έναν συνδυασμό διαισθητικής κατανόησης, τεχνικής εμπειρογνωμοσύνης και ικανότητας αντιμετώπισης ενός προβλήματος.



Σε αυτό το άρθρο, θα καλύψουμε

  1. Τάσεις στη βαθιά μάθηση για το NLP: Ο τρόπος με τον οποίο η μεταφορά μάθησης καθιστά τα παγκόσμια μοντέλα ανοιχτού κώδικα
  2. Εισαγωγή στο BERT: Μια εισαγωγή στο πιο ισχυρό 'εργαλείο' NLP μέχρι σήμερα - Αναπαραστάσεις κωδικοποιητών αμφίδρομων από μετασχηματιστές (BERT)
  3. Πώς λειτουργεί το BERT και γιατί θα αλλάξει τον τρόπο εκτέλεσης των εταιρειών σε έργα NLP

Τάσεις στη βαθιά μάθηση

Φυσικά, η βελτιστοποίηση αυτής της διαδικασίας ξεκίνησε με αυξανόμενη ακρίβεια. Τα δίκτυα LSTM (μακροπρόθεσμη μνήμη) έφεραν επανάσταση σε πολλές εργασίες NLP, αλλά ήταν (και) απίστευτα πεινασμένα για δεδομένα. Η βελτιστοποίηση και εκπαίδευση αυτών των μοντέλων μπορεί να διαρκέσει ημέρες ή εβδομάδες σε μεγάλα και ακριβά μηχανήματα. Τέλος, η ανάπτυξη αυτών των μεγάλων μοντέλων στην παραγωγή είναι δαπανηρή και δυσκίνητη.



Για τη μείωση αυτών των παραγόντων δημιουργίας πολυπλοκότητας, το πεδίο της όρασης του υπολογιστή χρησιμοποιούσε εδώ και πολύ καιρό τη μεταφορά μάθησης. Η μεταφορά μάθησης είναι η δυνατότητα χρήσης ενός μοντέλου που έχει εκπαιδευτεί για διαφορετική αλλά παρόμοια εργασία για να επιταχύνει τη λύση σας σε ένα νέο. Απαιτείται πολύ λιγότερη προσπάθεια για την επανεκπαίδευση ενός μοντέλου που μπορεί ήδη να κατηγοριοποιήσει τα δέντρα από ό, τι για να εκπαιδεύσει ένα νέο μοντέλο για την αναγνώριση των θάμνων από το μηδέν.

Φανταστείτε ένα σενάριο όπου κάποιος δεν είχε δει ποτέ έναν θάμνο αλλά είχε δει πολλά δέντρα στη ζωή του. Θα ήταν πολύ πιο εύκολο να τους εξηγήσετε πώς μοιάζει ένας θάμνος όσον αφορά το τι ξέρουν για τα δέντρα παρά να περιγράψετε έναν θάμνο από το μηδέν. Η μεταφορά της μάθησης είναι ένας πολύ ανθρώπινος τρόπος μάθησης, οπότε είναι διαισθητικό νόημα ότι αυτό θα λειτουργούσε σε εργασίες βαθιάς μάθησης.



Το BERT σημαίνει ότι χρειάζεστε λιγότερα δεδομένα, λιγότερο χρόνο εκπαίδευσης και έχετε μεγαλύτερη επιχειρηματική αξία. Η ποιότητα των προϊόντων NLP που μπορεί να δημιουργήσει μια επιχείρηση έχει γίνει παγκόσμιας κλάσης.

Στο Comes BERT

Το BERT χρησιμοποιεί αυτά που ονομάζονται μετασχηματιστές και έχει σχεδιαστεί για να παράγει κωδικοποιήσεις φράσεων. Ουσιαστικά, το BERT είναι ένα γλωσσικό μοντέλο που βασίζεται σε ένα συγκεκριμένο μοντέλο βαθιάς μάθησης. Έχει σχεδιαστεί για να παρέχει ένα πλαίσιο, αριθμητική, αναπαράσταση μιας πρότασης ή μιας σειράς προτάσεων. Αυτή η ψηφιακή αναπαράσταση είναι η είσοδος σε ένα ρηχό και απλό μοντέλο. Όχι μόνο αυτό, αλλά τα αποτελέσματα είναι γενικά ανώτερα και απαιτούν ένα κλάσμα των δεδομένων εισαγωγής για μια εργασία που δεν έχει ακόμη επιλυθεί.



Φανταστείτε να είστε σε θέση να περάσετε μια μέρα συλλέγοντας δεδομένα αντί για ένα χρόνο και να είστε σε θέση να δημιουργήσετε μοντέλα γύρω από σύνολα δεδομένων που διαφορετικά δεν θα έχετε ποτέ αρκετά δεδομένα για να δημιουργήσετε ένα μοντέλο LSTM. Ο αριθμός των εργασιών NLP που θα ανοίγονταν για μια επιχείρηση που, προγενέστερα, δεν θα μπορούσε να αντέξει τον χρόνο ανάπτυξης και την απαιτούμενη εμπειρία είναι συγκλονιστική.

Απεικονίζεται BERT εναντίον LSTM



Πώς λειτουργεί το BERT

Στην παραδοσιακή NLP, το σημείο εκκίνησης για την εκπαίδευση μοντέλων είναι διανύσματα λέξεων. Τα διανύσματα λέξεων είναι μια λίστα αριθμών [0,55, 0,24, 0,90,…] που επιχειρούν να αντιπροσωπεύουν αριθμητικά τι σημαίνει αυτή η λέξη. Με μια αριθμητική αναπαράσταση, μπορούμε να χρησιμοποιήσουμε αυτές τις λέξεις σε εκπαιδευτικά σύνθετα μοντέλα, και με μεγάλα διανύσματα λέξεων, μπορούμε να ενσωματώσουμε πληροφορίες σχετικά με τις λέξεις στα μοντέλα μας.

πρέπει να χρησιμοποιήσω php 7

Ο BERT κάνει κάτι παρόμοιο (στην πραγματικότητα, το σημείο εκκίνησής του είναι διανύσματα λέξεων), αλλά δημιουργεί μια αριθμητική αναπαράσταση μιας ολόκληρης πρότασης εισαγωγής (ή προτάσεις).



Σε σύγκριση με τα μοντέλα LSTM, ο BERT κάνει πολλά πράγματα διαφορετικά.

  1. Διαβάζει όλες τις λέξεις ταυτόχρονα αντί από αριστερά προς δεξιά ή από δεξιά προς αριστερά
  2. Το 15% των λέξεων επιλέγονται τυχαία για να «καλυφθούν» (αντικαθίστανται κυριολεκτικά με το διακριτικό [MASK]) κατά τη διάρκεια της προπόνησης
    • Το 10% των τυχαία επιλεγμένων λέξεων παραμένουν αμετάβλητα
    • Το 10% των καλυμμένων λέξεων αντικαθίστανται με τυχαίες λέξεις
    • (α) και (β) συνεργάζονται για να αναγκάσουν το μοντέλο να προβλέψει κάθε λέξη στην πρόταση (τα μοντέλα είναι τεμπέληδες)
  3. Στη συνέχεια, ο BERT προσπαθεί να προβλέψει όλες τις λέξεις στην πρόταση και μόνο οι καλυμμένες λέξεις συμβάλλουν στη λειτουργία απώλειας - συμπεριλαμβανομένων των αμετάβλητων και τυχαία αντικατεστημένων λέξεων
  4. Το μοντέλο βελτιστοποιήθηκε στην επόμενη πρόταση-πρόβλεψη. Σε αυτό το βήμα, το μοντέλο προσπαθεί να προσδιορίσει εάν μια δεδομένη πρόταση είναι η επόμενη πρόταση στο κείμενο

Η σύγκλιση είναι αργή και ο BERT χρειάζεται πολύ χρόνο για να προπονηθεί. Ωστόσο, μαθαίνει τις σχέσεις με βάση τα συμφραζόμενα στο κείμενο πολύ καλύτερα. Τα διανύσματα λέξεων είναι πολύ ρηχές παραστάσεις που περιορίζουν την πολυπλοκότητα που μπορούν να μοντελοποιήσουν - το BERT δεν έχει αυτόν τον περιορισμό.

Οι περισσότερες επιχειρήσεις μπορούν να κάνουν χρήση των προ-εκπαιδευμένων μοντέλων που χρησιμοποίησαν πολλές GPU και χρειάστηκαν ημέρες για να εκπαιδεύσουν την εφαρμογή τους. Υπάρχουν μερικές περιπτώσεις όπου τα υπάρχοντα μοντέλα BERT δεν μπορούν να χρησιμοποιηθούν στη θέση τους ή να συντονιστούν σε μια συγκεκριμένη περίπτωση χρήσης. Το BERT επιτρέπει σε μια ομάδα να επιταχύνει τις λύσεις κατά δέκα φορές. Κάποιος μπορεί να κινηθεί για να εντοπίσει μια επιχειρηματική λύση, να οικοδομήσει μια απόδειξη της έννοιας, και τελικά να μεταφέρει αυτή την ιδέα στην παραγωγή σε ένα κλάσμα του χρόνου.

Εφαρμογή του BERT και σύγκριση της επιχειρηματικής αξίας

Δεδομένου ότι αυτό το άρθρο επικεντρώνεται στην επιχειρηματική και εφαρμοσμένη μηχανική κατασκευή ενός πραγματικού προϊόντος, θα δημιουργήσουμε και θα εκπαιδεύσουμε δύο μοντέλα για να κατανοήσουμε καλύτερα τη συγκριτική αξία.

  1. BERT: Ο πιο απλός αγωγός BERT. Επεξεργαζόμαστε κείμενο με τυπικό τρόπο, παράγουμε κωδικοποιήσεις φράσεων BERT και τροφοδοτούμε αυτές τις κωδικοποιήσεις φράσεων σε ένα ρηχό νευρωνικό δίκτυο
  2. LSTM: Το πρότυπο Ενσωμάτωση - Encode - Attend - Προβλέψτε την αρχιτεκτονική (απεικονίζεται παραπάνω)

Το έργο? Προβλέποντας την προέλευση των ταινιών με βάση την πλοκή τους από το IMDB. Το σύνολο δεδομένων μας καλύπτει ταινίες από Αμερικάνικα, Αυστραλιανά, Βρετανικά, Καναδά, Ιαπωνικά, Κινέζικα, Νότια Κορέα και Ρωσικά, καθώς και δεκαέξι άλλες ταινίες για συνολικά 24 προελεύσεις. Έχουμε κάτω από 35.000 συνολικά παραδείγματα εκπαίδευσης.

Ακολουθεί ένα παράδειγμα αποσπάσματος από μια πλοκή.

Πριν από χιλιάδες χρόνια, ο Steppenwolf και οι λεγεώνες του Parademons προσπαθούν να καταλάβουν τη Γη με τις συνδυασμένες ενέργειες τριών Mother Boxes. Αποτυγχάνουν από έναν ενοποιημένο στρατό που περιλαμβάνει τους Ολυμπιακούς Θεούς, τους Αμαζόνες, τους Ατλαντικούς, την ανθρωπότητα και το Σώμα των Πράσινων Φανάρι. Αφού απωθούσε το στρατό του Steppenwolf, τα Mother Boxes χωρίζονται και κρύβονται σε τοποθεσίες στον πλανήτη. Στο παρόν, η ανθρωπότητα πνίγει για τον Σούπερμαν, του οποίου ο θάνατος προκαλεί την επανενεργοποίηση των Mother Boxes και την επιστροφή του Steppenwolf στη Γη σε μια προσπάθεια να ανακτήσει την εύνοιά του με τον κύριό του, Darkseid. Το Steppenwolf στοχεύει να συγκεντρώσει τα αντικείμενα για να σχηματίσει το 'The Unity', το οποίο θα καταστρέψει την οικολογία της Γης και θα την δημιουργήσει στην εικόνα του…

Εάν δεν είχατε μαντέψει, αυτή είναι η πλοκή του Justice League - μια αμερικανική ταινία.

Τα αποτελέσματα

Εκπαιδεύσαμε ένα διαφορετικό σύνολο παραμέτρων για να κατανοήσουμε πώς τα αποτελέσματα ανταποκρίθηκαν σε διάφορες ποσότητες δεδομένων και μεγέθη μοντέλου. Όπως είπαμε, η πιο σημαντική προστιθέμενη αξία από το BERT είναι η ανάγκη για πολύ λιγότερα δεδομένα.

Για το μοντέλο LSTM, εκπαιδεύσαμε το μεγαλύτερο μοντέλο που μπορούσαμε στην GPU μας και διαφοροποιήσαμε το μέγεθος του λεξιλογίου και το μήκος της λέξης για να βρούμε το μοντέλο με την καλύτερη απόδοση. Για το μοντέλο BERT, δεν είχαμε τίποτα περισσότερο από ένα μόνο στρώμα.

Διορθώσαμε το σύνολο δοκιμών σε όλα αυτά τα δείγματα, οπότε βαθμολογούμε με συνέπεια το ίδιο σετ προπόνησης.

Αποτελέσματα κατά τη χρήση BERT NLP

Σε αυτήν την εργασία, το μοντέλο που εκπαιδεύτηκε χρησιμοποιώντας κωδικοποιήσεις φράσεων BERT φτάνει σε εντυπωσιακή βαθμολογία F1 0,84 μετά από μόλις 1000 δείγματα. Το δίκτυο LSTM δεν υπερβαίνει ποτέ το 0,60. Ακόμα πιο εντυπωσιακό, η εκπαίδευση των μοντέλων BERT χρειάστηκε κατά μέσο όρο το 1/20 του χρόνου παρά την προετοιμασία των μοντέλων LSTM.

συμπέρασμα

Με οποιαδήποτε μέτρηση, αυτά τα αποτελέσματα δείχνουν μια επανάσταση στο NLP. Χρησιμοποιώντας 100x λιγότερα δεδομένα και 20x λιγότερο χρόνο εκπαίδευσης, επιτύχαμε αποτελέσματα παγκόσμιας κλάσης. Η ικανότητα εκπαίδευσης μοντέλων υψηλής ποιότητας σε δευτερόλεπτα ή λεπτά αντί για ώρες ή ημέρες ανοίγει το NLP σε περιοχές όπου δεν θα μπορούσε προηγουμένως να επιτευχθεί.

Το BERT έχει πολλές περισσότερες χρήσεις από αυτήν σε αυτήν την ανάρτηση. Υπάρχουν πολυγλωσσικά μοντέλα. Μπορεί να χρησιμοποιηθεί για την επίλυση πολλών διαφορετικών εργασιών NLP, είτε μεμονωμένα όπως σε αυτήν την ανάρτηση ή ταυτόχρονα χρησιμοποιώντας πολλαπλές εξόδους. Οι κωδικοποιήσεις προτάσεων BERT αναμένεται να αποτελέσουν τον ακρογωνιαίο λίθο πολλών έργων NLP στο μέλλον.

Ο κωδικός πίσω από αυτήν την ανάρτηση είναι διαθέσιμος στις Github . Επίσης, ενθαρρύνω τους αναγνώστες να κάνουν check out Bert-as-a-service , που ήταν ο ακρογωνιαίος λίθος της δημιουργίας κωδικοποιήσεων φράσεων BERT για αυτήν την ανάρτηση.

Σχετίζεται με: Αξιοποιώντας στο έπακρο τα προ-εκπαιδευμένα μοντέλα

Κατανόηση των βασικών

Τι είναι η εκμάθηση μεταφοράς;

Η μεταφορά μάθησης είναι μια μέθοδος στη μηχανική μάθηση όπου ένα μοντέλο είναι χτισμένο και εκπαιδευμένο σε μία εργασία χρησιμοποιείται ως αρχή. Πρόκειται για μια μέθοδο μηχανικής εκμάθησης όπου ένα μοντέλο που αναπτύχθηκε για μία εργασία χρησιμοποιείται ως σημείο εκκίνησης για ένα παρόμοιο, σχετικό πρόβλημα (π.χ., ταξινόμηση NLP σε αναγνωρισμένη οντότητα).

Τι είναι το BERT;

Το BERT είναι ένα ισχυρό μοντέλο βαθιάς μάθησης που αναπτύχθηκε από την Google με βάση την αρχιτεκτονική του μετασχηματιστή. Ο BERT έχει δείξει αποτελέσματα τελευταίας τεχνολογίας και μια σειρά από τις πιο κοινές εργασίες NLP και μπορεί να χρησιμοποιηθεί ως αφετηρία για τη δημιουργία μοντέλων NLP σε πολλούς τομείς.

Πόσο πολύτιμο είναι το BERT στα μοντέλα παραγωγής κτιρίων;

Ο BERT αφαιρεί μερικές από τις πιο περίπλοκες και χρονοβόρες πτυχές της δημιουργίας ενός NLP και στοιχεία έχουν δείξει ότι ο BERT μπορεί να χρησιμοποιηθεί για τη μείωση της ποσότητας δεδομένων που απαιτούνται για την εκπαίδευση ενός μοντέλου υψηλής απόδοσης κατά περισσότερο από 90%. Το BERT μειώνει επίσης την πολυπλοκότητα της παραγωγής, το χρόνο ανάπτυξης και αυξάνει την ακρίβεια.

Πού ξεκινώ με το BERT;

Το καλύτερο μέρος για να ξεκινήσετε με το BERT είναι να εξοικειωθείτε με το Bert-as-a-service. Ο κωδικός πίσω από αυτήν την ανάρτηση είναι διαθέσιμος στο Github και μπορεί επίσης να χρησιμοποιηθεί για να ξεκινήσει ένα νέο έργο NLP.

Ομιλίες σχεδιασμού: Έρευνα σε δράση με την ερευνητή UX Caitria O'Neill

Σχεδιασμός Ux

Ομιλίες σχεδιασμού: Έρευνα σε δράση με την ερευνητή UX Caitria O'Neill
Τα 9 πιο συνηθισμένα λάθη που κάνουν οι Ιονικοί προγραμματιστές

Τα 9 πιο συνηθισμένα λάθη που κάνουν οι Ιονικοί προγραμματιστές

Κινητό

Δημοφιλείς Αναρτήσεις
Μάθετε αυτές τις δημοφιλείς τάσεις με αυτά τα μαθήματα του Photoshop
Μάθετε αυτές τις δημοφιλείς τάσεις με αυτά τα μαθήματα του Photoshop
Ενεργοποιήστε το Angular 2: Αναβάθμιση από 1.5
Ενεργοποιήστε το Angular 2: Αναβάθμιση από 1.5
Απεριόριστη κλίμακα και δωρεάν φιλοξενία ιστοσελίδων με σελίδες GitHub και Cloudflare
Απεριόριστη κλίμακα και δωρεάν φιλοξενία ιστοσελίδων με σελίδες GitHub και Cloudflare
Διευθυντής λειτουργιών Marketplace
Διευθυντής λειτουργιών Marketplace
Εισαγωγή στο λειτουργικό σύστημα ρομπότ: Το απόλυτο πλαίσιο εφαρμογής ρομπότ
Εισαγωγή στο λειτουργικό σύστημα ρομπότ: Το απόλυτο πλαίσιο εφαρμογής ρομπότ
 
Μεγάλα πρόσφατα παραδείγματα επιτυχημένης ανταγωνιστικής στρατηγικής
Μεγάλα πρόσφατα παραδείγματα επιτυχημένης ανταγωνιστικής στρατηγικής
Lighter and Faster - Ένας οδηγός για το Svelte Framework
Lighter and Faster - Ένας οδηγός για το Svelte Framework
Ένα σεμινάριο για τις φιλοδοξίες του Google Glass Developers: Δημιουργία της πρώτης σας εφαρμογής Glass
Ένα σεμινάριο για τις φιλοδοξίες του Google Glass Developers: Δημιουργία της πρώτης σας εφαρμογής Glass
The Statistic Edge: Βελτιώστε τις μετρήσεις σας με τη μέθοδο αναλογιστικής αποτίμησης
The Statistic Edge: Βελτιώστε τις μετρήσεις σας με τη μέθοδο αναλογιστικής αποτίμησης
Είναι οι αγορές εκατομμυρίων δολαρίων καλύτερες από τις αγορές δισεκατομμυρίων δολαρίων;
Είναι οι αγορές εκατομμυρίων δολαρίων καλύτερες από τις αγορές δισεκατομμυρίων δολαρίων;
Δημοφιλείς Αναρτήσεις
  • διαφορά μεταξύ s corp και c corp
  • διέρρευσαν πιστωτικές κάρτες που λειτουργούν
  • σε τι γράφεται το linux
  • πώς να δημιουργήσετε ένα διακριτικό
  • τι είναι ένα οικογενειακό γραφείο για τη διαχείριση περιουσίας
Κατηγορίες
  • Τροποσ Ζωησ
  • Ζωή Σχεδιαστών
  • Kpi Και Analytics
  • Σχεδιασμός Μάρκας
  • © 2022 | Ολα Τα Δικαιώματα Διατηρούνται

    portaldacalheta.pt