Τα τελευταία χρόνια, τα βαθιά νευρωνικά δίκτυα έχουν γίνει εξαιρετικά δημοφιλή. Αυτός ο αναδυόμενος τομέας της επιστήμης των υπολογιστών δημιουργήθηκε γύρω από την έννοια των βιολογικών νευρωνικών δικτύων και η βαθιά μάθηση έχει γίνει κάτι πολύτιμο σήμερα.
Οι επιστήμονες και οι μηχανικοί βαθιάς μάθησης προσπαθούν να περιγράψουν μαθηματικά διάφορα πρότυπα από βιολογικά νευρικά συστήματα. Τα συστήματα βαθιάς μάθησης έχουν εφαρμοστεί σε διάφορα προβλήματα: όραση υπολογιστή, αναγνώριση ομιλίας, επεξεργασία φυσικής γλώσσας, μηχανική μετάφραση και άλλα. Είναι ενδιαφέρον και συναρπαστικό το γεγονός ότι σε ορισμένα καθήκοντα, η βαθιά μάθηση έχει ξεπεράσει τους εμπειρογνώμονες του ανθρώπου. Σήμερα, θα ρίξουμε μια ματιά στη βαθιά μάθηση στον χρηματοοικονομικό τομέα.
Μία από τις πιο ελκυστικές εφαρμογές της βαθιάς μάθησης είναι τα hedge funds. Τα αμοιβαία κεφάλαια αντιστάθμισης είναι επενδυτικά κεφάλαια, χρηματοοικονομικοί οργανισμοί που συγκεντρώνουν κεφάλαια από επενδυτές και τα διαχειρίζονται. Συνήθως δουλεύουν με δεδομένα χρονοσειρών και προσπαθούν να κάνουν κάποιες προβλέψεις. Υπάρχει ένας ειδικός τύπος αρχιτεκτονικής βαθιάς μάθησης που είναι κατάλληλος για ανάλυση χρονοσειρών: επαναλαμβανόμενα νευρωνικά δίκτυα (RNN) ή ακόμα πιο συγκεκριμένα, ένας ειδικός τύπος επαναλαμβανόμενου νευρικού δικτύου: μακροπρόθεσμα δίκτυα βραχυπρόθεσμης μνήμης (LSTM) .
Τα LSTM είναι ικανά να συλλάβουν τα πιο σημαντικά χαρακτηριστικά από δεδομένα χρονοσειρών και να μοντελοποιήσουν τις εξαρτήσεις του. Ένα μοντέλο πρόβλεψης τιμής μετοχής παρουσιάζεται ως ενδεικτική μελέτη περίπτωσης για το πώς τα hedge funds μπορούν να χρησιμοποιούν τέτοια συστήματα. Το πλαίσιο PyTorch, γραμμένο σε Python, χρησιμοποιείται για να εκπαιδεύσει το μοντέλο, να σχεδιάσει πειράματα και να σχεδιάσει τα αποτελέσματα.
Θα ξεκινήσουμε με κάποια βασικά βασικά στοιχεία εκμάθησης πριν προχωρήσουμε σε παραδείγματα πραγματικού κόσμου:
Ένα από τα πιο δύσκολα και συναρπαστικά καθήκοντα στον χρηματοπιστωτικό κλάδο είναι να προβλέπει εάν οι τιμές των μετοχών θα αυξηθούν ή θα μειωθούν στο μέλλον. Σήμερα, γνωρίζουμε ότι οι αλγόριθμοι βαθιάς μάθησης είναι πολύ καλοί στην επίλυση πολύπλοκων εργασιών, οπότε αξίζει να προσπαθήσουμε να πειραματιστούμε με συστήματα βαθιάς μάθησης για να δούμε αν μπορούν να λύσουν με επιτυχία το πρόβλημα της πρόβλεψης μελλοντικών τιμών.
Ως έννοια, το τεχνητό νευρικό δίκτυο υπάρχει εδώ και πολύ καιρό, αλλά το υλικό δεν ήταν αρκετά καλό για να επιτρέψει γρήγορα πειράματα στη βαθιά μάθηση. Η Nvidia βοήθησε στην επανάσταση των δικτύων βαθιάς μάθησης πριν από μια δεκαετία, καθώς άρχισε να προσφέρει πολύ γρήγορες μονάδες επεξεργασίας γραφικών (GPU) για υπολογιστές γενικής χρήσης Προϊόντα σειράς Tesla . Αντί να σκιάζουν πολύγωνα σε παιχνίδια και εφαρμογές επαγγελματικού σχεδιασμού, οι πολύ παραλληλισμένες GPU μπορούν να υπολογίσουν και άλλα δεδομένα και, σε πολλές περιπτώσεις, είναι εξαιρετικά ανώτερες από τις CPU.
Υπάρχουν πολύ λίγα επιστημονικά άρθρα σχετικά με τη χρήση της βαθιάς μάθησης στα οικονομικά, αλλά η ζήτηση για εμπειρογνώμονες βαθιάς μάθησης από εταιρείες fintech είναι ισχυρή, καθώς αναγνωρίζουν προφανώς τις δυνατότητές της. Αυτό το άρθρο θα σας βοηθήσει να εξηγήσετε γιατί η βαθιά μάθηση στη χρηματοδότηση γίνεται όλο και πιο δημοφιλής, περιγράφοντας τον τρόπο με τον οποίο χρησιμοποιούνται τα οικονομικά δεδομένα για την κατασκευή συστημάτων βαθιάς μάθησης. Ένας ειδικός τύπος επαναλαμβανόμενου νευρικού δικτύου - το Δίκτυο LSTM - θα παρουσιαστεί επίσης. Θα περιγράψουμε πώς μπορεί να επιλυθεί ένα έργο που σχετίζεται με τα οικονομικά χρησιμοποιώντας επαναλαμβανόμενα νευρωνικά δίκτυα.
Αυτό το άρθρο περιλαμβάνει επίσης μια επεξηγηματική μελέτη περίπτωσης για το πώς τα hedge funds μπορούν να χρησιμοποιούν τέτοια συστήματα, που παρουσιάζονται μέσω πειραμάτων. Θα εξετάσουμε επίσης πώς μπορούν να βελτιωθούν τα συστήματα βαθιάς μάθησης και πώς μπορούν να χρησιμοποιηθούν τα hedge funds για την πρόσληψη ταλέντων για τη δημιουργία αυτών των συστημάτων, δηλαδή τι είδους υπόβαθρο χρειάζεται να έχει το ταλέντο βαθιάς μάθησης.
Πριν προχωρήσουμε στην τεχνική πτυχή του προβλήματος, πρέπει να εξηγήσουμε τι κάνει τα hedge funds μοναδικά. Λοιπόν, τι είναι το hedge fund;
Ένα hedge fund είναι ένα επενδυτικό ταμείο - ένας χρηματοοικονομικός οργανισμός που συγκεντρώνει κεφάλαια από επενδυτές και τα τοποθετεί σε βραχυπρόθεσμες και μακροπρόθεσμες επενδύσεις ή σε διαφορετικά χρηματοοικονομικά προϊόντα. Συνήθως σχηματίζεται ως εταιρεία περιορισμένης ευθύνης ή εταιρεία περιορισμένης ευθύνης. Στόχος ενός hedge fund είναι η μεγιστοποίηση των αποδόσεων. Η απόδοση είναι κέρδος ή ζημία στην καθαρή αξία των αμοιβαίων κεφαλαίων κινδύνου για μια συγκεκριμένη χρονική περίοδο. Είναι γενικά αποδεκτό ότι όταν λαμβάνεται περισσότερος κίνδυνος, υπάρχει μεγαλύτερη πιθανότητα υψηλότερων αποδόσεων και ζημιών.
Προκειμένου να επιτευχθούν καλές αποδόσεις, τα αμοιβαία κεφάλαια αντιστάθμισης βασίζονται σε διάφορους τύπους επενδυτικών στρατηγικών, προσπαθώντας να κερδίσουν χρήματα εκμεταλλευόμενοι τις ανεπάρκειες της αγοράς. Λόγω διαφόρων ειδών επενδυτικών στρατηγικών που δεν επιτρέπονται σε κοινά επενδυτικά κεφάλαια, τα αμοιβαία κεφάλαια κινδύνου δεν εγγράφονται ως κεφάλαια, δηλαδή συνήθως δεν εποπτεύονται από το κράτος όπως άλλα κεφάλαια. Δεν χρειάζεται να δημοσιεύσουν τις επενδυτικές τους στρατηγικές και τα επιχειρηματικά τους αποτελέσματα, τα οποία μπορούν να τα κάνουν αρκετά επικίνδυνα. Ορισμένα hedge funds παράγουν περισσότερα χρήματα από τον μέσο όρο της αγοράς, αλλά μερικά από αυτά χάνουν χρήματα. Μερικά από αυτά φέρνουν μόνιμα αποτελέσματα, ενώ μερικά από τα αποτελέσματα των αμοιβαίων κεφαλαίων κινδύνου είναι ποικίλα.
Επενδύοντας σε αμοιβαία κεφάλαια κινδύνου, οι επενδυτές αυξάνουν την καθαρή αξία του αμοιβαίου κεφαλαίου. Όχι μόνο κάποιος μπορεί να επενδύσει σε hedge funds, ωστόσο. Τα hedge funds προορίζονται για έναν μικρό αριθμό πλούσιων επενδυτών. Συνήθως, αυτοί που θέλουν να λάβουν μέρος σε αμοιβαία κεφάλαια αντιστάθμισης πρέπει να είναι διαπιστευμένοι. Αυτό σημαίνει ότι πρέπει να έχουν ειδικό καθεστώς σχετικά με τους νόμους περί δημοσιονομικών κανονισμών. Υπάρχει μια διάκριση από χώρα σε χώρα σχετικά με το ποιος μπορεί να έχει αυτό το ειδικό καθεστώς. Συνήθως, η καθαρή αξία ενός επενδυτή πρέπει να είναι πολύ υψηλή - όχι μόνο τα άτομα, αλλά οι τράπεζες και οι μεγάλες εταιρείες μπορούν επίσης να λειτουργούν σε hedge funds. Αυτή η διαπίστευση έχει σχεδιαστεί για να επιτρέπει μόνο άτομα με σημαντική επενδυτική γνώση να συμμετέχουν, προστατεύοντας έτσι μικρούς και άπειρους επενδυτές από τον κίνδυνο.
Αυτό το άρθρο εξετάζει το κανονιστικό πλαίσιο των ΗΠΑ, καθώς οι Ηνωμένες Πολιτείες έχουν την πιο ανεπτυγμένη χρηματοοικονομική αγορά στον κόσμο. Έτσι, στις Ηνωμένες Πολιτείες της Αμερικής, ο όρος «διαπιστευμένος επενδυτής» ορίζεται στο Άρθρο 501 του κανονισμού Δ της Επιτροπής Κεφαλαιαγοράς των ΗΠΑ (SEC) .
Σύμφωνα με αυτόν τον κανονισμό, οι διαπιστευμένοι επενδυτές μπορούν:
Οι διαχειριστές hedge fund διαχειρίζονται το hedge fund. Ένας διαχειριστής hedge fund πρέπει να βρει έναν τρόπο να δημιουργήσει ένα ανταγωνιστικό πλεονέκτημα για να είναι επιτυχής, δηλαδή να δημιουργήσει ένα πλεονέκτημα έναντι των αντιπάλων και την ικανότητα να παράγει μεγαλύτερη αξία. Μπορεί να είναι μια πολύ ελκυστική επιλογή σταδιοδρομίας, καθώς μπορεί να είναι πολύ επικερδής εάν ένα άτομο υπερέχει στη διαχείριση του ταμείου.
Από την άλλη πλευρά, εάν πολλές αποφάσεις των διαχειριστών hedge fund αποδειχθούν κακές, δεν θα πληρωθούν και θα αποκτήσουν αρνητική φήμη. Οι καλύτεροι διαχειριστές hedge fund αποτελούν ένα από τα καλύτερα αμειβόμενα επαγγέλματα σε όλους τους κλάδους. Οι διαχειριστές hedge fund λαμβάνουν ένα ποσοστό των αποδόσεων που κερδίζουν για τους επενδυτές, εκτός από το τέλος διαχείρισης. Αυτός ο τρόπος αποζημίωσης κάνει τους διαχειριστές hedge fund να επενδύουν πιο επιθετικά για να επιτύχουν μεγαλύτερες αποδόσεις, αλλά από την άλλη πλευρά, αυτό οδηγεί επίσης σε αύξηση του κινδύνου των επενδυτών.
Το πρώτο hedge fund εμφανίστηκε το 1949, που ιδρύθηκε από τον πρώην συγγραφέα και κοινωνιολόγο Alfred Winslow Jones. Ήταν ενώ έγραφε ένα άρθρο σχετικά με τις τρέχουσες επενδυτικές τάσεις για το Fortune, το 1948.
Προσπάθησε να διαχειριστεί τα χρήματα και ήταν πολύ επιτυχημένος. Συγκέντρωσε χρήματα χρησιμοποιώντας την επενδυτική του καινοτομία, η οποία τώρα είναι ευρέως γνωστή ως long / short equity. Η στρατηγική εξακολουθεί να είναι πολύ δημοφιλής μεταξύ των hedge funds. Οι μετοχές μπορούν να αγοραστούν (αγορά: μακρά) ή να πουληθούν (πώληση: σύντομη).
Όταν η τιμή μιας μετοχής είναι χαμηλή και αναμένεται ότι η τιμή μιας μετοχής θα αυξηθεί, είναι λογικό να αγοράσετε μια μετοχή (μακρά) και να την πουλήσετε (σύντομη) μόλις φτάσει στην υψηλότερη κορυφή της τιμής και ότι είναι ακριβώς το σημείο της καινοτομίας που έκανε ο Alfred Winslow Jones — παίρνοντας θέσεις θέσης σε μετοχές που αναμένεται να εκτιμηθούν και θέσεις πώλησης σε μετοχές που αναμένεται να μειωθούν.
Τα οικονομικά δεδομένα ανήκουν σε δεδομένα χρονοσειρών. Η χρονοσειρά είναι μια σειρά σημείων δεδομένων που έχουν ευρετηριαστεί στο χρόνο. Συνήθως, μια χρονοσειρά είναι μια ακολουθία που λαμβάνεται σε διαδοχικά, ισότιμα χρονικά σημεία: μια ακολουθία δεδομένων διακριτού χρόνου. Παραδείγματα χρονολογικών σειρών είναι τα ύψη της παλίρροιας των ωκεανών, οι μετρήσεις των ηλιακών κηλίδων και η ημερήσια τιμή κλεισίματος του Dow Jones Industrial Average.
πλεονεκτήματα και μειονεκτήματα των εταιρειών
Τα ιστορικά δεδομένα σε αυτό το πλαίσιο είναι δεδομένα χρονοσειρών από το παρελθόν. Είναι ένα από τα πιο σημαντικά και πολύτιμα μέρη για την κερδοσκοπία σχετικά με τις μελλοντικές τιμές. Υπάρχουν ορισμένα διαθέσιμα στο κοινό δεδομένα στο Διαδίκτυο, αλλά συνήθως, αυτά τα δεδομένα δεν περιέχουν πολλές δυνατότητες - είναι συνήθως δεδομένα διαστήματος 1 ημέρας, δεδομένα διαστήματος 1 ώρας ή δεδομένα διαστήματος 1 λεπτού.
Τα σύνολα δεδομένων με πλουσιότερες δυνατότητες και σε μικρότερα χρονικά διαστήματα συνήθως δεν είναι διαθέσιμα στο κοινό και μπορεί να είναι πολύ δαπανηρά. Μικρότερα διαστήματα σημαίνουν περισσότερα δεδομένα χρονοσειρών σε μια καθορισμένη περίοδο - σε ένα έτος υπάρχουν 365 (ή 366) ημέρες, οπότε υπάρχουν έως 365 (ή 366) σημεία δεδομένων διαθέσιμα. Κάθε μέρα έχει 24 ώρες, οπότε σε ένα έτος υπάρχουν 8.760 (ή 8.784) ωριαία σημεία δεδομένων και κάθε μέρα έχει 86.400 λεπτά, οπότε σε ένα έτος υπάρχουν 525.600 (ή 527.040) λεπτά σημεία δεδομένων.
Με περισσότερα δεδομένα, περισσότερες πληροφορίες είναι διαθέσιμες και με περισσότερες πληροφορίες, είναι δυνατόν να εξαχθούν καλύτερα συμπεράσματα σχετικά με το τι θα συμβεί την επόμενη χρονική περίοδο - υποθέτοντας, φυσικά, ότι τα δεδομένα αποτελούνται από ένα αρκετά καλό χαρακτηριστικό για να γενικευτούν καλά. Τα στοιχεία για τις τιμές των μετοχών από το 2007-2008, στο αποκορύφωμα της παγκόσμιας χρηματοπιστωτικής κρίσης, είναι μεροληπτικά και πιθανώς δεν σχετίζονται με τις προβλέψεις τιμών σήμερα. Με μικρότερο χρονικό διάστημα, είναι πιο εύκολο να προβλέψουμε τι θα συμβεί στη συνέχεια λόγω πολλών σημείων δεδομένων σε ένα σταθερό διάστημα. Είναι πιο εύκολο να προβλέψουμε τι θα συμβεί στο επόμενο νανοδευτερόλεπτο εάν έχουμε όλα τα σημεία δεδομένων για κάθε νανοδευτερόλεπτο σε σταθερό διάστημα n
ετησίως από ό, τι θα συμβεί στο χρηματιστήριο του επόμενου έτους εάν έχουμε όλα n
σημεία δεδομένων για κάθε έτος σε σταθερό διάστημα n
ετησίως.
Ωστόσο, αυτό δεν σημαίνει ότι, αν υποτεθεί ότι μια γρήγορη σειρά βραχυπρόθεσμων προβλέψεων είναι σωστή, η μακροπρόθεσμη πρόβλεψη θα πρέπει επίσης να είναι σωστή. Κάθε πρόβλεψη εισάγει σφάλμα και, με αλυσίδες πολλαπλών προβλέψεων, η μακροπρόθεσμη πρόβλεψη θα περιέχει ένα σημαντικό ποσό σφάλματος στο τέλος και θα είναι άχρηστο. Ακολουθεί ένα παράδειγμα δεδομένων διαστήματος 1 ημέρας για μετοχές της Google που αποκομίζονται στο διαδίκτυο από το Yahoo Finance.
Υπάρχουν λίγες στήλες στο σύνολο δεδομένων: Ημερομηνία, Ανοιχτό, Υψηλό, Χαμηλό και Κλείσιμο - αντίστοιχα, η τιμή στην οποία μια ασφάλεια διαπραγματεύεται για πρώτη φορά κατά το άνοιγμα μιας ανταλλαγής, την υψηλότερη τιμή που επιτεύχθηκε η ασφάλεια σε μια δεδομένη ημέρα διαπραγμάτευσης , η χαμηλότερη τιμή που επιτυγχάνεται σε μια δεδομένη ημέρα διαπραγμάτευσης και η τελική τιμή στην οποία μια ασφάλεια διαπραγματεύεται εκείνη την ημέρα.
Συνήθως, υπάρχουν δύο ακόμη στήλες σε τέτοια σύνολα δεδομένων - Προσαρμοσμένο κλείσιμο και τόμος, αλλά δεν έχουν σημασία εδώ. Το Προσαρμοσμένο Κλείσιμο είναι η τιμή κλεισίματος μετά από προσαρμογές για τις ισχύουσες διασπάσεις και διανομές μερισμάτων, ενώ ο Όγκος είναι ο αριθμός των μετοχών που διαπραγματεύονται στην αγορά για μια δεδομένη χρονική περίοδο.
Μπορείτε να δείτε ότι λείπουν ορισμένες από τις ημερομηνίες. Αυτές είναι οι μέρες που το χρηματιστήριο δεν λειτουργεί, συνήθως τα σαββατοκύριακα και τις αργίες. Για τους σκοπούς της επίδειξης αλγορίθμου βαθιάς μάθησης, οι μέρες που λείπουν συμπληρώνονται με την προηγούμενη διαθέσιμη τιμή. Για παράδειγμα, οι τιμές κλεισίματος για την περίοδο 2010-01-16, 2010-01-17, 2010-01-18 θα είναι όλες 288.126007, διότι έτσι ήταν στις 2010-01-15. Είναι σημαντικό για τον αλγόριθμό μας να μην υπάρχουν κενά τα δεδομένα, ώστε να μην τα συγχέουμε. Ο αλγόριθμος βαθιάς μάθησης θα μπορούσε να μάθει από εδώ όταν τα σαββατοκύριακα και οι αργίες είναι, π.χ., θα μάθει ότι μετά από πέντε εργάσιμες ημέρες, πρέπει να υπάρχουν δύο ημέρες με σταθερές τιμές από την τελευταία εργάσιμη ημέρα.
Αυτό είναι ένα διάγραμμα των κινήσεων τιμών μετοχών της Google από το 2010-01-04. Σημειώστε ότι χρησιμοποιούνται μόνο οι ημέρες συναλλαγών για τη γραφική παράσταση του γραφήματος.
Η βαθιά μάθηση είναι μέρος της μηχανικής μάθησης και βασίζεται σε αναπαραστάσεις δεδομένων εκμάθησης. Η μηχανική εκμάθηση εξετάζει αλγόριθμους των οποίων η λειτουργικότητα δεν είναι προγραμματισμένη αλλά μαθαίνεται από τα δεδομένα. Είναι ουσιαστικά μια προσέγγιση στην τεχνητή νοημοσύνη.
Η βαθιά μάθηση έχει εφαρμοστεί σε διάφορους τομείς: όραμα υπολογιστή, αναγνώριση ομιλίας, επεξεργασία φυσικής γλώσσας, μηχανική μετάφραση - και σε ορισμένες από αυτές τις εργασίες, έχει επιτύχει απόδοση ανώτερη από τον άνθρωπο.
Ένα βαθύ νευρωνικό δίκτυο βρίσκεται στο κέντρο της βαθιάς μάθησης. Το πιο απλό και βασικό παράδειγμα ενός βαθύ νευρωνικού δικτύου είναι ένα νευρικό δίκτυο τροφοδοσίας. Παρακάτω είναι μια εικόνα ενός απλού νευρικού δικτύου τροφοδοσίας. Αποτελείται από τα επίπεδα εισόδου και εξόδου και τα κρυφά στρώματα.
Τα κρυμμένα επίπεδα είναι όλα τα επίπεδα μεταξύ των επιπέδων εισόδου και εξόδου. Λέμε ότι ένα νευρικό δίκτυο είναι βαθύ εάν έχει περισσότερα από ένα κρυμμένα επίπεδα. Κάθε στρώμα αποτελείται από διάφορους αριθμούς νευρώνων. Τα επίπεδα σε αυτό το βασικό νευρικό δίκτυο τροφοδοσίας ονομάζονται γραμμικά στρώματα - οι νευρώνες στο γραμμικό στρώμα πολλαπλασιάζουν μόνο τιμές 1-D (ή 2-D εάν τα δεδομένα αποστέλλονται μέσω του δικτύου σε παρτίδες) εισόδους με κατάλληλο βάρος, αθροίζουν τα προϊόντα μαζί και δώστε το τελικό αποτέλεσμα ως έξοδο 1-D ή 2-D.
Η λειτουργία ενεργοποίησης εφαρμόζεται συνήθως σε τροφοδοτικά δίκτυα για την εισαγωγή μη γραμμικότητας, έτσι ώστε το δίκτυο να μπορεί να διαμορφώσει πιο περίπλοκα, μη γραμμικά προβλήματα. Στα δίκτυα τροφοδοσίας, τα δεδομένα ρέουν από το επίπεδο εισόδου στο επίπεδο εξόδου χωρίς να επιστρέφουν. Οι συνδέσεις μεταξύ των νευρώνων σταθμίζονται. Τα βάρη πρέπει να ρυθμιστούν έτσι ώστε το νευρικό δίκτυο να επιστρέφει τις σωστές εξόδους για τις δεδομένες εισόδους. Το δίκτυο feedforward χαρτογραφεί δεδομένα από το χώρο εισόδου στο χώρο εξόδου. Τα κρυφά στρώματα εξάγουν σημαντικά και πιο αφηρημένα χαρακτηριστικά από τα χαρακτηριστικά του προηγούμενου επιπέδου.
Ο γενικός αγωγός βαθιάς μάθησης είναι ο ίδιος με τον αγωγό μηχανικής μάθησης και αποτελείται από τα ακόλουθα βήματα:
Η εκπαίδευση του νευρικού δικτύου σημαίνει στην πραγματικότητα την προσαρμογή των βαρών μεταξύ των ζευγών των νευρώνων ελαχιστοποιώντας τη λειτουργία απώλειας χρησιμοποιώντας έναν αλγόριθμο backpropagation σε συνδυασμό με τη στοχαστική κάθοδο κλίσης. Εκτός από τα βάρη που καθορίζονται μέσω της μαθησιακής διαδικασίας, οι αλγόριθμοι βαθιάς μάθησης συνήθως απαιτούν τον καθορισμό των υπερπαραμέτρων - παραμέτρων που δεν μαθαίνονται αλλά καθορίζονται πριν από τη μάθηση. Υπερπαραμέτρους είναι ο αριθμός των στρωμάτων, ο αριθμός των νευρώνων σε στρώματα, οι τύποι στρωμάτων, οι τύποι των νευρώνων και η αρχικοποίηση του βάρους.
Υπάρχουν περιορισμοί υλικού στη ρύθμιση των υπερπαραμέτρων. Προς το παρόν δεν είναι φυσικώς δυνατό να τοποθετήσετε ένα τρισεκατομμύριο νευρώνες σε μία μόνο GPU. Το δεύτερο πρόβλημα για την εξαντλητική αναζήτηση υπερπαραμέτρων είναι η συνδυαστική έκρηξη. Δεν είναι δυνατή η αναζήτηση όλων των πιθανών συνδυασμών υπερπαραμέτρων επειδή θα χρειαζόταν άπειρος χρόνος. Εξαιτίας αυτού, οι υπερπαραμέτρους ρυθμίζονται τυχαία ή χρησιμοποιούν κάποια ευρετικά και γνωστά παραδείγματα που περιγράφονται σε επιστημονικές εργασίες - ένα από τα υπερπαραμέτρα που χρησιμοποιούνται για την ανάλυση οικονομικών δεδομένων που παρουσιάζονται αργότερα σε αυτήν την ανάρτηση ιστολογίου είναι η χρήση επαναλαμβανόμενων νευρώνων, ως επιστήμονες και μηχανικοί έχουν αποδείξει ότι λειτουργούν καλά με δεδομένα χρονοσειρών. Συνήθως, ο καλύτερος τρόπος για να δείτε εάν οι υπερπαραμέτρους για ένα συγκεκριμένο πρόβλημα είναι καλές ή όχι είναι μέσω πειραμάτων.
Το σημείο της εκπαίδευσης είναι να ταιριάζουν τα νευρικά δίκτυα με τα δεδομένα εκπαίδευσης. Τόσο η επικύρωση του μοντέλου, η οποία γίνεται μετά από κάθε βήμα προπόνησης, όσο και η δοκιμή μοντέλου, η οποία γίνεται μετά από ολόκληρη την εκπαιδευτική διαδικασία, γίνεται για να διαπιστωθεί εάν το μοντέλο μπορεί να γενικευτεί καλά. Η γενίκευση σημαίνει ότι το νευρωνικό δίκτυο μπορεί να κάνει καλές προβλέψεις για νέα, αόρατα δεδομένα.
Υπάρχουν δύο σημαντικοί όροι που σχετίζονται με την επιλογή μοντέλου: υπερβολική τοποθέτηση και ανεπαρκής . Εάν ένα νευρωνικό δίκτυο είναι πολύ περίπλοκο ως προς τα δεδομένα που εκπαιδεύεται - εάν έχει πάρα πολλές παραμέτρους (πάρα πολλά επίπεδα και / ή πάρα πολλούς νευρώνες σε στρώματα) - το νευρικό δίκτυο μπορεί να υπερβάλλει τα δεδομένα. Μπορεί να προσαρμοστεί καλά στα δεδομένα εκπαίδευσης, διότι έχει αρκετή χωρητικότητα για να χωρέσει όλα τα δεδομένα, αλλά τότε η απόδοση στην επικύρωση και τα σετ δοκιμών είναι κακή.
Εάν το νευρικό δίκτυο είναι πολύ απλό όσον αφορά τα δεδομένα στα οποία εκπαιδεύεται, το νευρικό δίκτυο μπορεί να υποβαθμίσει τα δεδομένα. Σε αυτήν την περίπτωση, το νευρικό δίκτυο έχει κακή απόδοση στην εκπαίδευση, την επικύρωση και τα σετ δοκιμών, επειδή η χωρητικότητά του δεν είναι αρκετά καλή για να χωρέσει τα δεδομένα εκπαίδευσης και να γενικεύσει. Στην παρακάτω εικόνα, αυτοί οι όροι εξηγούνται γραφικά. Η μπλε γραμμή αντιπροσωπεύει αυτό που διαμορφώνεται από το νευρωνικό δίκτυο. Η πρώτη εικόνα δείχνει την κατάσταση όταν υπάρχουν λίγες παράμετροι νευρικού δικτύου, που δεν επαρκούν για να χωρέσουν τα δεδομένα εκπαίδευσης και να γενικευτούν. Η δεύτερη εικόνα δείχνει την κατάσταση όταν υπάρχει ο βέλτιστος αριθμός παραμέτρων και το νευρωνικό δίκτυο μπορεί να γενικευτεί καλά σε αόρατα δεδομένα και η τρίτη εικόνα δείχνει την κατάσταση όταν ο αριθμός των παραμέτρων ενός νευρικού δικτύου είναι πολύ μεγάλος και το νευρικό δίκτυο μπορεί τέλεια ταιριάζει σε όλα τα δεδομένα από το σετ εκπαίδευσης, αλλά έχει χαμηλή απόδοση στην επικύρωση και τα σετ δοκιμών.
Μια πιο περίπλοκη έκδοση ενός νευρικού δικτύου είναι ένα επαναλαμβανόμενο νευρωνικό δίκτυο. Σε επαναλαμβανόμενα νευρωνικά δίκτυα, τα δεδομένα μπορούν να ρέουν προς οποιαδήποτε κατεύθυνση, σε αντίθεση με τα τροφοδοτικά νευρικά δίκτυα. Μπορούν να μάθουν καλά τις εξαρτήσεις χρονοσειρών. Η αρχιτεκτονική ενός γενικού επαναλαμβανόμενου νευρικού δικτύου φαίνεται στην παρακάτω εικόνα.
c Corporation και s εταιρικές διαφορές
Στην παρακάτω εικόνα εμφανίζεται ένας επαναλαμβανόμενος νευρώνας. Χρειάζεται X_{t}
, σημείο χρόνου t
, ως είσοδος και επιστρέφει h_{t}
, κρυφή κατάσταση στο χρόνο t
, ως έξοδος. Η κρυφή έξοδος διαδίδεται πίσω στον νευρώνα. Ο επαναλαμβανόμενος νευρώνας μπορεί να ξετυλιχθεί, όπως φαίνεται στην ίδια εικόνα από τη δεξιά πλευρά. X_{t_0}
είναι χρονική περίοδος t_{0}
, X_{t_1}
σε χρονική περίοδο t_{1}
, και X_{t}
σε χρονική περίοδο t
. Έξοδοι που λαμβάνονται χρησιμοποιώντας εισόδους X_{t_0}
, X_{t_1}
,…, X_{t_n}
σε χρονικές περιόδους t_{0}
, t_{1}
,…, t_{n}
είναι οι λεγόμενες κρυφές έξοδοι: h_{t_0}
, h_{t_1}
,…, h_{t_n}
, αντίστοιχα.
Μία από τις καλύτερες επαναλαμβανόμενες αρχιτεκτονικές νευρωνικών δικτύων είναι η αρχιτεκτονική LSTM. Το LSTM εμφανίζεται παρακάτω:
Τα LSTM έχουν την ίδια γενική δομή με τα γενικά επαναλαμβανόμενα νευρωνικά δίκτυα, αλλά ο υποτροπιάζων νευρώνας είναι λίγο διαφορετικός με μια πιο περίπλοκη δομή. Από την παραπάνω εικόνα φαίνεται ότι γίνεται πολύς υπολογισμός μέσα σε ένα κελί LSTM. Τα κελιά LSTM μπορούν να παρατηρηθούν ως μαύρο κουτί στο πλαίσιο αυτής της ανάρτησης, αλλά για πιο περίεργους αναγνώστες, αυτό είναι υπέροχο ανάρτηση εξηγεί υπολογισμούς μέσα σε LSTM και πολλά άλλα.
Ας καλέσουμε την είσοδο για το νευρωνικό δίκτυο ως 'διανυσματικό χαρακτηριστικό'. Είναι ένας διαστατικός φορέας n
διαστάσεων του οποίου τα στοιχεία είναι χαρακτηριστικά: f_{0}
, f_{1}
, f_{2}
…, f_{n}
.
vv{X} = [f_{0}, f_{1}, f_{2}, …, f_{n}]
Τώρα, ας εξηγήσουμε πώς μπορούν να εφαρμοστούν επαναλαμβανόμενα νευρωνικά δίκτυα σε μια εργασία που σχετίζεται με τη χρηματοδότηση. Η είσοδος για το επαναλαμβανόμενο νευρωνικό δίκτυο είναι [X_{t_0}, X_{t_1}, X_{t_2}, …, X_{t_n}]
. Ας πούμε ότι n = 5
. Παίρνουμε πέντε τιμές μετοχών Google Close από πέντε συνεχόμενες ημέρες (δείτε τον πίνακα με τα δεδομένα Open / High / Low / Close παραπάνω) μεταξύ, ας πούμε, 2010-01-04 και 2010-01-08, δηλαδή, [[311.35], [309.98], [302.16], [295.13], [299.06]]
. Το διάνυσμα χαρακτηριστικών σε αυτό το παράδειγμα είναι μονοδιάστατο. Η χρονική ακολουθία αποτελείται από πέντε τέτοια διανύσματα χαρακτηριστικών. Οι έξοδοι του επαναλαμβανόμενου νευρικού δικτύου είναι κρυφές δυνατότητες [h_{t_0}, h_{t_1}, h_{t_2}, …, h_{t_n}]
. Αυτές οι δυνατότητες βρίσκονται σε πιο αφηρημένο επίπεδο από τις δυνατότητες εισαγωγής [X_{t_0}, X_{t_1}, X_{t_2}, …, X_{t_n}]
- Το LSTM θα πρέπει να μάθει τα σημαντικά μέρη των δυνατοτήτων εισαγωγής και να τα προβάλλει στον κρυφό χώρο των δυνατοτήτων. Αυτά τα κρυμμένα, αφηρημένα χαρακτηριστικά μπορούν να μεταδοθούν στο επόμενο κελί LSTM, το οποίο θα δώσει το επόμενο σύνολο κρυφών, πιο αφηρημένων λειτουργιών που μπορούν στη συνέχεια να μεταδοθούν ξανά στο επόμενο LSTM, και ούτω καθεξής. Μετά την ακολουθία των αλυσοδεμένων LSTM, το τελικό συστατικό του νευρικού δικτύου είναι το γραμμικό στρώμα (το δομικό μέρος του απλού δικτύου τροφοδοσίας που εξηγείται στην προηγούμενη ενότητα) που χαρτογραφεί κρυμμένα χαρακτηριστικά από το τελευταίο LSTM έως το σημείο σε μονοδιάστατο χώρο και αυτό το σημείο είναι η τελική έξοδος του δικτύου - η προβλεπόμενη τιμή κλεισίματος στο χρονικό διάστημα X_{t+1}
. Η βασική αλήθεια σε αυτό το παράδειγμα για X_{t+1}
είναι 298.61
.
Σημείωση: Μπορεί επίσης να υπάρχουν λιγότερα από ένα LSTM - ο καθορισμός του αριθμού των LSTM είναι ένα υπερπαραμέτρο, το οποίο βρίσκεται γενικά εμπειρικά, αν και μπορούμε να χρησιμοποιήσουμε κάποια ευρετική. Εάν τα δεδομένα δεν είναι τόσο περίπλοκα, χρησιμοποιούμε λιγότερο περίπλοκη αρχιτεκτονική, έτσι ώστε το μοντέλο να μην υπερκαλύπτει τα δεδομένα. Εάν τα δεδομένα είναι πολύπλοκα, χρησιμοποιούμε ένα πολύπλοκο μοντέλο, έτσι ώστε το μοντέλο να μην υποκαθιστά τα δεδομένα.
Στη φάση της κατάρτισης, οι προβλεπόμενες τιμές κλεισίματος συγκρίνονται με τις τιμές της αλήθειας εδάφους και η διαφορά μεταξύ των προβλεπόμενων τιμών κλεισίματος και των τιμών της αλήθειας εδάφους ελαχιστοποιείται χρησιμοποιώντας έναν αλγόριθμο backpropagation και έναν αλγόριθμο βελτιστοποίησης καθόδου κλίσης (ή μία από τις μορφές του - συγκεκριμένα, σε αυτό) blog, χρησιμοποιείται η λεγόμενη έκδοση 'Adam' ενός αλγορίθμου βελτιστοποίησης διαβάθμισης κλίσης) αλλάζοντας τα βάρη του νευρικού δικτύου.
Μετά την εκπαίδευση και τις δοκιμές, στο μέλλον, ο χρήστης πρέπει απλώς να δώσει δεδομένα εισόδου στο νευρωνικό δίκτυο και θα επιστρέψει την προβλεπόμενη τιμή (και ελπίζουμε, μια τιμή πολύ κοντά στην τιμή της αλήθειας εδάφους από το μέλλον).
Ένα ακόμη πράγμα που πρέπει να αναφέρουμε εδώ είναι ότι, συνήθως, αποστέλλονται παρτίδες δεδομένων μέσω του δικτύου, τόσο κατά την εκπαίδευση σε φάσεις δοκιμών, ώστε το δίκτυο να υπολογίζει πολλαπλές εξόδους σε ένα μόνο πέρασμα.
Ακολουθεί μια εικόνα μιας αρχιτεκτονικής που χρησιμοποιείται σε αυτό το ιστολόγιο για πειράματα. Αποτελείται από δύο στοιβαγμένα LSTM και ένα γραμμικό στρώμα.
Δοκιμάστε να χρησιμοποιήσετε αλγοριθμικές στρατηγικές συναλλαγών που είναι απλές, ως εξής: Εάν ο αλγόριθμος προβλέπει ότι η τιμή θα αυξηθεί την επόμενη μέρα, τότε αγοράστε n
(n = 1
σε αυτό το παράδειγμα) μετοχές μιας εταιρείας (μακρά), διαφορετικά πωλούν όλες τις μετοχές μιας εταιρείας (σύντομη). Η αρχική αξία του χαρτοφυλακίου (η αξία των μετρητών και των μετοχών σε συνδυασμό) ορίζεται σε 100.000 $. Κάθε μακρά ή σύντομη δράση θα αγοράζει n
μετοχές μιας εταιρείας (Google, σε αυτό το παράδειγμα) ή πωλούν όλες τις μετοχές μιας εταιρείας, αντίστοιχα. Στην αρχή, το σύστημα διαθέτει 0 μετοχές μιας δεδομένης εταιρείας.
Να θυμάστε πάντα ότι αυτό είναι ένα πολύ βασικό και απλό παράδειγμα, που δεν προορίζεται για χρήση στον πραγματικό κόσμο, καθώς θα χρειαζόταν πολύ περισσότερη εργασία Ε & Α για να τροποποιήσετε το μοντέλο για να λειτουργεί καλά στην πράξη. Κάποια πράγματα παραμελούνται εδώ που πρέπει να ληφθούν υπόψη σε πραγματικό σενάριο. Για παράδειγμα, τα τέλη συναλλαγής δεν ενσωματώνονται στο μοντέλο. Υποτίθεται ότι το σύστημα μπορεί να κάνει συναλλαγές ακριβώς την ίδια ώρα κάθε μέρα, και θεωρείται ότι κάθε μέρα, ακόμη και σε ένα σαββατοκύριακο ή αργία, είναι μια ημέρα διαπραγμάτευσης.
Για τη δοκιμή, χρησιμοποιείται μια μέθοδος δοκιμής. Η μέθοδος backtesting χρησιμοποιεί ιστορικά δεδομένα για την ανακατασκευή συναλλαγών που θα είχαν συμβεί στο παρελθόν χρησιμοποιώντας τους κανόνες που ορίζονται με τη στρατηγική που έχει αναπτυχθεί. Το σύνολο δεδομένων χωρίζεται σε δύο μέρη - το πρώτο μέρος είναι το σετ προπόνησης (παρελθόν) και το δεύτερο μέρος είναι το σετ δοκιμών (μέλλον). Το μοντέλο έχει εκπαιδευτεί σε ένα σετ κατάρτισης και, μετά την προπόνηση, προσομοιώνουμε το μέλλον στο δεύτερο μέρος του συνόλου δεδομένων για να δούμε πώς θα είχε συμπεριφερθεί στο μέλλον το εκπαιδευμένο μοντέλο χωρίς να εκπαιδευτεί σε αυτό.
Η μέτρηση για την αξιολόγηση της στρατηγικής διαπραγμάτευσης είναι ο λόγος Sharpe (η ετήσια έκδοσή του, υποθέτοντας ότι όλες οι ημέρες σε ένα έτος είναι ημέρες διαπραγμάτευσης και το έτος έχει 365 ημέρες: sqrt(365)*mean(returns)/std(returns))
, όπου η απόδοση ορίζεται ως p_{t}/p_{t-1} - 1
, και p_{t}
είναι η τιμή σε χρονική περίοδο t
. Ο λόγος Sharpe δείχνει τη σχέση μεταξύ των αποδόσεων και του πρόσθετου κινδύνου που προκύπτει, επομένως είναι καλό να έχουμε μεγαλύτερη αναλογία Sharpe. Συνήθως, Η αναλογία μεγαλύτερη από 1 είναι αποδεκτή από τους επενδυτές, το 2 είναι πολύ καλό και το 3 είναι εξαιρετικό.
Μόνο η τιμή κλεισίματος κάθε μέρα, των ιστορικών τιμών της Google από το σύνολο δεδομένων Yahoo Finance, χρησιμοποιείται ως δυνατότητα. Θα βοηθήσουν περισσότερες λειτουργίες, αλλά είναι εκτός πεδίου εφαρμογής αυτού του ιστολογίου για να ελέγξετε ποιες άλλες δυνατότητες από το σύνολο δεδομένων (Open, High, Low) είναι σημαντικές. Ορισμένες άλλες δυνατότητες που δεν περιλαμβάνονται στον πίνακα θα μπορούσαν επίσης να είναι χρήσιμες - για παράδειγμα, το συναίσθημα των ειδήσεων σε ένα συγκεκριμένο λεπτό ή σημαντικά συμβάντα σε μια συγκεκριμένη ημέρα. Ωστόσο, μερικές φορές είναι πολύ δύσκολο να κάνετε αναπαραστάσεις δεδομένων που είναι χρήσιμες για την είσοδο νευρωνικού δικτύου και να τις συνδυάσετε με υπάρχουσες δυνατότητες. Για παράδειγμα, είναι εύκολο να επεκτείνετε το διάνυσμα δυνατοτήτων και να βάλετε έναν αριθμό που αντιπροσωπεύει το συναίσθημα των ειδήσεων ή το αίσθημα tweet του Trump (-1
πολύ αρνητικό, 0
ουδέτερο, +1
πολύ θετικό κ.λπ.) για κάθε δεδομένη χρονική περίοδο, αλλά δεν είναι τόσο εύκολο να τοποθετήσετε συγκεκριμένες στιγμές που βασίζονται σε γεγονότα (πειρατές στο κανάλι του Σουέζ, βόμβα σε διυλιστήριο στο Τέξας) στο φορέα χαρακτηριστικών επειδή, για κάθε συγκεκριμένη στιγμή, θα πρέπει να έχουμε πρόσθετο στοιχείο στο διάνυσμα χαρακτηριστικών για να βάλετε 1
εάν το συμβάν συνέβη ή 0
Διαφορετικά, κάτι που θα οδηγήσει σε άπειρο αριθμό στοιχείων για όλες τις πιθανές στιγμές.
Για αυτά τα πιο δύσκολα δεδομένα, θα μπορούσαμε να ορίσουμε ορισμένες κατηγορίες και, για κάθε στιγμή, να προσδιορίσουμε σε ποια κατηγορία ανήκει. Θα μπορούσαμε επίσης να προσθέσουμε λειτουργίες από μετοχές άλλων εταιρειών για ένα σύστημα για να μάθουμε τη σχέση μεταξύ των τιμών μετοχών διαφορετικών εταιρειών. Επίσης, υπάρχει ένας τύπος νευρωνικού δικτύου που εξειδικεύεται για την όραση του υπολογιστή - συνελικτικά νευρικά δίκτυα - το οποίο θα ήταν ενδιαφέρον να συνδυαστεί με επαναλαμβανόμενα επίπεδα και να δει πώς τα οπτικά χαρακτηριστικά συσχετίζονται με τις τιμές ορισμένων εταιρειών. Ίσως θα μπορούσαμε να χρησιμοποιήσουμε τη ροή της κάμερας από έναν γεμάτο σιδηροδρομικό σταθμό ως χαρακτηριστικό και να συνδέσουμε αυτήν τη ροή σε ένα νευρωνικό δίκτυο και να δούμε αν αυτό που βλέπει το νευρωνικό δίκτυο συσχετίζεται με τις τιμές μετοχών ορισμένων εταιρειών - θα μπορούσε να υπάρξει κάποια κρυφή γνώση ακόμη και παράνομο και παράλογο παράδειγμα.
Ακολουθεί ένα γράφημα που δείχνει πώς η μέση απώλεια εκπαίδευσης μειώνεται με την πάροδο του χρόνου, πράγμα που σημαίνει ότι το νευρωνικό δίκτυο έχει αρκετή χωρητικότητα για να ταιριάζει στα δεδομένα της εκπαίδευσης. Είναι σημαντικό να πούμε ότι τα δεδομένα πρέπει να ομαλοποιηθούν ώστε ο αλγόριθμος βαθιάς μάθησης να συγκλίνει.
Ακολουθεί ένα γράφημα που δείχνει πώς η μέση απώλεια δοκιμής μειώνεται με την πάροδο του χρόνου, πράγμα που σημαίνει ότι το νευρωνικό δίκτυο έχει τη δυνατότητα να γενικεύει σε αόρατα δεδομένα.
Ο αλγόριθμος είναι άπληστος. αν προέβλεπε ότι η τιμή θα αυξηθεί την επόμενη μέρα, τότε ο αλγόριθμος αγοράζει αμέσως n=1
μερίδιο μιας εταιρείας (εάν υπάρχουν αρκετά μετρητά στο χαρτοφυλάκιο), και διαφορετικά, πωλεί όλες τις μετοχές της εταιρείας (εάν έχει). Η περίοδος επένδυσης είναι σταθερή και διαρκεί 300 ημέρες. Μετά από 300 ημέρες, όλες οι μετοχές πωλούνται. Η προσομοίωση σε αόρατα δεδομένα, μετά από κάποια εκπαίδευση, φαίνεται παρακάτω. Εμφανίζεται πώς αυξάνεται η αξία του χαρτοφυλακίου με την πάροδο του χρόνου με μεγάλες / σύντομες (ή να μην κάνουν τίποτα) ενέργειες κάθε μέρα.
Ο λόγος Sharpe για την παραπάνω προσομοίωση είναι 1,48. Η τελική αξία χαρτοφυλακίου μετά από 300 ημέρες είναι 100.263,79 $. Εάν αγοράσαμε μετοχές την πρώτη ημέρα και τις πουλήσαμε μετά από 300 ημέρες, το χαρτοφυλάκιο θα αξίζει 99.988,41 $.
Παρακάτω εμφανίζεται μια κατάσταση όπου το νευρικό δίκτυο δεν έχει εκπαιδευτεί καλά και χάνει χρήματα μετά από μια καθορισμένη περίοδο 300 ημερών.
Η αναλογία Sharpe είναι -0,94. Η τελική αξία χαρτοφυλακίου μετά από 300 ημέρες είναι 99.868,36 $.
Εδώ είναι ένα ενδιαφέρον παράδειγμα - ο παραπάνω αλγόριθμος είναι άπληστος και απλώς προβλέπει την τιμή για την επόμενη μέρα, αναλαμβάνοντας δράση μόνο βάσει αυτής της πρόβλεψης. Είναι δυνατόν να αλυσοδέσουμε πολλές προβλέψεις και να προβλέψουμε την τιμή στα επόμενα βήματα στο μέλλον. Για παράδειγμα, με μια πρώτη είσοδο του [X_ground_truth_{t0}, X_ground_truth_{t1}, X_ground_truth_{t2}, X_ground_truth_{t3}, X_ground_truth_{t4}]
και η πρώτη έξοδος είναι [X_predicted_{t5}]
, μπορούμε να τροφοδοτήσουμε το νευρωνικό δίκτυο με αυτήν την πρόβλεψη έτσι ώστε η επόμενη είσοδος να είναι [X_ground_truth_{t1}, X_ground_truth_{t2}, X_ground_truth_{t3}, X_ground_truth_{t4}, X_predicted_{t5}]
και η έξοδος είναι [X_predicted_{t6}]
. Η επόμενη είσοδος από εκεί είναι [X_ground_truth_{t2}, X_ground_truth_{t3}, X_ground_truth_{t4}, X_predicted_{t5}, X_predicted_{t6}]
που έχει ως αποτέλεσμα [X_predicted_{t7}]
και ούτω καθεξής. Το πρόβλημα εδώ είναι ότι εισάγουμε ένα σφάλμα πρόβλεψης που αυξάνεται με κάθε νέο βήμα και τελικά καταλήγει με πολύ κακό μακροπρόθεσμο αποτέλεσμα, όπως φαίνεται στην παρακάτω εικόνα. Η πρόβλεψη στην αρχή ακολουθεί την τάση μείωσης της αλήθειας του εδάφους και στη συνέχεια σταματά και χειροτερεύει με την πάροδο του χρόνου.
Μια πολύ απλή ανάλυση βαθιάς μάθησης έγινε στις τιμές μετοχών της Google, αλλά μπορεί να ενσωματώσει σχεδόν οποιοδήποτε σύνολο οικονομικών δεδομένων, υπό την προϋπόθεση ότι η ποσότητα των δεδομένων είναι αρκετά μεγάλη και είναι καλής ποιότητας. Τα δεδομένα πρέπει να είναι διακριτικά και πρέπει να περιγράφουν και να αντιπροσωπεύουν το πρόβλημα καλά.
Αν λειτούργησε και γενικεύτηκε καλά σε εκτεταμένες δοκιμές, αυτό το σύστημα θα μπορούσε να επιτρέψει στους διαχειριστές hedge fund να κάνουν εικασίες σχετικά με τις μελλοντικές τιμές των μετοχών μιας εταιρείας χρησιμοποιώντας βαθιά μάθηση και βασίζονται σε αλγοριθμικές στρατηγικές συναλλαγών.
Οι διαχειριστές αμοιβαίων κεφαλαίων κινδύνου θα μπορούσαν να δώσουν στο σύστημα ένα χρηματικό ποσό για αυτόματη συναλλαγή κάθε μέρα. Ωστόσο, θα ήταν πολύ κακό να αφήσουμε τους αυτοματοποιημένους αλγόριθμους συναλλαγών να πραγματοποιούν συναλλαγές χωρίς καμία επίβλεψη. Ο διαχειριστής hedge fund θα πρέπει να έχει κάποιες βαθιές δεξιότητες μάθησης ή να απασχολεί κάποιον με τις απαραίτητες δεξιότητες για να επιβλέπει το σύστημα και να καθορίζει πότε το σύστημα έχει χάσει την ικανότητα να γενικεύει και να εμπορεύεται καλά.
Εάν το σύστημα έχασε την ικανότητα γενίκευσης, τότε θα ήταν απαραίτητο να το επανεκπαιδεύσουμε από την αρχή και να το δοκιμάσουμε ξανά (ίσως εισάγοντας πιο διακριτικά χαρακτηριστικά ή νέες γνώσεις - χρησιμοποιώντας νέα δεδομένα από το παρελθόν που δεν υπήρχαν όταν το μοντέλο ήταν πρώτα εκπαιδευμένος).
πιο δημοφιλείς εφαρμογές γνωριμιών 2017
Μερικές φορές, τα δεδομένα απλά δεν είναι αρκετά καλά για να εκπαιδευτεί και να γενικευτεί καλά το σύστημα βαθιάς μάθησης και, στην περίπτωση αυτή, ένα έμπειρος μηχανικός βαθιάς μάθησης πρέπει να είναι σε θέση να εντοπίζει και να διορθώνει μια τέτοια κατάσταση. Για να δημιουργήσετε ένα σύστημα εμπορίας βαθιάς μάθησης, χρειάζεστε επιστήμονες δεδομένων hedge fund, μηχανικούς μάθησης / εμπειρογνώμονες βαθιάς μάθησης (τόσο επιστήμονες όσο και μηχανικούς), μηχανικούς Ε & Α που είναι εξοικειωμένοι με τη μηχανική μάθηση / βαθιά μάθηση κ.λπ. είναι εξοικειωμένοι, είτε πρόκειται για αναγνώριση οράματος είτε για αναγνώριση ομιλίας, οι έμπειροι επαγγελματίες θα είναι σε θέση να αξιοποιήσουν την εμπειρία τους σε καλή χρήση στον χρηματοοικονομικό τομέα. Στη ρίζα της, η βαθιά μάθηση έχει τα ίδια βασικά, ανεξάρτητα από την εφαρμογή ή τη βιομηχανία, και θα πρέπει να είναι εύκολο για κάποιον που έχει εμπειρία να αλλάξει από θέμα σε θέμα.
Το σύστημα που παρουσιάσαμε είναι πολύ βασικό και, για να εφαρμοστεί στον πραγματικό κόσμο, πρέπει να γίνει περισσότερη Ε & Α προκειμένου να αυξηθούν οι αποδόσεις. Πιθανές βελτιώσεις του συστήματος θα μπορούσαν να είναι στην ανάπτυξη καλύτερων στρατηγικών συναλλαγών. Η συλλογή περισσότερων δεδομένων για εκπαίδευση, η οποία συνήθως είναι πολύ ακριβή, θα βοηθήσει. Ένα μικρότερο χρονικό διάστημα μεταξύ των σημείων είναι καλύτερο. Οι βελτιώσεις μπορούν επίσης να εμφανιστούν στη χρήση περισσότερων δυνατοτήτων (π.χ. συναισθήματα ειδήσεων ή σημαντικά συμβάντα που αντιστοιχούν σε κάθε σημείο του συνόλου δεδομένων, παρά το ότι είναι δύσκολο να κωδικοποιηθεί για ένα νευρικό δίκτυο) και εκτεταμένη αναζήτηση πλέγματος για υπερπαραμέτρους και ανακάλυψη αρχιτεκτονικής RNN.
Επίσης, απαιτείται περισσότερη υπολογιστική ισχύς (τα ισχυρά GPUs) για την παράλληλη διεξαγωγή πολλών εκτεταμένων πειραμάτων και την επεξεργασία μεγάλου όγκου δεδομένων, υπό την προϋπόθεση ότι συλλέγεται μεγάλη ποσότητα δεδομένων.
Βιβλιογραφικές αναφορές:
Σημείωση συγγραφέα: Θα ήθελα να ευχαριστήσω τους Ivan Čapalija και Matej Paradžik για τις εποικοδομητικές συζητήσεις και συμβουλές σχετικά με τη βαθιά μάθηση στα χρηματοοικονομικά, που με βοήθησαν να γράψω αυτό το blog.
Τα hedge funds συγκεντρώνουν κεφάλαια από τους επενδυτές τους και τα τοποθετούν σε βραχυπρόθεσμες και μακροπρόθεσμες επενδύσεις ή σε διαφορετικά χρηματοοικονομικά προϊόντα για να μεγιστοποιήσουν το κέρδος. Τα αμοιβαία κεφάλαια κινδύνου βασίζονται σε διάφορους τύπους επενδυτικών στρατηγικών, προσπαθώντας να κερδίσουν χρήματα εκμεταλλευόμενοι τις ανεπάρκειες της αγοράς.
Η αλγοριθμική διαπραγμάτευση είναι μια μέθοδος χρήσης υπολογιστών για την αυτόματη πραγματοποίηση κερδών χρησιμοποιώντας τους κανόνες που συνάγονται από μοντέλα μηχανικής εκμάθησης ή χειρόγραφους κανόνες.
Η βαθιά μάθηση είναι ένα μέρος της μηχανικής μάθησης που μαθαίνει αναπαραστάσεις δεδομένων. Η χρηματοδότηση είναι διαχείριση χρημάτων. Η βαθιά μάθηση στη χρηματοδότηση είναι η εφαρμογή τεχνολογιών βαθιάς μάθησης στον χρηματοοικονομικό τομέα.