Eine Einführung in Dimensionalitätsreduktion und Clustering – Unsupervised Machine Learning (UML)
Viele Beiträge zum Machine Learning beschäftigen sich mit dem Supervised Machine Learning (SML). In diesem Beitrag werden wir einen Blick auf das Unsupervised Machine Learning werfen, das ein weitaus anspruchsvolleres Gebiet des Machine Learning ist und beim Algotrading immer essentieller wird.
Beim Supervised Learning wird eine Reihe von Datenbeobachtungen verwendet, von denen jede einen Merkmals- oder Prädiktorenvektor sowie eine zugehörige Ausgabe oder Reaktion enthält. Das Ziel des Supervised ML ist der Versuch, die Ausgabe/Reaktion aus den zugehörigen Merkmalen/Prädiktoren vorherzusagen. Es ist deshalb "überwacht", weil der Algorithmus in der Trainings- oder Überwachungsphase des Lernprozesses Zugang zur "Grundwahrheit" hat, d.h. zu bekannten Reaktionen auf bestimmte Eingaben (In- oder Output). Der Algorithmus nutzt diese, um seine Modellparameter so anzupassen, dass er bei neuen Merkmalen versuchen kann, eine Schätzung der Reaktion vorzunehmen.
Beim Unsupervised Learning haben wir immer noch Zugang zu den Merkmalen, aber wir haben keine zugehörige Antwort. Stattdessen sind wir nur an den Eigenschaften der Merkmale selbst interessiert. Hierbei ist interessant, ob die Merkmale bestimmte Cluster oder Untergruppen im Merkmalsraum bilden. Dazu könnte auch gehören, ob wir in der Lage sind, sehr hochdimensionale Daten in einer viel niedrigeren Dimension zu beschreiben.
Unsupervised Machine Learning ist oft dadurch motiviert, dass es zeitlich und/oder finanziell unerschwinglich sein kann, Merkmalsdaten zu "etikettieren", um sie mit Supervised Machine Learning-Techniken zu analysieren. Ein weiterer Grund ist, dass wissenschaftliche Kapitalmarktdaten, sobald sie quantifiziert sind, eine sehr hohe Dimensionalität aufweisen. Diese hohe Dimensionalität erfordert überwachte Lernverfahren mit vielen Freiheitsgraden, was zu einer Überanpassung und damit zu einer schlechten Testleistung führen kann. Unsupervised Machine Learning bietet eine Teillösung für diese Probleme.
Leider führt das Fehlen einer "Grundwahrheit" oder "Überwachung" für Unsupervised ML-Techniken oft zu einer subjektiven Bewertung ihrer Leistung. Es gibt keine allgemein anerkannten Ansätze, um zu quantifizieren, wie gut unüberwachte Algorithmen abgeschnitten haben. Die Leistung wird weitgehend von Fall zu Fall mit heuristischen Ansätzen bestimmt. Solche "urteilsbasierten" Bewertungen mögen quantitativ geschulten Personen unwissenschaftlich erscheinen, aber Unsupervised ML-Techniken haben sich in vielen Forschungsbereichen als äußerst nützlich erwiesen.
Unüberwachte Lerntechniken werden häufig in den Bereichen Erkennung von Anomalien, Analyse von Kaufgewohnheiten, Empfehlungssysteme und bei Kapitalmarktdaten eingesetzt. Im quantitativen Finanzwesen finden sie Anwendung bei der Entrauschung von Datensätzen, dem Clustering von Portfolios und Vermögenswerten, der Erkennung von Marktregimen und der Erzeugung von Handelssignalen mit natürlicher Sprachverarbeitung.
Hochdimensionale Daten
Quantitative Finanzen und algorithmischer Handel gehen weit über die Analyse von Zeitreihen von Vermögenswerten hinaus. Der zunehmende Wettbewerb durch die wachsende Zahl quantitativer Fonds hat neue und alte Firmen dazu gezwungen, alternative Datenquellen in Betracht zu ziehen. Viele dieser Quellen sind inhomogen, nicht numerisch und bilden extrem große Datenbanken. Wenn sie quantifiziert werden, oft durch einen Prozess, der als Vektorisierung bekannt ist, sind viele dieser Daten extrem hochdimensional. Beispiele hierfür sind Satellitenbilder, hochauflösende Videos, Textkorpora und Sensordaten.
Um die extreme Dimensionalität einiger Datensätze zu verdeutlichen, betrachten Sie einen Standard-1080p-Monitor, der eine Auflösung von 1920 x 1080 = 2073600 Pixel. Wenn wir jedes dieser Pixel darauf beschränken, nur schwarz oder weiß zu sein (d. h. "aus" oder "an"), dann gibt es 22073600 potenzielle Bilder, die angezeigt werden können. Das ist eine riesige Zahl (geben Sie sie einmal in Ihr Python-Terminal ein!). Es wird noch viel schlimmer, wenn man bedenkt, dass jedes Pixel oft 224 potenzielle Farben hat (drei 8-Bit-Kanäle für Rot, Grün bzw. Blau).
Daher besteht bei der Suche in solchen Datensätzen eine erhebliche Motivation, die Dimensionalität auf ein handhabbareres Niveau zu reduzieren, indem versucht wird, niedrigere dimensionale Unterräume zu finden, die das Wesentliche des Datensignals noch erfassen. Ein Hauptproblem besteht darin, dass selbst bei einer großen Anzahl von Stichproben nicht erwartet werden kann, dass die "Trainingsdaten den Raum ausfüllen". Wenn n die Anzahl der verfügbaren Stichproben und die Dimensionalität des Raums gleich sind, dann haben wir eine Situation, in der p>>n. Im Wesentlichen gibt es große Teilmengen des Raums, über die nur sehr wenig bekannt ist. Dieses Problem wird oft als "Fluch der Dimensionalität" bezeichnet.
Ein großer Teil des Unsupervised ML befasst sich daher mit Möglichkeiten, diese Dimensionalität auf ein handhabbares Niveau zu reduzieren, aber dennoch das "Signal" in den Daten zu erhalten. Mathematisch gesehen versuchen wir, die wichtigsten Variationen in den Daten mit Hilfe einer niedrigdimensionalen Ausprägung der Dimension q < p zu beschreiben, die in den größeren, dimensionalen p-Raum eingebettet ist. Algorithmen zur Dimensionalitätsreduktion wie die lineare Hauptkomponentenanalyse (PCA) und die nichtlineare Kern-PCA wurden für diese Aufgabe entwickelt.
Algorithmen für unüberwachtes Lernen
Es gibt zwei Hauptbereiche des unüberwachten Lernens, die für uns in der quantitativen Finanzwelt von Interesse sind: Dimensionalitätsreduktion und Clustering.
Reduzierung der Dimensionalität
Wir haben oben die Notwendigkeit der Dimensionalitätsreduktion begründet. Der gängigste Mechanismus beim Unsupervised ML, um dies zu erreichen, ist die (lineare) Hauptkomponentenanalyse (PCA).
Beim maschinellen Lernen und bei quantitativen Finanzproblemen haben wir oft einen großen Satz korrelierter Variablen in einem hochdimensionalen Raum. Die PCA ermöglicht es uns, diese Datensätze unter Verwendung einer reduzierten Anzahl von Dimensionen zusammenzufassen. Dies wird durch eine orthogonale Koordinatentransformation des ursprünglichen Raums erreicht, wobei eine neue Gruppe linear unkorrelierter Variablen gebildet wird, die als Hauptkomponenten bezeichnet werden.
Die Hauptkomponenten werden als Eigenvektoren der Kovarianzmatrix der Daten ermittelt. Jede Hauptkomponente ist (konstruktionsbedingt) orthogonal zu jeder anderen und erklärt sukzessive weniger von der Variabilität des Datensatzes. In der Regel sind die ersten paar Hauptkomponenten in der Lage, einen großen Teil der Variabilität des ursprünglichen Datensatzes zu erklären, was zu einer sehr viel weniger dimensionalen Darstellung in diesem neuen Raum führt.
Man kann sich die PCA auch so vorstellen, dass sie eine Veränderung der Basis darstellt. Die Transformation erzeugt einen Satz von Basisvektoren, von denen eine Teilmenge in der Lage ist, einen linearen Unterraum innerhalb des ursprünglichen Raums aufzuspannen, der der Datengruppierung genau entspricht.
Allerdings lassen sich nicht alle Daten problemlos in einem linearen Unterraum zusammenfassen. Bei Klassifizierungsproblemen gibt es zum Beispiel viele Datenquellen, die nicht linear trennbar sind. In diesem Fall ist es möglich, den "Kernel-Trick" anzuwenden, um einen Raum in einem viel höherdimensionalen Raum linear zu trennen und somit eine PCA in dem transformierten Raum durchzuführen. Auf diese Weise kann die PCA auf nichtlineare Datensätze angewendet werden.
Im quantitativen Finanzwesen wird die PCA häufig für die Faktorenanalyse verwendet. Ein Beispiel wäre die Betrachtung einer großen Anzahl korrelierter Aktien und der Versuch, deren Dimensionalität durch die Betrachtung einer kleineren Menge unbeobachteter und unkorrelierter latenter Variablen zu reduzieren.
Clustering
Eine weitere wichtige Unsupervised ML-Technik ist die Clusteranalyse. Ihr Ziel ist es, den Elementen eines Merkmalsraums ein Cluster-Label zuzuweisen, um sie in Gruppen oder Cluster zu unterteilen. In bestimmten Fällen kann dies eindeutig erreicht werden, wenn die Untergruppen innerhalb des Merkmalsraums klar abgegrenzt und leicht zu trennen sind. In anderen Fällen können sich die Cluster "überlappen", so dass es schwierig ist, eine Unterscheidungsgrenze zu bilden.
Der standardisierte Algorithmus für die Clusteranalyse ist das K-Means-Clustering. Die Grundidee des Verfahrens besteht darin, alle n Elemente eines Merkmalsraums in separate K, sich nicht überschneidende Cluster einzuteilen.
Um dies zu erreichen, wird ein einfacher iterativer Algorithmus verwendet. Alle Elemente des Merkmalsraums werden zunächst zufällig einem Cluster k ∈ {1,..., K} zugeordnet. An diesem Punkt iteriert der Algorithmus und berechnet für jeden Iterationsschritt den Mittelwertvektor - den Schwerpunkt - für jedes Cluster k und ordnet dann jedes Element dem Cluster zu, das den nächstgelegenen Schwerpunkt besitzt, wobei eine euklidische Abstandsmetrik verwendet wird. Der Algorithmus wird so lange wiederholt, bis die Zentroidpositionen innerhalb eines bestimmten, vorher festgelegten Toleranzabstands bleiben. In der quantitativen Finanzwirtschaft wird das Clustering üblicherweise zur Identifizierung von Trends mit ähnlichen Merkmalen verwendet, was bei der Analyse von Strategien nützlich ist. Sie kann auch zur Erkennung von Marktregimen eingesetzt werden und somit als potenzielles Instrument für das Risikomanagement dienen.
Herzlichst
Ihre Algopioniere
erstellt von Julia Rosen in Zusammenarbeit mit dem gesamten Team
Weitere Informationen über die 123 Invest Gruppe erhalten Sie unter www.1-2-3-invest.de