Aufrufe
vor 1 Jahr

KINOTE 01.2020

Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen. Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI. Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.

42 01 | 2020 02 |

42 01 | 2020 02 | Koordinatensystem mit drei Clustern Frequency 12 11 10 9 8 7 6 5 4 3 2 1 0 Kunde 007 Kunde 001 Kunde 004 Z1 Kunde 009 Kunde 005 Z2 Kunde 003 Kunde 008 Z3 1 2 3 4 5 6 7 8 Recency Quelle: Xinyue Deng, Neugelb Studios GmbH. Diese Daten werden nun genutzt, um die Kunden drei Segmenten zuzuordnen. Bevor der Algorithmus zum Einsatz kommt, müssen die Daten entsprechend aufbereitet werden, da die Informationen noch nicht aussagekräftig genug sind. Hierfür werden pro Kunde die folgenden Kennzahlen berechnet, die im Anschluss die Basis für das Clustering und somit den Input für das Modell bilden: Recency (Neuheit/Aktualität) beschreibt, wie aktuell die Daten sind. Hierfür werden die Tage seit dem letzten Login des Kunden gezählt. Frequency (Häufigkeit) gibt Auskunft darüber, wie oft sich ein Kunde innerhalb der letzten zwei Wochen eingeloggt hat. Für jeden Kunden werden nun diese zwei Kennzahlen ausgerechnet. Somit ergeben sich beispielsweise für die ersten zwei Kunden folgende Werte: Kunde 001 mit Recency = 1 und Frequency = 10. Kunde 002 weist ebenfalls Recency = 1 und Frequency = 8 auf. Am Ende der Berechnung enthält der Datensatz zu allen Kunden die entsprechenden Recency- und Frequency-Werte. In der Praxis können diese nun für das eigentliche Training des k-Means-Modells verwendet werden. In vielen Fällen werden hierfür freie Software-Bibliotheken, wie Scikit-Learn für Python, verwendet, da sie Module für das Maschinelle Lernen zur Verfügung stellen. Damit lassen sich schnell und effizient Machine-Learning-Algorithmen im Code einbauen und Modelle trainieren. Da in diesem Fall der Algorithmus ohne weitere technische Umsetzung betrachtet wird, wird die theoretische Vorgehensweise des k-Means-Algorithmus vorgestellt. Zunächst werden drei Cluster-Zentren ausgewählt. Dafür sollen zufällig drei Datenobjekte aus dem Datensatz als Anfangszentren bestimmt werden. Nachfolgend die Kunden 002, 006 und 010 mit folgenden Recency- und Frequency- Werten: Kunde 002: Recency = 1, Frequency = 8 Kunde 006: Recency = 3, Frequency = 5 Kunde 010: Recency = 8, Frequency = 3 Stellt man diese nun grafisch dar, werden die Werte für Recency und Frequency als Koordinatenpunkte betrachtet. Somit ergeben sich folgende Zentren: Z1(1,8), Z2 (3,5) und Z3 (8,3). Grundsätzlich gibt es verschiedene Wege, ein Anfangszentrum zu wählen. Neben der zufälligen Auswahl kann im

01 | 2020 43 03 | Koordinatensystem mit drei Clustern: Zentren platzieren sich mittiger Frequency 12 11 10 9 8 7 6 5 4 3 2 1 0 Altes Zentrum Kunde 007 Neues Zentrum Kunde 001 Z1 Kunde 004 Kunde 002 Kunde 009 Kunde 005 Z2 Kunde 006 Kunde 003 Z3 Kunde 008 Kunde 010 1 2 3 4 5 6 7 8 Recency Quelle: Xinyue Deng, Neugelb Studios GmbH. Vorfeld auch ein hierarchisches Clustering angewendet werden, oder es wird zu Beginn das Zentrum aller Datenobjekte berechnet und sukzessive das am weitesten entfernte Objekt als Zentrum für das nächste Cluster gewählt. Stellt man nun alle Datenobjekte und Zentren im Koordinatensystem dar, lassen sich bereits grob drei Cluster erkennen: » 2 Unter realen Bedingungen würden selbstverständlich weitaus mehr als nur zehn Datenpunkte abgebildet werden. Das menschliche Auge hätte allerdings Schwierigkeiten, Abgrenzungen auszumachen. Das Modell kann auch ohne Visualisierung die Cluster erkennen, da es die tatsächliche Distanz von jedem Datenpunkt zu den einzelnen Anfangszentren berechnet. Je geringer diese ausfällt, umso ähnlicher sind sich die Datenobjekte. In der Praxis wird für diese Berechnung der euklidische Abstand zwischen den Datenpunkten Kunde und Zentroid ermittelt. Dieser kann als Luftlinie zwischen zwei Punkten betrachtet werden. Die folgende Formel, die auch aus dem Mathematik-Unterricht als Satz des Pythagoras bekannt ist, wird auf den Datensatz angewendet, um jeweils die Distanz d zwischen einem Clusterzentrum (x1, y1) und einem Datenobjekt (x2, y2) zu berechnen. Beispielsweise ergeben sich für die ersten fünf Kunden folgende Distanzen zu den drei Zentren: 001: Z1= 2 Z2 = 5.4 Z3 = 9.9 002: Z1 = 0 Z2 = 3.6 Z3 = 5.4 003: Z1 = 6.4 Z2 = 3.2 Z3 = 2.2 004: Z1 = 1 Z2 = 3.2 Z3 = 7.8 005: Z1 = 3.6 Z2 = 1.4 Z3 = 5 Die Kunden werden nun anhand der geringsten Distanz zu einem Zentrum zu den entsprechenden Clustern zugeteilt. Beispielsweise steht Kunde 001 dem Zentrum Z1 am nächsten und kann somit zu Cluster C1 zugeordnet werden. Dieser Vorgang wird nun auf die restlichen Kunden angewendet. Der Algorithmus berechnet die Zentren so lange neu, bis die Cluster stabil sind und sich nicht mehr verändern. Dafür werden ihnen neue Werte zugeteilt, die sich aus dem Durchschnitt aller Datenobjekte innerhalb des Clusters ergeben. Basierend auf den neuen Zentren werden nochmals die einzelnen Distanzen zu den Datenobjekten ermittelt. Hiermit soll festgestellt werden, ob sich die Abstände und Cluster durch die

die bank

© die bank 2014-2020