Aufrufe
vor 3 Jahren

KINOTE 01.2020

Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen. Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI. Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.

48 01 | 2020 Im Rahmen

48 01 | 2020 Im Rahmen des Supervised Learnings werden Algorithmen anhand kategorisierter Datensätze trainiert. Der Trainingserfolg wird mithilfe eines Testdatensatzes überprüft, um die Güte des trainierten Modells / Algorithmus beurteilen zu können. Das eigentliche Lernen erfolgt auf dem Trainingsdatensatz, während die Beurteilung des trainierten Modells mit einem Testdatensatz durchgeführt wird. Reinforcement Learning orientiert sich am menschlichen Lernverhalten. Ein Agent erlernt selbstständig eine Strategie, um eine Belohnung / einen Gewinn zu maximieren. Hierzu werden meistens Temporal-Difference-Learning-Algorithmen eingesetzt, die als Q-Learning Methoden bekannt sind. Q beschreibt in dieser Methode den Nutzen als Funktion eines Zustands und einer Aktion. Für den später diskutierten Anwendungsfall „Name Matching Customer“ (NMC) ist vor allem der Ansatz des überwachten Lernens von Bedeutung. Konkret werden wir anhand von Beobachtungen einen Random-Forest-Algorithmus trainieren und einsetzen. Random Forests und Decision Trees Random Forests können als ein Ensemble von Entscheidungsbäumen verstanden werden. Im Folgenden betrachten wir deshalb zunächst das Konzept der Entscheidungsbäume. Entscheidungsbäume finden Anwendung in Regressions- und Klassifikationsproblemen. Wir beschränken uns in diesem Unterabschnitt auf die Erklärung von Klassifizierungsbäumen. Das Ziel von Entscheidungsbäumen (Decision Trees) ist es, eine existierende Datenmenge mittels hierarchischer Entscheidungen zu gruppieren bzw. zu unterteilen. Der einfachste Entscheidungsbaum besteht aus einem Knoten und zwei Blättern. Der Knoten enthält eine logische binäre Regel, die eine Zuordnung der Daten, auf die der Entscheidungsbaum angewendet wird, eindeutig einem der beiden Blätter zuweist. Ein Blatt eines Entscheidungsbaumes ist daher als Antwort auf die vorangegangene Entscheidung zu verstehen. Die Abbildung » 1 zeigt exemplarisch ein Ensemble von Entscheidungsbäumen T i , die aus Unterteilmengen eines Datasets erzeugt wurden. Farblich hervorgehoben sind die Ergebnisse der binären Entscheidungen. Im vorliegenden Anwendungsfall liegt die Herausforderung in der Bestimmung von geeigneten Attributen, die eine Klassifizierung durch eine Entscheidungsregel möglich machen. Vielfach ist die explizite Vorgabe einer Entscheidungsregel sehr schwierig, daher verwendet man statistische Algorithmen. Einer der bekanntesten Algorithmen ist ID3 (Iterative Dichotomiser 3) und dessen Weiterentwicklung C4.5 2 Die Kernidee des Algorithmus ist die Auswahl eines Attributs anhand des Informationsgehalts. Der Informationsgehalt (information gain) IG(M,) eines Attributs ist die Differenz der Entropie s(M) der zugrunde liegenden Datenmenge M und der mittleren Entropie s(M|) für die fixierte Auswahl des Attributs . Mit jeder weiteren Auswahl eins Attributs wird der Entscheidungsbaum vergrößert. Es gibt auch andere statistische Verfahren, die sich allerdings nur nachrangig für das vorliegende Anwendungsbeispiel NMC eignen. Diese Verfahren basieren auf der Quadratsumme der Residuen (Residual Sum Of Squares, RSS). Eine binäre Entscheidung, den Datensatz M i aus der Menge M aller Daten an der Stelle c in die Blätter B 1 (i,x) = {M|M i < c} und B 2 (i,x) = {M|M i >c} zu unterteilen, wird optimiert, indem die Summe der Residuen aus den beiden Blättern für die Anzahl aller Datensätze i und Stelle c minimiert wird. Diese Strategie kann rekursiv auf jede neu entstandene Unterteilmenge angewendet werden, sodass sich eine Baumstruktur ausbildet 3 . Die Tiefe von Entscheidungsbäumen und damit einhergehend auch der Detailgrad der Entscheidungen kann limitiert werden, indem eine zulässige Untergrenze für die Zuordnung zu einer finalen Unterkategorie getroffen wird. Das Optimum dieser Untergrenze eines Entscheidungsbaums wird über sog. Pruning-Verfahren 4 bestimmt. Diese Verfahren wurden entwickelt, um Entscheidungsbäume zu erzeugen, die nicht übermäßig stark auf den genutzten Trainings-Datensatz angepasst (overfitted) sind. Daher steigt bei der Anwendung von Pruning-Verfahren die Treffsicherheit einer richtigen Zuordnung, da die Komplexität reduziert und der Entscheidungsbaum vereinfacht wird. Die Vorteile von Entscheidungsbäumen: Sie sind einfach zu visualisieren, schnell verständlich und können an menschliche

01 | 2020 49 01 | Exemplarische Darstellung eines Ensembles zufällig erzeugter Klassifizierungsbäume Farblich hervorgehoben ist die Aggregationslogik, in der per Mehrheitsentscheidung / Mittelung aus dem Ergebnis einzelner Endscheidungsbäume eine Klassifikation getroffen wird. Dataset Bäume werden auf unkorrellierten, zufällig ausgewählten Unterteilmengen erstellt/trainiert. Baum T 1 Baum T 2 Baum T 3 Baum T 4 Baum T 5 Baum T 6 Klassifikation erfolgt auf trainierten Bäumen aus Mehrheitsentscheidung oder Mitteilung. Quelle: d-fine GmbH. Entscheidungen geknüpft werden, ohne dass mathematisches Experten-Wissen notwendig ist. Sie stellen eine einfache Möglichkeit dar, hohe, intransparente granulare Datenmengen logisch und nachvollziehbar zu strukturieren, sodass aus einer granularen, quantitativen Ebene eine einfacher zugängliche qualitative Entscheidungsebene erzeugt wird. Klassische Entscheidungsbäume stoßen jedoch oft an Grenzen, insbesondere, wenn die für die Knoten erzeugten Regeln sehr sensitiv gegenüber den verwendeten Inputdaten sind, leidet die Stabilität der Vorhersagegenauigkeit. Eine Entscheidung hängt stark von der Verteilung der Inputdaten ab. Ändert sich die Verteilung, so kann der Baum instabil werden, da eine nachträgliche Korrektur der Hierarchie des Baums im Regelfall nicht möglich ist, ohne den ganzen Baum neu zu erzeugen. Eine Möglichkeit, die Stabilität einer Klassifikation zu erhöhen, ist, verschiedene Modelle, in diesem Fall Entscheidungsbäume, zu kombinieren, bzw. zu mitteln (Bootstrap Aggregation bzw. Bagging). Hierbei liefert jedes Modell ein Ergebnis für eine Stichprobe, bzw. Unterteilmenge aus der Gesamtheit aller Daten. Die einzelnen Ergebnisse können zusätzlich, zum Beispiel anhand der Größe einer Stichprobe, gewichtet werden. Dies erzeugt wesentlich stabilere Vorhersagen in der Gesamtklassifikation, da die Mittelung über die einzelnen Ergebnisse die Varianz verringert. Datenanomalien und Verteilungen können jedoch zu einer zu speziellen Kategorisierung durch einen einzelnen Entscheidungsbaum führen. Diese spezielle Kategorisierung funktioniert dann möglicherweise für die gegebene Datenbasis, kann aber eventuell bei neu dazu kommenden Datensätzen versagen. Diese Einschränkung kann mit der Verwendung von Random- Forest-Modellen kontrolliert werden. Random Forests greifen die Idee der Kombination von mehreren Entschei-

die bank