Aufrufe
vor 3 Jahren

KINOTE 01.2020

Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen. Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI. Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.

50 01 | 2020 02 | Name

50 01 | 2020 02 | Name Matching ergänzt um die Bewertung mit Machine Learning Eingabe Kunden Name Land Kunden- Daten Name Matching ML-Bewertung Ergebnis Geburtsdatum Prüflisten Blacklists a b Name Matching Algorithmus 98 % 78 % 12 % Testfälle Erwartete Ergebnisse Abgleich Quelle: ACTICO GmbH. dungsbäumen auf. Wichtig ist jedoch, dass die Entscheidungsbäume untereinander nicht korreliert sein sollen. Einzelne Entscheidungsbäume werden daher auf der Basis zufällig gewählter Untermengen der gesamten Datenmenge erstellt. Eine zufällig ausgewählte Stichprobe der ursprünglichen Daten hat den Vorteil, dass aus den Daten nicht die am stärksten vorhandene Kategorie herangezogen wird, sondern auch kleinere Kategorien in der Stichprobe stärker vertreten sein können und so in die Klassifikation stärker mit einbezogen werden können. 3 Die Güte von Random Forests und Entscheidungsbäumen kann mit dem Out-Of-Bag-Fehler (OOB-Error) beschrieben werden. Hierbei wird der Anteil der Daten genutzt, der für die Erstellung des Entscheidungsbaums nicht berücksichtigt ist, um einen Fehler für die Vorhersage einer richtigen Klassifikation zu treffen. Eine Standard-Methode, um die Qualität eines Entscheidungsbaums zu beschreiben, ist die Verwendung einer Entro- dung einer Entropiefunktion s pp logpp . . Hier ist p j die Wahrscheinlichkeit, mit der ein Datensatz M i einer Klassifikation j zugeordnet ist. Die Entropie ist minimal, wenn alle Daten in einer Klasse zusammenfallen. Die Entropie eines binären Baums, bestehend aus einer Wurzel und zwei Blättern, ist maximal, wenn die zu klassifizierenden Daten zu gleichen Teilen auf die beiden Blätter entfallen. Ein alternativer Ansatz zur Bestimmung der Qualität bzw. der Unreinheit (Impurity) eines Entscheidungsbaums ist der Gini- Koeffizient. In der Praxis liefern Gini-Koeffizient und Entropie üblicherweise sehr ähnliche Ergebnisse, sodass es in der Regel ausreichend ist, sich auf ein Impurity-Kriterium zu beschränken. Im Compliance-Umfeld können sich die zugrunde liegenden Daten schnell ändern. So können Kundendaten und Prüflisten, auf denen beispielsweise kriminelle, prominente oder politisch exponierte Personen geführt sind, in einem bestehenden Modell zu sehr guten Ergebnissen führen. Bei einer Aktualisierung der Datengrundlage besteht allerdings die Gefahr, dass ein ursprünglicher Entscheidungsbaum nicht mehr zum gewünschten Ergebnis einer sinnvollen Klassifikation führt. Daher eignen sich Random Forests besonders, um im Compliance-Umfeld angewendet zu werden. Sie bilden ein wichtiges Werkzeug, um statistische Korrelationen zwischen Datensätzen zu erzeugen und hierdurch in standardisierten Prozessen in der Überprüfung von Neu- und Bestandskunden zu unterstützen. Zufällig erzeugte Entscheidungs-Hierarchien behalten immer eine Ungenauigkeit und können auch logisch falsche Korrelationen nutzen.

01 | 2020 51 03 | Erstellung eines Modells mithilfe von Machine Learning Training 2 Featuring 3 Learn Model 4 Review Model Production 1 Existing Cases Compliance Suite 5 Deploy Model Quelle: ACTICO GmbH. Anwendungsbeispiel In diesem Kapitel wird gezeigt, wie Machine Learning im Bereich Compliance angewendet werden kann. Eine bekannte Compliance Suite vergleicht Kundendaten gegen Prüflisten. Auf den Listen werden beispielsweise Kriminelle und Terroristen geführt, aber auch Personen mit politischem Einfluss (PEPs). Der Vergleich erfolgt für potenzielle Neukunden vor der Eröffnung einer Geschäftsbeziehung im Rahmen des KYC- bzw. Client Due Diligence (CDD)-Prozesses. Für Bestandskunden findet der Vergleich nach relevanten Änderungen an den Kundenstammdaten oder an den gelisteten Personen regelmäßig statt. Der Vergleichs-Algorithmus nutzt Namen, Länder (Domizile, Nationalitäten) und Geburtsdaten, um mögliche Übereinstimmungen zu finden. Dabei findet bei Namen auch ein unscharfer Vergleich (ähnlicher Name) statt. Wird eine mögliche Übereinstimmung festgestellt, dann wird diese in der Software abgeklärt, indem ein Bearbeiter dokumentiert, ob diese eine tatsächliche Übereinstimmung ist. » 2 Für diese Software wurde der Vergleichs-Algorithmus so optimiert, dass möglichst alle tatsächlichen Übereinstimmungen (True Positives) gefunden, aber trotzdem möglichst wenig nicht-übereinstimmende Meldungen (False Positives) erzeugt werden. Aktuell wird diese Optimierung durch Machine Learning weiter verbessert. Nach dem Vergleich mit dem Algorithmus findet eine automatische Bewertung mit einem gelernten Modell statt. Dieses sagt voraus, wie wahrscheinlich eine mögliche Übereinstimmung auch in der Abklärung als tatsächliche Übereinstimmung dokumentiert werden wird. Dies erlaubt es, die möglichen Übereinstimmungen priorisiert abzuklären. Bei der Abklärung wird der Bearbeiter mit einer Übersicht der gefundenen Übereinstimmungen und Ähnlichkeiten unterstützt. Diese zeigt ihm an, welche Daten wie präzise mit einem Eintrag in der Prüfliste übereinstimmen. Diese Darstellung benutzt der Bearbeiter dann – auch mithilfe zusätzlicher Recherchen, um zu entscheiden, ob es sich um eine tatsächliche Übereinstimmung handelt. Lernen eines Modells für NMC Im Fall von Name Matching haben die Anwender bereits zahlreiche mögliche Übereinstimmungen abgeklärt. Das Ergebnis ist mit den anderen Daten zum Fall in der Datenbank des Systems dokumentiert. Die Abbildung » 3 zeigt, wie aus den Eigenschaften bestehender Fälle ein Modell gelernt und eingeführt werden kann:

die bank