Aufrufe
vor 2 Jahren

KINOTE 01.2021

  • Text
  • Digitale
  • Algorithmen
  • Modelle
  • Einsatz
  • Entwicklung
  • Beispielsweise
  • Informationen
  • Intelligenz
  • Unternehmen
  • Banken
Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen. Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI. Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.

24 01 | 2021 01 |

24 01 | 2021 01 | Anwendung von AutoML im Modellierungsprozess Konzeptionsphase Datenbeschaffung Datenaufbereitung • Verständnis des Anwendungsfalls • Definition der Lösung • Definition von KPIs für Modell- Performance • Strategie zur Implementierung des Modells • Prüfen der Datenverfügbarkeit & Qualität • Abklärung von Datenschutzaspekten: Ist die Nutzung der Daten erlaubt? • Aggregation der Daten • Vorauswahl von fachlich relevanten Features • Erstellung neuer Features • Ersetzung fehlender Werte • Standardisierung • Transformation von Features • Aufteilung der Daten in Training & Test Quelle: ING-DiBa AG. Aufbereitung (z. B. Berechnung des Alters anhand des Geburtsdatums) von relevanten Informationen aus den Datenbeständen des Unternehmens, die für qualitativ hochwertige Modelle essenziell sind, erfordern spezifisches Fachwissen über Daten und Prozesse und sind nicht automatisierbar. Da Daten häufig nicht auf der erforderlichen Aggregationsebene vorhanden sind, erfordert dieser Schritt oft auch eine Aufbereitung der Rohdaten auf der gewünschten Ebene. Wenn beispielsweise ein kundenindividuelles Kaufwahrscheinlichkeitsmodell für ein Girokonto entwickelt werden soll, müssen sämtliche Informationen auf Kundenebene aggregiert vorliegen und eine grobe Vorauswahl an fachlich sinnvollen Features (Variablen) getroffen werden. Darüber hinaus umfasst die Datenaufbereitung auch das sogenannte Feature Engineering, also das Erstellen weiterer Variablen, um möglichst die Modellqualität durch diese zusätzlichen Informationen zu erhöhen. Hierbei können neue Informationen etwa durch Division oder Subtraktion von zwei Features oder durch die Transformationen einzelner Features (z. B. Logarithmieren, Gruppieren etc.) gebildet werden, was von vielen AutoML­Tools unterstützt wird. Ebenfalls mittels AutoML automatisierbar ist eine Reihe von Aufbereitungsschritten, wie das Ersetzen fehlender numerischer Werte (z. B. durch den Mittelwert), die Standardisierung von Features, die Konvertierung kategorialer in numerische Features und das Aufteilen der Daten in einen Trainings­ und Testdatensatz. Vor der eigentlichen Modellbildung wird üblicherweise anhand der nun vorliegenden Features eine Vorauswahl getroffen, um lediglich solche mit einer besonders hohen Relevanz für die Modellierung zuzulassen, was zudem auch die Dauer des Trainingsprozesses verringert. Hierbei existieren verschiedenste Methoden, mit deren Hilfe sich Kennzahlen zur Relevanz von Features berechnen lassen und die wichtigsten Features anhand definierter Qualitätskriterien automatisch selektiert werden können.

01 | 2021 25 AutoML Feature-Auswahl für Modellierung • Auswahl relevanter Features für die Modellierung anhand statistischer Kennzahlen (z. B. Korrelationen) Modellierung & Parameter- Tuning • Testen von verschiedenen Algorithmen • Systematisches Variieren unterschiedlicher Hyperparameter des jeweiligen Algorithmus Evaluation & Reporting • Evaluation der Modelle anhand von Performance-Metriken • Anwendung von Methoden zur Erklärbarkeit der Modelle & einzelner Prognosen • Erstellen von Reports Deployment • Integration des ausgewählten Modells in ein Produktivsystem Monitoring des produktiven Modells • Kontinuierliche Überwachung der Modell-Performance & Stabilität • Regelmäßige Update-Zyklen bzw. zeitnahe Updates bei abnehmender Performance Im Anschluss kann mit der eigentlichen Modellierung auf Basis der aufbereiteten Daten begonnen werden, wobei AutoML­ Ansätze in den folgenden Prozessschritten ihre Stärken voll ausspielen können. Je nach Problemstellung und Datenkonstellation unterscheiden sich die optimalen Algorithmen. Zusätzlich verfügen die meisten Algorithmen über verschiedene sogenannte Hyperparameter, die eine wesentliche Funktion in der Kontrolle des Trainingsprozesses einnehmen und beispielsweise die Modellkomplexität regulieren. Da sowohl der optimale Algorithmus als auch die ideale Hyperparameterkombination je nach Anwendungsfall variieren und ex ante nicht bekannt sind, kann mittels AutoML eine Vielzahl an Modellen mit verschiedenen Algorithmen und Hyperparameterkombinationen automatisiert auf den Daten getestet werden. Anhand von Performance­Metriken werden die unterschiedlichen Modelle evaluiert und verglichen, um das optimale Modell für den Anwendungsfall zu bestimmen. Neben der Evaluation der unterschiedlichen Modelle sind außerdem weitere Schritte wie die Verwendung von Methoden zur Modellexploration (z. B. Variablen­Wichtigkeiten, LIME, SHAP etc.) und die Erstellung von Reportings automatisierbar, sodass manuelle Schritte für die Dokumentation entfallen können. Auch das Deployment, also die Live­Stellung eines finalen Modells, kann durch die Nutzung von AutoML­Tools oftmals vereinfacht werden. Sowohl kommerzielle als auch Open­Sourcebasierte Lösungen bieten verschiedene Möglichkeiten zur produktiven Verwendung der resultierenden Modelle an oder liefern benutzerfreundliche Dateiformate der Modelle, die sich effizient in gängige Produktionsumgebungen integrieren lassen. Dynamisches Bankenumfeld erfordert regelmäßige Modell-Updates Eine Mehrzahl der schematischen Darstellungen des Entwicklungsprozesses von Machine­Learning­Modellen endet mit

die bank