24 01 | 2021 01 | Anwendung von AutoML im Modellierungsprozess Konzeptionsphase Datenbeschaffung Datenaufbereitung • Verständnis des Anwendungsfalls • Definition der Lösung • Definition von KPIs für Modell- Performance • Strategie zur Implementierung des Modells • Prüfen der Datenverfügbarkeit & Qualität • Abklärung von Datenschutzaspekten: Ist die Nutzung der Daten erlaubt? • Aggregation der Daten • Vorauswahl von fachlich relevanten Features • Erstellung neuer Features • Ersetzung fehlender Werte • Standardisierung • Transformation von Features • Aufteilung der Daten in Training & Test Quelle: ING-DiBa AG. Aufbereitung (z. B. Berechnung des Alters anhand des Geburtsdatums) von relevanten Informationen aus den Datenbeständen des Unternehmens, die für qualitativ hochwertige Modelle essenziell sind, erfordern spezifisches Fachwissen über Daten und Prozesse und sind nicht automatisierbar. Da Daten häufig nicht auf der erforderlichen Aggregationsebene vorhanden sind, erfordert dieser Schritt oft auch eine Aufbereitung der Rohdaten auf der gewünschten Ebene. Wenn beispielsweise ein kundenindividuelles Kaufwahrscheinlichkeitsmodell für ein Girokonto entwickelt werden soll, müssen sämtliche Informationen auf Kundenebene aggregiert vorliegen und eine grobe Vorauswahl an fachlich sinnvollen Features (Variablen) getroffen werden. Darüber hinaus umfasst die Datenaufbereitung auch das sogenannte Feature Engineering, also das Erstellen weiterer Variablen, um möglichst die Modellqualität durch diese zusätzlichen Informationen zu erhöhen. Hierbei können neue Informationen etwa durch Division oder Subtraktion von zwei Features oder durch die Transformationen einzelner Features (z. B. Logarithmieren, Gruppieren etc.) gebildet werden, was von vielen AutoMLTools unterstützt wird. Ebenfalls mittels AutoML automatisierbar ist eine Reihe von Aufbereitungsschritten, wie das Ersetzen fehlender numerischer Werte (z. B. durch den Mittelwert), die Standardisierung von Features, die Konvertierung kategorialer in numerische Features und das Aufteilen der Daten in einen Trainings und Testdatensatz. Vor der eigentlichen Modellbildung wird üblicherweise anhand der nun vorliegenden Features eine Vorauswahl getroffen, um lediglich solche mit einer besonders hohen Relevanz für die Modellierung zuzulassen, was zudem auch die Dauer des Trainingsprozesses verringert. Hierbei existieren verschiedenste Methoden, mit deren Hilfe sich Kennzahlen zur Relevanz von Features berechnen lassen und die wichtigsten Features anhand definierter Qualitätskriterien automatisch selektiert werden können.
01 | 2021 25 AutoML Feature-Auswahl für Modellierung • Auswahl relevanter Features für die Modellierung anhand statistischer Kennzahlen (z. B. Korrelationen) Modellierung & Parameter- Tuning • Testen von verschiedenen Algorithmen • Systematisches Variieren unterschiedlicher Hyperparameter des jeweiligen Algorithmus Evaluation & Reporting • Evaluation der Modelle anhand von Performance-Metriken • Anwendung von Methoden zur Erklärbarkeit der Modelle & einzelner Prognosen • Erstellen von Reports Deployment • Integration des ausgewählten Modells in ein Produktivsystem Monitoring des produktiven Modells • Kontinuierliche Überwachung der Modell-Performance & Stabilität • Regelmäßige Update-Zyklen bzw. zeitnahe Updates bei abnehmender Performance Im Anschluss kann mit der eigentlichen Modellierung auf Basis der aufbereiteten Daten begonnen werden, wobei AutoML Ansätze in den folgenden Prozessschritten ihre Stärken voll ausspielen können. Je nach Problemstellung und Datenkonstellation unterscheiden sich die optimalen Algorithmen. Zusätzlich verfügen die meisten Algorithmen über verschiedene sogenannte Hyperparameter, die eine wesentliche Funktion in der Kontrolle des Trainingsprozesses einnehmen und beispielsweise die Modellkomplexität regulieren. Da sowohl der optimale Algorithmus als auch die ideale Hyperparameterkombination je nach Anwendungsfall variieren und ex ante nicht bekannt sind, kann mittels AutoML eine Vielzahl an Modellen mit verschiedenen Algorithmen und Hyperparameterkombinationen automatisiert auf den Daten getestet werden. Anhand von PerformanceMetriken werden die unterschiedlichen Modelle evaluiert und verglichen, um das optimale Modell für den Anwendungsfall zu bestimmen. Neben der Evaluation der unterschiedlichen Modelle sind außerdem weitere Schritte wie die Verwendung von Methoden zur Modellexploration (z. B. VariablenWichtigkeiten, LIME, SHAP etc.) und die Erstellung von Reportings automatisierbar, sodass manuelle Schritte für die Dokumentation entfallen können. Auch das Deployment, also die LiveStellung eines finalen Modells, kann durch die Nutzung von AutoMLTools oftmals vereinfacht werden. Sowohl kommerzielle als auch OpenSourcebasierte Lösungen bieten verschiedene Möglichkeiten zur produktiven Verwendung der resultierenden Modelle an oder liefern benutzerfreundliche Dateiformate der Modelle, die sich effizient in gängige Produktionsumgebungen integrieren lassen. Dynamisches Bankenumfeld erfordert regelmäßige Modell-Updates Eine Mehrzahl der schematischen Darstellungen des Entwicklungsprozesses von MachineLearningModellen endet mit
Laden...
Laden...
Laden...