Aufrufe
vor 4 Jahren

KINOTE 02.2019

  • Text
  • Zukunft
  • Deutlich
  • Deutsche
  • Insbesondere
  • Deutschland
  • Modell
  • Intelligenz
  • Banken
  • Einsatz
  • Unternehmen
Um einen Wandel der Finanzbranche erfolgreich zu meistern, müssen Kreditinstitute sowohl Chancen als auch Herausforderungen der Künstlichen Intelligenz (KI) erkennen. Unter der neuen Marke KINOTE der Bank-Verlag GmbH finden Sie Meldungen, Studien und Fachartikel zum Themenkomplex KI. Wir beantworten Ihre Fragen rund um KI. Wir berichten über Trends, neue Technologien, Forschungsergebnisse und daraus entstehende Möglichkeiten, die KI Ihrem Unternehmen bietet.

34 02 | 2019 Oftmals ist

34 02 | 2019 Oftmals ist aber je nach Anwendungsfall nicht jeder Text gleichermaßen relevant, hat also für den untersuchten Zweck keine Aussagekraft. Um aus dieser unüberschaubaren Menge diejenigen Texte zu identifizieren, aus denen überhaupt Erkenntnisse gewonnen werden können, ist eine Vorverarbeitung und Filterung erforderlich (Preprocessing): Tägliche und automatisierte Verarbeitung Bevor der eigentliche Textinhalt eingelesen und beispielsweise nach Fremdsprachen bereinigt wird, ist festzulegen, welche Bestandteile eines Dokuments neben dem Textinhalt noch verwertet werden sollen (zum Beispiel Ressort, Titel, Untertitel, usw.) und welche nicht (zum Beispiel Autor, Bilder, URLs, usw.). großen Datenmengen ebenso wie mit mehreren hunderten Faktoren umgehen können, aber auch neuronale Netze. Dabei wurde dem Modell in historischen Daten anhand eines zuvor festgelegten Lexikons „antrainiert“, welche Texte Wirtschaftscharakteristika aufweisen und welche nicht. Dieses Lexikon wurde einmalig im Rahmen der Entwicklung aus hunderten bis tausenden solcher selektierter Schlüssel- oder Signalwörter gebildet, die teils typisch (etwa „Ebit“, „Marge“, „Verkauf“), teils explizit atypisch (etwa „kulinarisch“, „Außenstürmer“) für Wirtschaftsnachrichten sein können. Bei diesem sogenannten Bag-of-Words-Ansatz erfolgt die Wahl dieser Wörter auf Expertenbasis, gestützt durch statistische Signifikanztests. Vorsortierung nach Relevanz In einem zweiten Schritt müssen die Textdaten nach inhaltlicher Relevanz gefiltert werden, deren Definition je nach Anwendungsfall variieren kann. Für die nachrichtenbasierte Frühwarnung in Risk Guard lag es nahe, dass vor allem Wirtschaftsnachrichten als relevant betrachtet wurden. Bei anderen Nachrichten ist – zumindest für diesen Zweck – keine hohe Aussagekraft hinsichtlich bonitätsrelevanter Information zu einem Unternehmen zu erwarten: Etwa das Interview mit einem ehemaligen bayerischen Ministerpräsidenten, der über seine Leidenschaft für Produkte des schwäbischen Modellbahnherstellers Märklin berichtete. Ein solcher Artikel erscheint tendenziell eher im Bereich „Politik“, „Feuilleton“ oder „Panorama“, nicht aber in „Wirtschaft“ oder „Finanzen“. Nun könnte man einfach nach bestimmten Ressorts der Zeitungen filtern und alle anderen unberücksichtigt lassen. Allerdings sind diese Kategorien sehr ungenau und unvollständig, sodass man Gefahr läuft, zu viele Nachrichten pauschal zu verlieren. Gerade im Lokalteil können viele relevante Artikel, gerade zu kleinen Betrieben, stehen. Zu diesem Zweck wurde ein eigenes statistisches Klassifikationsverfahren entwickelt, um sicherzustellen, dass prinzipiell alle Ressorts berücksichtigt werden können: So wird aus dem Ressort „Wirtschaft“ fast kein Artikel herausgefiltert, aus anderen wiederum bleiben nur noch einzelne Nachrichten übrig, wie zum Beispiel Artikel über die Fußball-Übertragungsrechte im Pay-TV (Ressort „Sport“), die Trends auf den Absatzmärkten der Automobilhersteller („Motor“) oder die wirtschaftlichen Entwicklungen von Verlagen („Kultur“). Als hierfür geeignete Klassifikationsverfahren kommen beispielsweise Support Vector Machines (SVMs) infrage, die mit Identifikation von Unternehmen Wurden alle nicht relevanten Nachrichtenartikel aussortiert, müssen aus den verbleibenden Texten betroffene Unternehmen erkannt und extrahiert werden. Hier kommen moderne Ansätze des Deep Learning (ein Unterbegriff des Machine Learning) zum Tragen. Mit einem eigens trainierten neuronalen Netz wird aus bekannten Mustern in und um Wortfolgen herum mit hoher Präzision erkannt, dass es zum Beispiel beim Textausschnitt „… sorgten bei Linde zu einem Umsatzrückgang …“ um einen Konzern geht und nicht um eine Baumgattung. Somit wird für jeden Artikel eine Liste von gefundenen Unternehmensnamen extrahiert, auch Named Entity Recognition genannt. Ein gegebener Nachrichtentext muss jedoch nicht für jedes darin genannte Unternehmen von zentraler Bedeutung sein: Zum Beispiel wird im Zusammenhang mit der Insolvenz von „Air Berlin“ von einer Jobmesse berichtet, auf der auch „Zalando“ und die „Deutsche Bahn“ ihre Stände eröffnet haben. Wird der Text gleichzeitig allen drei Unternehmen zugeordnet, hat dies womöglich gar fatale Auswirkungen auf das Bonitätsmonitoring einzelner Fälle, sodass hier im Zweifel eher konservativ vorgegangen werden muss. Daher werden die gefundenen Unternehmensnamen in einem nächsten Schritt nach ihrer sogenannten Salienz 2 sortiert und gefiltert. Dieses Ranking wird mithilfe leicht interpretierbarer Metriken wie etwa der Häufigkeit oder der Verteilung des Firmennamens im Text u. ä. gebildet. Unternehmen unterhalb einer bestimmten (absoluten und relativen) Salienz, hier „Zalando“ und „Deutsche Bahn“, wird der Artikel nicht mehr zugeordnet. Nun hat das Verfahren zwar erkannt, dass es sich bei „Linde“ in einem bestimmten Kontext um einen Unternehmens-

02 | 2019 35 01 | Nachrichtenabdeckung nach Unternehmen 02 | Nachrichtenabdeckung nach Zeitungsquelle 2 % Anteil Unternehmen news aktuell Handelsblatt online Anteil Nachrichten FAZ Süddeutsche 59 % 41 % 98 % börsennotiert nicht börsennotiert Weitere ca. 250 Quellen WELT Stuttgarter Zeitung Rheinische Post FTD Leipziger Volkszeitung WiWo Sächsische Zeitung Frankfurter Rundschau Stuttgarter Nachrichten APA Frankfurter Neue Presse Quelle: Eigene Darstellung. Quelle: Eigene Darstellung. namen handelt. Ob dabei die „Linde plc“ oder der „Linde Verlag“ gemeint ist, wird in einem abschließenden Schritt mit einem zentralen Firmenregister abgeglichen. In diesem Register sind Firmennamen in verschiedenen Schreibweisen erfasst, in denen auch zum Beispiel Unternehmensformen wie „GmbH“ oder „Aktiengesellschaft“ abgekürzt, ausgeschrieben oder gänzlich weggelassen werden. Risikoscore und Frühwarnsignale Der oben beschriebene Bag-of-Words-Ansatz funktioniert nicht nur bei der Unterscheidung zwischen Wirtschaftsnachrichten und „Nicht-Wirtschaftsnachrichten“, sondern ebenso bei der Einteilung von Artikeln in die genannten Kategorien „drohender Zahlungsausfall“ bzw. „kein drohender Zahlungsausfall“. Die Ausfallinformation wurde im Rahmen der Entwicklung für etwa 3.200 deutsche Unternehmen aus dem Ratingdaten-Pool mit den Nachrichten kombiniert. Hierfür wurde ein eigenes Lexikon gebildet, ähnlich der Vorgehensweise für die Wirtschaftsklassifikation: Auf Basis der Vorkommen dieser Wörter bzw. Wortgruppierungen (z. B. „Schieflage“, „rote Zahlen“, „Verlust“ für negative Nachrichten oder „Absatzrekord“, „verdienen“, „feiern“ für positive Nachrichten) wird für jeden Nachrichtenartikel ein Risiko-Score berechnet, der angibt, ob es sich insgesamt eher um Good News oder um Bad News handelt. Je höher der Score, desto höher die Wahrscheinlichkeit für einen Zahlungsausfall aus dem Nachrichtentext und umgekehrt. Überschreitet der Risiko-Score einen kritischen Grenzwert, wird jedes Unternehmen, das dem Text zugeordnet werden konnte, mit einem Signal als auffällig gekennzeichnet. Das Niveau dieser Signalschwelle wurde so gewählt, dass mit einer Vorlaufzeit von bis zu einem Jahr etwa 75 Prozent aller Ausfälle in der Datenhistorie erkannt werden, während gleichzeitig die Quote der Unternehmen mit mindestens einem Fehlalarm möglichst gering bleibt – in unserem Fall durchschnittlich ca. 25 Prozent pro Jahr. Blick in die Anwendung Als Ergebnis hat die RSU zwei nachrichtenbasierte Modelle entwickelt: News Scores und News Sentiment Index – die in Risk Guard Warnsignale für auffällige Unternehmen senden und im Folgenden kurz vorgestellt werden. News Scores ( » 3 ): Für jede Nachricht zu einem Unternehmen wird wie oben beschrieben ein Risiko-Score berechnet. In der Anwendung sind alle täglichen Scores zu allen Nachrichten der letzten fünf Jahre im Chart dargestellt (vgl. grüne Punkte in der Abbildung 3). News Sentiment Index ( » 4 ): Risiko-Scores der Einzelnachrichten werden durch „Glättung“ zu einem Sentiment Index

die bank