Die zunehmende Bedeutung von Künstlicher Intelligenz (KI) zwingt immer mehr Branchenzweige und Unternehmen, selbst analytische Tools zu entwickeln, um in der Zukunft wettbewerbsfähig zu bleiben und gleichzeitig Marktvorteile zu erschließen. Die größte Hürde stellen dabei nicht die Algorithmen dar, die schwierigere Aufgabe besteht vielmehr darin, die für die KI notwendigen Daten mit ausreichender Qualität und Quantität zu beschaffen. Denn für die Entwicklung, Implementierung und Nutzung von KI gilt: Daten sind immer der unverzichtbare Treibstoff. Daher nehmen Verfahren zur Verbesserung der Datenqualität eine zentrale Rolle in der KI-, Digital- und Datenstrategie ein.
Die Bedeutung von Qualität und Quantität für Maschinelles Lernen
Maschinelles Lernen bzw. KI sind im letzten Jahrzehnt zu bestimmenden Themen geworden, die längst nicht mehr nur noch in der IT-Branche selbst, sondern auch in allen anderen Bereichen bedeutsam sind. Egal ob bei alltäglichen Themen wie der Kaufempfehlung für ein neues Buch oder hoch spezialisierten Anwendungen wie dem Einsatz von KI bei der Identifikation von Finanzbetrug, das Einsatzgebiet von KI wächst immer weiter. Auch beim alles bestimmenden Thema der Pandemiebekämpfung findet KI ihren Einsatz, so setzen bspw. Forscher der Uni Augsburg Maschinelles Lernen ein, um anhand der Stimme einer Person zu erkennen, ob diese möglicherweise mit dem Coronavirus infiziert ist.
Doch effektives Maschinelles Lernen lässt sich nicht ohne Vorbedingungen betreiben. Neben der Auswahl des richtigen Algorithmus sind vor allem die Grunddaten, auf deren Basis die Maschine lernen soll, von essentieller Bedeutung. Tech-Giganten wie Google, Facebook und Amazon sind nur deshalb in der Lage, wirkungsvolle Rückschlüsse auf das Verhalten ihrer Kunden zu ziehen, weil sie die Beschaffung und Aufbereitung ihrer Daten akribisch optimiert haben.
Die Datengrundlage muss hierbei ganz grundsätzlich zwei Eigenschaften erfüllen.
Zum einen muss sie ausreichend groß, also quantitativ hochwertig sein und zum anderen müssen die einzelnen Datensätze eine hohe Qualität aufweisen.
Ohne eine ausreichend große Datenbasis kann keine hohe Güte des erlernten Modells sichergestellt werden, wobei die erforderliche Größe sowohl von der Komplexität des zu lösenden Problems als auch vom verwendeten Algorithmus abhängig ist. Es wäre den Wissenschaftlern aus Augsburg vermutlich nicht gelungen, erfolgsversprechende Resultate mit ihrer KI-Lösung zu erzielen, wenn sie bei einem kleinen Datensatz von wenigen Dutzend Stimmaufnahmen geblieben wären
Ist die Datenqualität nicht vor dem Start des Lernvorgangs schon sichergestellt, kann auch kein sinnvolles Ergebnis erwartet werden. Vielmehr wird die Mustererkennung i. d. R. scheitern oder gar zu falschen Rückschlüssen führen, wenn die Daten schlecht erfasst worden sind.
Für die Augsburger Forscher wäre eine ausreichende Qualität bspw. dann nicht sichergestellt, wenn sie zu den Stimmaufnahmen nicht zusätzlich mit PCR-Tests nachgewiesene Informationen zur Infektion eines Patienten erhalten würden. Auch die Aufnahmequalität der Stimmaufnahmen oder die Standardisierung des gesprochenen Textes spielt hier eine Rolle.
Konflikt zwischen Qualität und Quantität
Leider ist es häufig nicht einfach möglich, auf viele Daten in einer exzellenten Qualität zurückgreifen zu können. Große IT-Unternehmen, deren gesamte Geschäftsprozesse sich in der digitalen Welt abspielen, können diese Daten meist automatisch erheben, doch für viele andere Anwendungsgebiete von KI trifft diese Luxus-Situation nicht zu. In diesen Situationen verbleiben daher nur die Option auf automatisch erhobene Daten zurückzugreifen, deren Qualität insgesamt eher in Frage zu stellen ist oder die Daten selbst zu erheben, was in ausreichender Anzahl nur mit einem sehr hohen Ressourcenaufwand zu bewerkstelligen ist.
Im Augsburger Fall konnte eine qualitativ und quantitativ hochwertige Datenbasis durch eine Zusammenarbeit mit einem Klinikum und mehreren Testzentren erreicht werden. Dass das funktioniert hat, ist wohl vor allem auf das öffentliche Interesse am Thema Corona zurückzuführen; hätten die Wissenschaftler diese Daten in Eigenregie erheben müssen, wäre das Projekt wohl finanziell nicht umsetzbar oder die Datenbasis nach wie vor (zu) klein gewesen.
Aufbereitung qualitativ eingeschränkt nutzbarer Daten
Doch auch wenn man nicht wie die Augsburger Forscher auf Kooperationspartner zurückgreifen kann und die eigene Datenbasis daher auf andere Art und Weise aufbauen muss, gibt es Optionen. Die Daten sollten aus verschiedenen Quellen erhoben und die Quellen separat auf ihre Qualität hin untersucht werden.
Hierzu sollte eine allgemeine Plausibilisierung der unterschiedlichen Datensätze erfolgen und die unplausiblen Datensätze vorzeitig aussortiert werden. Aber auch Daten, die eher unvollständig oder unplausibel sind, sich aber durch Korrekturen dennoch für eine Analyse eignen, sollten zur Verwertung in Betracht gezogen werden.
Beim Training der Künstlichen Intelligenz ist dann darauf zu achten, dass die Qualitätsunterschiede innerhalb der Daten Berücksichtigung finden. Hierzu sind geeignete Anpassungen an die Gewichtung der einzelnen Datensätze in Abhängigkeit ihrer Qualität vorzunehmen. So kann sichergestellt werden, dass auch mit einer nicht ganz einwandfreien Datengrundlage noch ein Maschinelles Lernen mit sinnvollen Ergebnissen erfolgen bzw. eine KI mit ausreichend guten Daten „gefüttert“ werden kann.
Diese Ergebnisse sind jedoch von der ausgewählten Gewichtung der Datensätze abhängig und scheinen auf den ersten Blick ein großes Problem für die Zuverlässigkeit der Ergebnisse darzustellen. Man kann jedoch die Gewichtung als zusätzlichen Parameter in unseren Modellen betrachten und somit die Robustheit der Modelle durch das Variieren der Gewichtungen testen. Mit Hilfe dieses Verfahrens können wir für die weiteren Analysen das robusteste Modell wählen.
Damit bietet uns das eben beschriebene Verfahren nicht nur die Möglichkeit, Daten mit ausreichender Qualität und Quantität zu haben, sondern gibt uns auch gleichzeitig die Chance, unsere Modelle zu testen.