Die Idee ist simpel, aber wirkmächtig: Synthetische Daten sollen die gleichen Eigenschaften wie real erhobene Daten haben, aber nicht auf echten Informationen beruhen. Der Markt für diese Art von Daten soll bereits 2027 über eine Milliarde Dollar groß sein.

Die Anwendungsfälle sind vielfältig:

Synthetische Daten in der Forschung.

Ein Impulsgeber für den Einsatz künstlich erzeugter Daten ist das Unternehmen DataCebo, das aus einem Forschungsprojekt am Massachusetts Institute of Technology entstand. Als das Forschungsteam 2012 das Verhalten von mehr als 155.000 Teilnehmenden in Onlinekursen untersuchen wollte, um herauszufinden, warum Studierende die Kurse nicht beendeten, schränkten Datenschutzbestimmungen dies stark ein. Um dennoch aussagekräftige Ergebnisse zu erzielen, erstellten die Forschenden synthetische Kursteilnehmende, die nicht mehr identifizierbar waren, aber das gleiche Verhalten wie reale Teilnehmende an den Tag legten. So konnte das Team die Forschung fortsetzen und dabei vollständigen Datenschutz gewährleisten.

Im Gleichstellungsauftrag.

Auch gegen Diskriminierung leisten synthetische Daten einen Beitrag. Es ist bekannt, dass KI-Modelle Vorurteile und Ungleichheiten reproduzieren, sofern diese in ihren Trainingsdaten verankert sind – etwa durch Bilderkennungs-KI, die hauptsächlich mit Daten von weißen Gesichtern trainiert wird und damit People of Colour ausschließt. Synthetische Daten schaffen hier Abhilfe, indem sie eine große Menge an künstlich generierten Gesichtern enthalten, um das Datenset diverser und repräsentativer zu gestalten.

Jesper Kleinjohann, CEO von Planet AI, zu Gast im Bechtle Podcast.

Jesper Kleinjohann und Tech-Journalistin Svea Eckert sprechen über die Zukunft der Schrifterkennung, den Mix natürlicher und synthetischer Daten und die Mehrdeutigkeit von Texten.

Zum Podcast

Das Training von Sprachmodellen.

Zudem benötigt man synthetische Daten, um den riesigen Datenhunger großer KI-Entwickler wie OpenAI zu stillen. Inzwischen gibt es Sprachmodelle, die mit künstlichen Unterhaltungen von ChatGPT trainiert wurden. Diese Modelle imitieren die Antworten der KI und sind somit eine Imitation der Imitation menschlicher Unterhaltungen. Dabei wirken die Ergebnisse auf den ersten Blick beeindruckend echt, doch bei genauerer Betrachtung zeigen sie auch eine Tendenz zu mehr reproduzierten Falschinformationen. Daher ist es wichtig, den Einsatz synthetischer Daten sorgfältig zu validieren und zu prüfen.

Potenzial im Gesundheitswesen.

Im medizinischen Umfeld ist der Zugang zu ausreichenden und qualitativ hochwertigen Daten ein großes Problem, umso mehr bei seltenen Krankheiten oder außergewöhnlichen Phänomenen. Hier können synthetische, bereits vorhandene Daten ergänzen, um eine ausreichende Datenbasis für Diagnosen, Prognosen und mögliche Behandlungsmethoden zu schaffen.

Mitentscheidend für Unternehmen.

Auch in der Wirtschaft und Industrie finden synthetische Daten eine breite Anwendung. Unternehmen treffen datengetriebene Entscheidungen, um ihre Geschäftsprozesse zu optimieren – die aber oft lückenhaft dokumentiert sind. Durch Process Mining werden diese Leerstellen mit Rechenmodellen aufgefüllt und die Prozesse sehr realistisch dokumentiert. In der Finanzindustrie sind Modellrechnungen ohnehin längst etabliert. Hierbei werden künstliche Daten für die Risikobewertung, das Portfoliomanagement und die Prognose von Marktentwicklungen einbezogen. In der Wirtschaft gilt: Wer die besten Daten hat, gewinnt – mindestens Wettbewerbsvorteile.


Schon 2024 werden 60 Prozent aller Daten, die man für KI- und Analytikprojekte einsetzen will, synthetisch generiert sein.

Quelle: Gartner

Turbo für das autonome Fahren.

Autonomes Fahren entwickelt sich augenscheinlich nur langsam weiter. Synthetische Daten könnten die Fahrt rasant beschleunigen. Sie ermöglichen die Erstellung virtueller Verkehrsszenarien, in denen KI-Modelle unter realistischen Bedingungen trainiert werden können.

Günstiger zu erzeugen.

Das Erheben und Sammeln von Realdaten ist oft aufwendig und teuer. Das Risiko, Eigentumsrechte oder den Datenschutz zu verletzen, kann Folgekosten nach sich ziehen. Die maschinelle Erzeugung ist also weniger riskant und Algorithmen arbeiten unterm Strich günstiger. Damit können KI-Modelle generell wirtschaftlicher betrieben werden und auch kleinere Unternehmen und Forschungseinrichtungen besser mit den Platzhirschen mithalten.

Eine neue Ära?

Trotz der zahlreichen Vorteile sollen synthetische Daten kein Ersatz für echte Daten sein, sondern vielmehr eine Ergänzung und Erweiterung der verfügbaren Datenquelle darstellen. Damit sie effektiv eingesetzt werden können, müssen künstliche Daten möglichst realistisch und repräsentativ für die Anwendungsfälle sein, was die Entwicklung und Generierung dieser Daten zunehmend anspruchsvoll macht. Gelingt das aber, ermöglicht die Kombination von synthetischen und realen Daten aussagekräftigere Analysen und bessere KI-Modelle.

 

Bechtle update 02/2023.

Dieser Artikel ist ein Auszug aus der Printausgabe Bechtle update 02/2023. Mehr zum Thema lesen Sie dort ab Seite 38.
 

ZUR PRINTAUSGABE