Um KI-Systeme zu trainieren, benötigt es eine große Menge an Daten als Grundlage. Diese Daten nennt man Trainingsdaten. In diesen Daten erkennen KI-gestützte Systeme Muster, auf deren Basis die Modelle sich selbst verbessern und Entscheidungen treffen können. Diese identifizierten Muster können auf unbekannte Daten angewandt werden, um zum Beispiel Vorhersagen zu treffen. Dabei gibt es zwei Arten von Daten.

Strukturierte Daten

Strukturierte Daten sind systematisch organisierte Daten. Solche Daten können in Tabellen geordnet sein, die unterschiedliche Datentypen enthalten, entweder Texte, Zahlen oder Bilder. Zum Beispiel könnte so eine Tabelle verschiedene Kennwerte vom Kaufverhalten von Kunden enthalten, wie ihr Alter, Geschlecht, Einkommen und ob das Produkt gekauft wurde:  

Name 

Alter 

Geschlecht 

Einkommen 

Hat das Produkt gekauft? 

Max 

18 

Männlich 

1500 € 

Ja 

Lisa 

22 

Weiblich 

2500 € 

Nein 

Tim 

30 

Männlich 

2000 € 

Ja 

Anna 

27 

Weiblich 

1800 € 

Ja 

Soll nun ein Modell entwickelt werden, das vorhersagt, ob jemand ein bestimmtes Produkt kauft, dann könnten solche Daten, den Algorithmus zu trainieren. Ein anderes Beispiel, das für die Bilderkennung relevant ist, sind Bild-Text-Paare: Zu einem Bild einer Katze gehört das Wort “Katze”. So stehen für das Training Daten-Paare zur Verfügung auf deren Basis dann unbekannte neue Bilder bewertet werden können, ob eine Katze zu sehen ist oder nicht. Diese Bilder sind also “gelabelt”. Das wird später noch mal beim Thema Lernmethoden aufgegriffen, denn sogenanntes überwachtes Lernen nutzt gelabelte Daten.

Unstrukturierte Daten

Andere Daten sind nicht gelabelt oder auch unstrukturiert. Das Audio-Dateien, Texte oder auch Bilder liegen oft unstrukturiert vor. Es gibt kein vorgefertigtes Schema, in das diese Daten passen. Diese Daten werden insbesondere von Methoden im Bereich Deep Learning verwendet.


Zuletzt geändert: Samstag, 23. August 2025, 11:06