Daten für KI vorbereiten | Swiss Process Solutions

Amanda Frey
vor 10 Stunden
9 Min. Lesezeit

Von Rohdaten zu KI-Input: Wie Daten für Modelle verständlich werden

Viele Schweizer KMU verfügen bereits über grosse Mengen an Daten: Kundenstammdaten im CRM, Auftragsdaten im ERP, Tabellen aus Excel, Maschinendaten aus der Produktion oder Serviceprotokolle aus dem Tagesgeschäft. Daraus entsteht schnell die Erwartung, dass diese Informationen direkt für ein KI-Projekt genutzt werden können.

Genau hier liegt oft das Missverständnis. Rohdaten sind noch kein brauchbarer KI-Input. Bevor ein Modell mit Daten sinnvoll arbeiten kann, müssen diese in eine Form gebracht werden, die maschinenlesbar, konsistent und fachlich sinnvoll ist. Dazu gehören Datentransformation, Codierung, Skalierung, Standardisierung und in vielen Fällen auch Feature Engineering.

Wer Daten für KI vorbereiten will, braucht deshalb nicht zuerst ein komplexes Modell, sondern ein klares Verständnis dafür, wie aus vorhandenen Daten eine verlässliche Grundlage wird. Dieser Beitrag zeigt, worauf es dabei ankommt, wo typische Stolpersteine liegen und warum die fachliche Prüfung trotz technischer Aufbereitung unverzichtbar bleibt.

Warum Rohdaten noch kein KI-Input sind

Im Unternehmensalltag entstehen Daten selten in einer Form, die direkt für KI geeignet ist. Sie werden für operative Prozesse erfasst, nicht für Modelle. Ein ERP speichert beispielsweise Aufträge, ein CRM dokumentiert Kundenkontakte, eine Excel-Liste dient der internen Auswertung. Diese Daten sind nützlich, aber nicht automatisch modelltauglich.

Der Unterschied zwischen Rohdaten und KI-Input lässt sich einfach erklären:

Rohdaten sind die ursprünglich erfassten Informationen aus dem Betrieb.
KI-Input-Daten sind aufbereitete, strukturierte und einheitliche Daten, mit denen ein Modell zuverlässig arbeiten kann.

In der Praxis zeigen sich dabei immer wieder ähnliche Probleme. Ein Kunde wird in einem System mit vollständigem Firmennamen geführt, in einem anderen mit Kürzel. Datumsangaben liegen in verschiedenen Formaten vor. Felder bleiben leer, obwohl sie für eine spätere Auswertung wichtig wären. Regionen sind einmal als Kürzel, einmal ausgeschrieben und einmal gar nicht standardisiert erfasst. Stückzahlen, Umsätze oder Zeiten bewegen sich zudem oft in völlig unterschiedlichen Grössenordnungen.

Für Schweizer KMU ist das besonders relevant, weil Datenquellen häufig gewachsen sind. Es gibt nicht nur ein zentrales System, sondern eine Mischung aus ERP, CRM, Fachanwendungen, Office-Dateien und manuell gepflegten Listen. Solche Datenlandschaften sind normal. Sie bedeuten aber auch, dass vor einem KI-Vorhaben zuerst geklärt werden muss, welche Daten überhaupt vergleichbar und verwertbar sind.

Mehr Daten helfen dabei nicht automatisch weiter. Wenn Daten uneinheitlich, unvollständig oder fachlich missverständlich sind, steigt mit der Menge oft nur die Komplexität. KI funktioniert am besten dort, wo Prozesse klar und Daten sauber beschrieben sind. Sie ersetzt diese Klarheit nicht, sondern ist auf sie angewiesen.

Welche Formate KI-Systeme überhaupt verstehen

Ein KI-System arbeitet nicht mit Daten so, wie Menschen sie intuitiv lesen. Es braucht Informationen in einer Form, die sich eindeutig verarbeiten lässt. Das bedeutet nicht, dass nur perfekte Tabellen nutzbar sind. Es bedeutet aber, dass Daten strukturiert, konsistent und maschinenlesbar vorliegen müssen.

Dabei ist wichtig zu verstehen, dass unterschiedliche Datentypen unterschiedlich behandelt werden:

Zahlen wie Umsatz, Lieferzeit oder Temperatur können direkt als Werte verarbeitet werden, sofern ihre Bedeutung klar ist.
Kategorien wie Produktgruppe, Region oder Status müssen oft zuerst übersetzt werden.
Texte wie Bemerkungsfelder oder Serviceberichte benötigen eine andere Form der Aufbereitung als klassische Tabellendaten.
Zeitangaben können als Datum gespeichert sein, müssen für Modelle aber häufig in nützliche Merkmale umgewandelt werden, etwa Wochentag, Monat oder Zeitabstand.

Ein Beispiel aus dem KMU-Alltag: Kundenstammdaten enthalten Branche, Region, Unternehmensgrösse und Kundensegment. Auftragsdaten enthalten Bestellwert, Lieferdatum, Artikelgruppen und Zahlungsstatus. Sensordaten aus einer Maschine liefern im Sekundentakt Messwerte. Jede dieser Datenarten kann für KI interessant sein, aber nicht in derselben Form.

Entscheidend ist nicht nur das Format, sondern auch die Datenqualität. Wenn zwei Spalten denselben Sachverhalt unterschiedlich bezeichnen, wenn relevante Felder oft fehlen oder wenn historische Daten ohne klaren Kontext vorliegen, wird auch ein gutes Modell keine belastbare Grundlage bekommen.

Darum ist der erste Schritt vor jeder KI-Initiative meist eine nüchterne Bestandsaufnahme: Welche Daten gibt es? Woher kommen sie? Wie konsistent sind sie? Welche Felder sind fachlich relevant? In vielen Fällen zeigt sich dabei, dass Daten für KI vorbereiten weniger mit Technologie beginnt als mit Struktur und Verantwortlichkeit. Gerade an der Schnittstelle zwischen Fachbereich und IT und Digitalisierung wird sichtbar, wie stark die Datenbasis von bestehenden Prozessen abhängt.

Codierung: Wenn Kategorien in Zahlen übersetzt werden

Viele geschäftsrelevante Informationen liegen nicht als Zahlen vor, sondern als Kategorien. Dazu gehören etwa Produktgruppen, Regionen, Prioritätsstufen, Maschinentypen oder Bearbeitungsstatus. Für Menschen sind solche Begriffe klar verständlich. Ein Modell kann damit aber meist nicht direkt arbeiten. Kategorien müssen deshalb in eine verarbeitbare Form übersetzt werden.

Diese Übersetzung wird als Codierung bezeichnet. Gemeint ist damit nicht, dass der Inhalt vereinfacht oder fachlich reduziert wird. Es geht vielmehr darum, eine Darstellungsform zu schaffen, mit der ein KI-System arbeiten kann.

Ein einfaches Beispiel: In den Auftragsdaten eines KMU gibt es das Feld "Status" mit Werten wie "offen", "in Bearbeitung" und "abgeschlossen". Für ein Modell reicht diese textliche Form oft nicht aus. Die Statuswerte müssen so aufbereitet werden, dass sie eindeutig und konsistent als Merkmale genutzt werden können.

Ähnlich ist es bei Regionen. Wenn ein Unternehmen Kunden nach Vertriebsgebieten auswerten will, helfen uneinheitliche Einträge wie "ZH", "Zürich", "Kanton Zürich" oder "Zurich" nicht weiter. Vor jeder Codierung steht deshalb meist die fachliche Vereinheitlichung. Erst dann lässt sich die Information sauber in modelltaugliche Daten überführen.

Wichtig ist dabei: Codierung ist keine rein technische Formalität. Sie enthält immer auch fachliche Entscheidungen. Wenn Produktgruppen zusammengelegt oder Statuswerte hierarchisch geordnet werden, beeinflusst das die spätere Aussagekraft des Modells. Deshalb sollte dieser Schritt nicht isoliert von der Fachseite erfolgen.

Gerade bei kleineren und mittleren Unternehmen ist die Versuchung gross, Codierung als Standardaufgabe an ein Tool oder eine externe Stelle zu delegieren. Das kann technisch sinnvoll sein, ersetzt aber nicht die inhaltliche Prüfung. Wer Daten für KI vorbereiten will, muss sicherstellen, dass die Übersetzung der Kategorien zum Geschäftsmodell, zur Datennutzung und zur Fragestellung passt.

Skalierung und Standardisierung: Warum Grössenordnungen vergleichbar werden müssen

Nicht alle Zahlenwerte in Daten haben denselben Massstab. Eine Lieferzeit kann in Tagen gemessen werden, ein Umsatz in Tausenden von Franken, ein Rabatt in Prozent und eine Maschinenlaufzeit in Minuten. Für Menschen ist dieser Unterschied nachvollziehbar. Für Modelle kann er problematisch sein, weil einzelne Wertebereiche das Gesamtbild verzerren können.

Hier kommen Skalierung und Standardisierung ins Spiel. Beide Verfahren helfen dabei, Zahlen in eine Form zu bringen, in der sie besser vergleichbar und für Modelle sinnvoll nutzbar werden.

Skalierung bedeutet vereinfacht gesagt: Werte werden in einen gemeinsamen Bereich überführt. Das ist dann hilfreich, wenn unterschiedliche Grössenordnungen sonst zu stark ins Gewicht fallen würden. Ein Merkmal mit sehr grossen Zahlenwerten soll nicht allein deshalb dominieren, weil es numerisch grösser ist.

Standardisierung geht einen Schritt weiter und sorgt dafür, dass Werte in Bezug auf ihre Verteilung besser vergleichbar werden. Sie hilft vor allem dann, wenn Merkmale zwar alle numerisch sind, aber sehr unterschiedlich streuen oder auf unterschiedlichen Skalen erfasst wurden.

Ein praktisches Beispiel: Ein Unternehmen möchte ein Modell zur Vorhersage von Lieferverzögerungen aufbauen. Die Eingangsdaten enthalten unter anderem:

Auftragswert in Franken
Anzahl Positionen pro Auftrag
Distanz zum Kunden in Kilometern
durchschnittliche Bearbeitungszeit in Minuten

Ohne Aufbereitung können diese Werte sehr unterschiedliche Wirkung entfalten. Der Auftragswert bewegt sich vielleicht zwischen 500 und 150'000, die Anzahl Positionen zwischen 1 und 20. Obwohl beide Informationen fachlich relevant sein können, sind sie nicht direkt vergleichbar. Daten standardisieren bedeutet in diesem Kontext, solche Unterschiede so aufzubereiten, dass das Modell nicht von blossen Grössenordnungen fehlgeleitet wird.

Wichtig ist die Abgrenzung: Skalierung und Standardisierung lösen nicht das Problem schlechter Daten. Wenn ein Feld fachlich unklar ist, Wertefehler enthält oder unterschiedliche Bedeutungen vermischt, hilft auch die sauberste Transformation nicht weiter. Diese Verfahren verbessern die technische Verwendbarkeit, nicht automatisch die inhaltliche Qualität.

Feature Engineering: Aus Daten die relevanten Merkmale ableiten

Oft sind nicht die vorhandenen Rohspalten entscheidend, sondern die Merkmale, die daraus sinnvoll abgeleitet werden. Genau darum geht es beim Feature Engineering. Gemeint ist die gezielte Bildung zusätzlicher Merkmale, die für die Fragestellung nützlicher sind als die ursprünglichen Daten allein.

Das klingt technischer, als es im Kern ist. Im Unternehmensalltag passiert diese Logik häufig schon in Reports oder Analysen. Aus einem Bestelldatum wird zum Beispiel nicht nur das Datum selbst betrachtet, sondern auch der Monat, der Wochentag oder die Zeit seit der letzten Bestellung. Aus einzelnen Aufträgen wird die Bestellhäufigkeit eines Kunden. Aus Servicefällen wird die Anzahl Meldungen pro Maschine innerhalb eines definierten Zeitraums.

Typische Beispiele für Feature Engineering in KMU sind:

Zeiträume zwischen zwei Ereignissen
Durchschnittswerte pro Kunde, Auftrag oder Anlage
Häufigkeiten von Bestellungen, Reklamationen oder Ausfällen
Kombinationen aus mehreren Feldern, etwa Produktgruppe und Region
Abweichungen vom üblichen Verhalten, etwa aussergewöhnlich lange Bearbeitungszeiten

Der Nutzen liegt darin, dass Modelle oft besser mit fachlich verdichteten Merkmalen arbeiten als mit isolierten Einzelwerten. Ein Datum als solches sagt wenig aus. Die Information, dass Bestellungen eines Kundensegments typischerweise gegen Monatsende stark zunehmen, kann dagegen sehr wertvoll sein.

Feature Engineering ist deshalb kein rein technischer Optimierungsschritt, sondern eng mit Geschäftsverständnis verbunden. Die Fachabteilung weiss meist, welche Zusammenhänge plausibel sind. Die IT oder externe Spezialisten übersetzen diese Logik in eine belastbare Datenstruktur. Gute Ergebnisse entstehen dort, wo beides zusammenkommt.

Gleichzeitig gilt auch hier: Nicht jedes zusätzlich gebildete Merkmal ist automatisch sinnvoll. Zu viele oder fachlich schwache Merkmale können Modelle ebenso verwirren wie unaufbereitete Rohdaten. Entscheidend ist, dass neue Merkmale nachvollziehbar, relevant und in der Praxis überprüfbar bleiben.

Was Datentransformation in der Praxis für KMU bedeutet

Datentransformation für KI ist kein einzelner Klick und auch kein rein technisches Nebenthema. In der Praxis ist sie ein eigener Projektbaustein zwischen vorhandenen Daten und einem nutzbaren KI-Modell. Wer diese Phase unterschätzt, riskiert Fehlannahmen, unnötige Schleifen und schwache Resultate.

Typischerweise umfasst die Vorbereitung mehrere Arbeitsschritte:

Daten sichten
Zuerst wird geklärt, welche Datenquellen überhaupt vorhanden sind. Dazu zählen operative Systeme, Listen, Archive und gegebenenfalls externe Daten.
Daten bereinigen
Offensichtliche Fehler, Dubletten, leere Felder oder uneinheitliche Bezeichnungen werden identifiziert und soweit möglich korrigiert.
Daten vereinheitlichen
Begriffe, Formate, Zeiträume und Strukturen werden auf einen gemeinsamen Stand gebracht.
Daten transformieren
Kategorien werden codiert, numerische Werte skaliert oder standardisiert, Datumsfelder umgewandelt und Merkmale abgeleitet.
Fachlich prüfen
Die aufbereiteten Daten werden mit der Fachseite abgeglichen: Stimmen die Bedeutungen? Fehlen wichtige Kontextinformationen? Sind die Merkmale für die Fragestellung plausibel?

Gerade in KMU ist dieser Ablauf oft bereichsübergreifend. Die Fachabteilung kennt die Geschäftslogik, die IT kennt Systeme, Schnittstellen und Datenstrukturen, externe Spezialisten bringen Erfahrung in Datentransformation und Modellvorbereitung ein. Gute Resultate entstehen selten isoliert, sondern im Zusammenspiel dieser Rollen.

Wichtig ist auch die Erwartungssteuerung. Datentransformation KI ist kein Selbstläufer und kein Ersatz für klare Prozesse. Wenn ein Unternehmen schon heute Schwierigkeiten hat, Stammdaten konsistent zu pflegen oder Verantwortlichkeiten für Datenfelder festzulegen, wird ein KI-Projekt diese Probleme nicht lösen. Es macht sie eher sichtbarer.

Umgekehrt kann genau diese Vorarbeit sehr wertvoll sein. Sie schafft Transparenz über die eigene Datenlandschaft und legt die Basis für weitere Vorhaben in Automatisierung und KI. Nicht jedes Projekt muss sofort mit einem komplexen Modell starten. Oft bringt bereits die strukturierte Aufbereitung der Daten wichtige Erkenntnisse für operative Verbesserungen.

Grenzen: Wann Fachprüfung unverzichtbar bleibt

Auch sauber transformierte Daten sind nicht automatisch richtig, vollständig oder fachlich sinnvoll. Datentransformation verbessert die Grundlage, ersetzt aber keine inhaltliche Prüfung. Das ist ein zentraler Punkt, gerade wenn im Unternehmen hohe Erwartungen an KI bestehen.

Es gibt mehrere Bereiche, in denen menschliche Fachprüfung unverzichtbar bleibt.

Erstens: Datenqualität.

Wenn Daten falsch erfasst wurden, systematisch Lücken enthalten oder widersprüchliche Bedeutungen haben, kann die technische Aufbereitung diese Probleme nur begrenzt abfedern. Ein falsch gepflegter Kundenstatus bleibt auch nach der Codierung falsch.

Zweitens: fehlender Kontext.

Viele operative Daten erklären nicht von selbst, warum etwas passiert ist. Ein Lieferverzug kann aus Wetter, Personalausfall, Materialengpass oder einem Sonderauftrag entstanden sein. Wenn diese Hintergründe nicht erfasst sind, bleibt die Datengrundlage unvollständig.

Drittens: fachliche Regeln.

Nicht jede statistische Auffälligkeit ist geschäftlich relevant. Ein Modell kann Zusammenhänge erkennen, die aus fachlicher Sicht zufällig, unerwünscht oder sogar irreführend sind. Hier braucht es Mitarbeitende, die Ergebnisse einordnen können.

Viertens: Datenschutz und Governance.

Sobald personenbezogene oder sensible Unternehmensdaten verarbeitet werden, müssen Zugriffe, Verwendungszwecke und Aufbewahrung sauber geregelt sein. Gerade bei KI-Projekten ist es wichtig, vorab zu klären, welche Daten eingesetzt werden dürfen und welche nicht.

Ein praktisches Beispiel: Ein Unternehmen möchte Kundenabwanderung prognostizieren. Die Daten sind technisch gut vorbereitet, sauber codiert und standardisiert. Trotzdem kann das Modell falsche Schwerpunkte setzen, wenn ein spezieller Kündigungsgrund nie systematisch dokumentiert wurde oder wenn historische Daten aus einer Ausnahmesituation stammen. Die fachliche Prüfung bleibt damit Teil des Projekts, nicht nur der Vorbereitung.

Realistische KI-Vorhaben bauen deshalb auf zwei Ebenen auf: auf guter technischer Datenarbeit und auf klarer fachlicher Verantwortung. Erst diese Kombination macht Rohdaten zu belastbarem KI-Input.

Häufig gestellte Fragen

Woran erkennt ein KMU, ob vorhandene Daten für KI überhaupt geeignet sind?

Ein guter erster Hinweis ist, ob die Daten für den jeweiligen Geschäftsprozess konsistent, ausreichend vollständig und fachlich verständlich vorliegen. Relevant sind nicht nur Menge und Verfügbarkeit, sondern auch Struktur, Vergleichbarkeit und Kontext. Wenn zentrale Begriffe uneinheitlich verwendet werden, wichtige Felder häufig fehlen oder Daten aus mehreren Systemen nicht zusammenpassen, ist vor einem KI-Projekt meist zuerst Aufbereitungsarbeit nötig.

Welche Datenprobleme treten vor einem KI-Projekt am häufigsten auf?

Häufig sind es uneinheitliche Formate, fehlende Werte, Dubletten, unterschiedliche Bezeichnungen für denselben Sachverhalt und fehlender fachlicher Kontext. Ebenfalls typisch sind Daten, die zwar operativ nützlich sind, aber für die gewünschte Fragestellung nicht direkt ausreichen. In vielen KMU kommt dazu, dass Informationen über ERP, CRM, Excel und weitere Systeme verteilt sind und nicht ohne Weiteres zusammengeführt werden können.

Was ist der Unterschied zwischen Daten bereinigen und Daten transformieren?

Daten bereinigen bedeutet, offensichtliche Fehler oder Inkonsistenzen zu korrigieren, etwa Dubletten zu entfernen, Schreibweisen zu vereinheitlichen oder leere Felder zu prüfen. Daten transformieren bedeutet, die bereinigten Daten in eine Form zu bringen, die für Modelle geeignet ist. Dazu gehören zum Beispiel das Codieren von Kategorien, das Standardisieren numerischer Werte oder das Ableiten zusätzlicher Merkmale.

Warum sind Codierung und Skalierung für KI überhaupt nötig?

Viele Modelle können mit Textkategorien oder stark unterschiedlich skalierten Zahlen nicht sinnvoll arbeiten. Codierung übersetzt kategoriale Informationen wie Regionen oder Statuswerte in eine verarbeitbare Form. Skalierung hilft dabei, numerische Merkmale mit sehr unterschiedlichen Grössenordnungen vergleichbar zu machen. Beides dient dazu, dass das Modell Muster auf Basis der Inhalte erkennt und nicht durch technische Darstellungen verzerrt wird.

Wer sollte im KMU die fachliche Prüfung von KI-Daten übernehmen?

Die fachliche Prüfung sollte dort verankert sein, wo die Geschäftslogik verstanden wird. Das sind in der Regel Fachverantwortliche aus Vertrieb, Produktion, Service, Finanzen oder anderen betroffenen Bereichen. Die IT stellt Struktur, Schnittstellen und Datenzugang sicher, ersetzt aber nicht die inhaltliche Bewertung. Sinnvoll ist meist ein gemeinsames Vorgehen zwischen Fachbereich, IT und gegebenenfalls externen Spezialisten.

Reicht ein gutes Tool aus, oder braucht es immer vorgängige Datenarbeit?

Ein Tool kann die Aufbereitung unterstützen, aber nicht die vorgängige Klärung der Datenbasis ersetzen. Ohne saubere Begriffe, nachvollziehbare Felder und fachliche Einordnung bleibt auch die beste Plattform begrenzt. Wer Rohdaten für KI nutzen will, braucht deshalb fast immer eine Form von Vorarbeit, selbst wenn moderne Werkzeuge viele technische Schritte vereinfachen.