What about step 1: document your raw data before touching anything?

The first rule of data cleaning is counterintuitive: don't clean anything yet. Before you make a single change, you need to document exactly what you received. I learned this lesson the hard way when a client once accused me of introducing errors into their dataset. Without documentation of the...

What about step 2: understand the data generation process?

You cannot effectively clean data you don't understand. This seems obvious, yet I've watched analysts dive into cleaning without asking basic questions about where the data came from and how it was created. This is like trying to fix a car engine without knowing whether it runs on gasoline or...

What about step 3: profile your data systematically?

Data profiling is where you get to know your dataset intimately. This step involves generating comprehensive statistics and visualizations that reveal the actual structure and content of your data. I spend at least 30 minutes on this step for small datasets and several hours for large ones—it's...

What about step 4: handle missing data with strategy, not assumptions?

Missing data is the most common problem you'll encounter, and it's also the most commonly mishandled. The way you deal with missing values can dramatically affect your analysis results, yet I've seen analysts simply delete all rows with any missing data or fill everything with zeros without...

What about step 5: standardize formats and representations?

Inconsistent formatting is the silent killer of data analysis. It doesn't cause obvious errors—it just quietly splits your data into artificial categories and makes your results wrong. I've seen "New York," "NY," "new york," "N.Y.," and "New York City" all appear in the same state column, each...

The Data Cleaning Checklist: 15 Steps Before Any Analysis [Deutsch]

💡 Key Takeaways

Step 1: Document Your Raw Data Before Touching Anything
Step 2: Understand the Data Generation Process
Step 3: Profile Your Data Systematically
Step 4: Handle Missing Data with Strategy, Not Assumptions

Ich erinnere mich noch an den Tag, an dem ich meinem Unternehmen mit einem einzigen Fehler bei der Dezimalstelle 47.000 $ gekostet habe. Es war 2016, ich war drei Jahre in meiner Karriere als Datenanalyst bei einer mittelgroßen Einzelhandelskette, und ich hatte gerade eine Analyse unserer Lagerumschlagsrate abgeschlossen, von der ich dachte, dass sie brillant war. Das Führungsteam liebte meine Präsentation. Sie genehmigten sofort eine massive Nachbestellung basierend auf meinen Empfehlungen. Zwei Wochen später entdeckten wir die Wahrheit: Ich hatte es versäumt, einen Datensatz zu bereinigen, in dem die Preise inkonsistent aufgezeichnet waren – einige in Dollar, andere in Cent. Meine „gründliche Analyse“ basierte auf fehlerhaften Daten, und der resultierende Überbestand dauerte sechs Monate, um abgebaut zu werden.

💡 Wichtige Erkenntnisse

Schritt 1: Dokumentieren Sie Ihre Rohdaten, bevor Sie irgendetwas berühren
Schritt 2: Verstehen Sie den Datenentstehungsprozess
Schritt 3: Profilieren Sie Ihre Daten systematisch
Schritt 4: Gehen Sie strategisch mit fehlenden Daten um, nicht mit Annahmen

Dieser teure Fehler hat mir etwas beigebracht, das vierzehn Jahre Erfahrung nur verstärkt hat: Die Datenbereinigung ist nicht die langweilige Voraussetzung für die Analyse – sie ist das Fundament, das bestimmt, ob Ihre Erkenntnisse Karrieren aufbauen oder zerstören. Heute, als Senior Data Analytics Consultant, der Datensätze von 500 Zeilen bis zu 50 Millionen Datensätzen im Gesundheitswesen, Finanzwesen, Einzelhandel und der Fertigung bereinigt hat, habe ich einen systematischen Ansatz entwickelt, der Fehler erkennt, bevor sie zu Katastrophen werden.

Die Statistiken sind ernüchternd. Laut IBM kostet schlechte Datenqualität die US-Wirtschaft jährlich rund 3,1 Billionen US-Dollar. Gartner-Forschung zeigt, dass Organisationen glauben, die schlechte Datenqualität sei für durchschnittlich 15 Millionen US-Dollar pro Jahr an Verlusten verantwortlich. Doch trotz dieser erschreckenden Zahlen habe ich unzählige Analysten – selbst erfahrene – beobachtet, die bei der Datenbereinigung hastig vorgehenden oder Schritte ganz ausließen, um schnell zum „interessanten“ Teil der Analyse zu gelangen.

Diese Checkliste repräsentiert die destillierte Weisheit aus der Bereinigung von Tausenden von Datensätzen, dem Begehen zahlreicher Fehler und dem Lernen, was tatsächlich wichtig ist. Dies sind keine theoretischen Best Practices – es sind die spezifischen Schritte, die meinen Klienten Millionen gespart und meine eigenen Analysen genau gehalten haben.

Schritt 1: Dokumentieren Sie Ihre Rohdaten, bevor Sie irgendetwas berühren

Die erste Regel der Datenbereinigung ist kontraintuitiv: Berühren Sie noch nichts. Bevor Sie eine einzige Änderung vornehmen, müssen Sie genau dokumentieren, was Sie erhalten haben. Ich habe diese Lektion auf die harte Tour gelernt, als mich ein Kunde einmal beschuldigte, Fehler in seinem Datensatz eingeführt zu haben. Ohne die Dokumentation des ursprünglichen Zustands hatte ich keine Möglichkeit zu beweisen, dass die Probleme existierten, bevor ich die Daten berührte.

Beginnen Sie damit, eine Datenannahme zu erstellen. Halten Sie die Quelle, das Datum des Empfangs, das Dateiformat, die Anzahl der Zeilen und Spalten, die Dateigröße und wer sie bereitgestellt hat fest. Machen Sie Screenshots der ersten 20 Zeilen und der letzten 20 Zeilen. Berechnen Sie grundlegende Statistiken: Wie viele insgesamt Zellen gibt es, wie viele erscheinen leer, welche Datentypen sind vorhanden. Das dauert vielleicht zehn Minuten, hat mir aber unzählige Stunden des Zurückverfolgens gespart.

Ich benutze eine einfache Vorlage, die ich für jeden Datensatz ausfülle. Sie enthält Felder für die erwartete Zeilenanzahl (wenn bekannt), erwartete Spalten und deren Zwecke, alle bekannten Datenqualitätsprobleme, die vom Anbieter erwähnt wurden, und meine ersten Beobachtungen. Dieses Dokument wird von unschätzbarem Wert, wenn später Fragen auftauchen – und das tun sie immer.

Als Nächstes erstellen Sie ein komplettes Backup der Rohdaten und speichern Sie es an einem Ort, an dem Sie es nicht versehentlich ändern. Ich bewahre meines in einem Ordner auf, der buchstablich „00_RAW_DO_NOT_TOUCH“ heißt und nur Lesezugriff hat. Sie wären überrascht, wie oft Sie auf die ursprünglichen Daten zurückgreifen müssen, um zu überprüfen, ob eine Anomalie von Anfang an vorhanden war oder während der Bereinigung eingeführt wurde.

Schließlich erstellen Sie ein Protokoll zur Datenbereinigung. Dies ist ein separates Dokument, in dem Sie jede einzelne Änderung festhalten, die Sie am Datensatz vornehmen, warum Sie sie vorgenommen haben und wann. Es klingt mühsam, aber dieses Protokoll hat meinen Ruf mehrmals gerettet, als ich es zählen kann. Wenn Stakeholder sechs Monate später Ihre Analyse in Frage stellen, haben Sie eine vollständige Prüfspur, die genau zeigt, wie Sie die Rohdaten in Ihren endgültigen analytischen Datensatz transformiert haben.

Schritt 2: Verstehen Sie den Datenentstehungsprozess

Sie können Daten, die Sie nicht verstehen, nicht effektiv bereinigen. Das scheint offensichtlich, dennoch habe ich Analysten beobachtet, die lässig in die Bereinigung eintauchten, ohne grundlegende Fragen zu stellen, woher die Daten kamen und wie sie erstellt wurden. Das ist, als wollte man einen Auto-Motor reparieren, ohne zu wissen, ob er mit Benzin oder Diesel läuft.

Datenbereinigung bedeutet nicht nur, Fehler zu beheben – es bedeutet, Ihre Daten so gut zu verstehen, dass Sie wissen, wann etwas, das wie ein Fehler aussieht, tatsächlich ein kritischer Einblick ist, und wann etwas, das normal aussieht, tatsächlich eine Katastrophe wartet, die passieren kann.

Vereinbaren Sie ein Gespräch mit demjenigen, der die Daten bereitgestellt hat oder, besser noch, mit den Menschen, die sie ursprünglich eingegeben oder erstellt haben. Stellen Sie Fragen wie: Wie wurden diese Daten erhoben? War es manuelle Eingabe oder automatisiert? Welches System hat sie erstellt? Gab es während des Erfassungszeitraums bekannte Probleme? Was stellen die einzelnen Spalten tatsächlich dar? Gibt es Codes oder Abkürzungen, die ich kennen sollte?

Einmal verbrachte ich zwei Tage damit, herauszufinden, warum eine Spalte „Kundenzufriedenheit“ Werte wie „NPS_9“ und „CSAT_7“ gemischt enthielt. Ein fünfminütiges Gespräch mit dem Dateneingangsteam offenbarte, dass sie mitten im Jahr das Umfragesystem gewechselt hatten und ein hybrides Notationssystem verwendeten. Das Verständnis des Entstehungsprozesses erklärte sofort, was wie beschädigte Daten aussah.

Achten Sie besonders darauf, die erwarteten Bereiche und Beziehungen in Ihren Daten zu verstehen. Wenn Sie mit Verkaufsdaten arbeiten, was ist ein typischer Bestellwert? Wie hoch ist der Bereich vom kleinsten bis zum größten? Wenn Sie Patientendaten analysieren, welche Altersgruppen sollten Sie erwarten? Diese Erwartungen werden zu Ihren Realitätsprüfungen während der Bereinigung.

Fragen Sie auch nach, ob bereits Transformationen stattgefunden haben. Sind diese Rohdaten direkt aus der Quelle oder wurde sie bereits von jemandem bereinigt, aggregiert oder geändert? Ich habe Datensätze getroffen, die bereits drei verschiedenen Bereinigungsprozessen durch verschiedene Personen durchlaufen hatten, wobei jede ihre eigenen Annahmen und Änderungen eingeführt hat. Diese Geschichte zu kennen hilft Ihnen, Anomalien zu verstehen und zu vermeiden, dass Sie zu stark reinigen.

Schritt 3: Profilieren Sie Ihre Daten systematisch

Das Datenprofiling ist der Schritt, bei dem Sie Ihre Datensätze näher kennenlernen. Dieser Schritt beinhaltet die Erstellung umfassender Statistiken und Visualisierungen, die die tatsächliche Struktur und den Inhalt Ihrer Daten offenbaren. Ich verbringe mindestens 30 Minuten mit diesem Schritt für kleine Datensätze und mehrere Stunden für große – es ist eine Zeit, die sich während der gesamten Analyse auszahlt.

Datenqualitätsproblem	Erkennungsschwierigkeit	Potenzielle Auswirkungen	Häufige Quelle
Fehlende Werte	Einfach	Mittel bis Hoch	Systemfehler, unvollständige Formulare, Datenintegrationslücken
Inkonsistente Einheiten	Schwierig	Kritisch	Mehrere Datenquellen, internationale Systeme, Legacy-Migrationen
Duplikatdatensätze	Mittel	Mittel	Dateneingabefehler, Systemfehler, Zusammenführungsoperationen
Ausreißer (ungültig)	Mittel	Hoch	Eingabefehler, Sensorfehler, Datenkorruption
Formatinkonsistenzen	Einfach bis Mittel	Niedrig bis Mittel	Manuelle Eingabe, verschiedene Systeme, Datum-/Zeitkonvertierungen

Berechnen Sie für jede Spalte die Grundlagen: Anzahl der nicht null-Werte, Anzahl der null-Werte, Anzahl der eindeutigen Werte, Datentyp, Minimalwert, Maximalwert, Mittelwert, Median und Modus, wo zutreffend. Diese Statistiken zeigen sofort Probleme auf. Wenn Ihre Spalte „Alter“ einen Maximalwert von 847 hat, haben Sie ein Problem. Wenn Ihre Spalte „Bundesland“ 73 eindeutige Werte hat, obwohl es nur 50 Bundesstaaten der USA gibt, stimmt etwas nicht.

Erstellen Sie Häufigkeitsverteilungen für kategoriale Variablen. Wie oft erscheint jeder einzigartige Wert? Ich habe auf diese Weise unzählige Fehler bei der Dateneingabe entdeckt. Zum Beispiel fand ich in einem Datensatz der US-Bundesstaaten einmal, dass „CA“ 5.000 Mal erschien, „California“ 200 Mal erschien, „ca“ 50 Mal erschien und „Calif“ 30 Mal erschien. Alle derselbe Bundesstaat, vier verschiedene Darstellungen – jede trennte meine Analyse.

Für numerische Spalten erstellen Sie Histogramme und Boxplots. Diese Visualisierungen zeigen Verteilungen, Ausreißer und unerwartete Muster, die rohe Statistiken möglicherweise übersehen. Einmal entdeckte ich, dass eine Spalte „Transaktionsbetrag“ einen verdächtigen Anstieg bei genau 999,99 $ hatte – es stellte sich heraus, dass das Zahlungssystem einen Fehler hatte, der fehlgeschlagene Transaktionen zu diesem Betrag erfasste, anstatt null.

Überprüfen Sie auf unerwartete Muster in angeblich zufälligen Daten. Wenn Sie Transaktions-IDs oder Kunden-IDs haben, die einzigartig sein sollten, stellen Sie sicher, dass sie dies tatsächlich sind. Ich habe mehrmals Duplikate in „eindeutigen Identifikatoren“ gefunden, als ich zugeben möchte. Achten Sie auch auf sequenzielle Muster, wo solche nicht vorhanden sein sollten – manchmal d

The Data Cleaning Checklist: 15 Steps Before Any Analysis — csv-x.com

Schritt 1: Dokumentieren Sie Ihre Rohdaten, bevor Sie irgendetwas berühren

Schritt 2: Verstehen Sie den Datenentstehungsprozess

Schritt 3: Profilieren Sie Ihre Daten systematisch