What about step 1: document your raw data before touching anything?

The first rule of data cleaning is counterintuitive: don't clean anything yet. Before you make a single change, you need to document exactly what you received. I learned this lesson the hard way when a client once accused me of introducing errors into their dataset. Without documentation of the...

What about step 2: understand the data generation process?

You cannot effectively clean data you don't understand. This seems obvious, yet I've watched analysts dive into cleaning without asking basic questions about where the data came from and how it was created. This is like trying to fix a car engine without knowing whether it runs on gasoline or...

What about step 3: profile your data systematically?

Data profiling is where you get to know your dataset intimately. This step involves generating comprehensive statistics and visualizations that reveal the actual structure and content of your data. I spend at least 30 minutes on this step for small datasets and several hours for large ones—it's...

What about step 4: handle missing data with strategy, not assumptions?

Missing data is the most common problem you'll encounter, and it's also the most commonly mishandled. The way you deal with missing values can dramatically affect your analysis results, yet I've seen analysts simply delete all rows with any missing data or fill everything with zeros without...

What about step 5: standardize formats and representations?

Inconsistent formatting is the silent killer of data analysis. It doesn't cause obvious errors—it just quietly splits your data into artificial categories and makes your results wrong. I've seen "New York," "NY," "new york," "N.Y.," and "New York City" all appear in the same state column, each...

The Data Cleaning Checklist: 15 Steps Before Any Analysis [Bahasa]

💡 Key Takeaways

Step 1: Document Your Raw Data Before Touching Anything
Step 2: Understand the Data Generation Process
Step 3: Profile Your Data Systematically
Step 4: Handle Missing Data with Strategy, Not Assumptions

Saya masih ingat hari di mana saya menyebabkan perusahaan saya kehilangan $47.000 akibat kesalahan satu titik desimal. Itu adalah tahun 2016, saya sudah tiga tahun menjalani karir sebagai analis data di sebuah rantai ritel menengah, dan saya baru saja menyelesaikan apa yang saya kira adalah analisis brilian mengenai tingkat perputaran inventaris kami. Tim eksekutif menyukai presentasi saya. Mereka segera menyetujui pemesanan besar berdasarkan rekomendasi saya. Dua minggu kemudian, kami menemukan kebenaran: saya gagal membersihkan dataset di mana harga dicatat secara tidak konsisten—beberapa dalam dolar, beberapa dalam sen. "Analisis menyeluruh" saya dibangun di atas data sampah, dan kelebihan stok yang dihasilkan memerlukan waktu enam bulan untuk diselesaikan.

💡 Intisari Utama

Langkah 1: Dokumentasikan Data Mentah Anda Sebelum Menyentuh Apa Pun
Langkah 2: Pahami Proses Generasi Data
Langkah 3: Profil Data Anda Secara Sistematis
Langkah 4: Tangani Data yang Hilang dengan Strategi, Bukan Asumsi

Kesalahan mahal itu mengajarkan saya sesuatu yang sudah diperkuat oleh lima belas tahun pengalaman: pembersihan data bukanlah prasyarat membosankan untuk analisis—ini adalah fondasi yang menentukan apakah wawasan Anda akan membangun karir atau menghancurkannya. Saat ini, sebagai Konsultan Senior Analisis Data yang telah membersihkan dataset mulai dari 500 baris hingga 50 juta catatan di bidang kesehatan, keuangan, ritel, dan manufaktur, saya telah mengembangkan pendekatan sistematis yang menangkap kesalahan sebelum mereka menjadi bencana.

Statistiknya mengejutkan. Menurut IBM, kualitas data yang buruk menghabiskan biaya sekitar $3,1 triliun setiap tahun untuk ekonomi AS. Penelitian Gartner menunjukkan bahwa organisasi percaya bahwa kualitas data yang buruk bertanggung jawab atas kerugian rata-rata $15 juta per tahun. Meskipun angka ini sangat mencengangkan, saya telah menyaksikan banyak analis—bahkan yang berpengalaman—terburu-buru melewati pembersihan data atau melewatkan langkah-langkah sama sekali, ingin segera menuju "bagian menarik" dari analisis.

Daftar periksa ini mewakili kebijaksanaan yang disaring dari pembersihan ribuan dataset, membuat banyak kesalahan, dan mempelajari apa yang benar-benar penting. Ini bukan praktik terbaik yang bersifat teoretis—ini adalah langkah-langkah spesifik yang telah menyelamatkan klien saya jutaan dan menjaga analisis saya sendiri tetap akurat.

Langkah 1: Dokumentasikan Data Mentah Anda Sebelum Menyentuh Apa Pun

Aturan pertama dalam pembersihan data adalah berlawanan dengan intuisi: jangan bersihkan apa pun dulu. Sebelum Anda membuat satu perubahan pun, Anda perlu mendokumentasikan dengan tepat apa yang Anda terima. Saya belajar pelajaran ini dengan cara yang sulit ketika seorang klien pernah menuduh saya telah memperkenalkan kesalahan ke dalam dataset mereka. Tanpa dokumentasi tentang keadaan asli, saya tidak memiliki cara untuk membuktikan bahwa masalah sudah ada sebelum saya menyentuh data.

Mulailah dengan membuat resi data. Catat sumber, tanggal diterima, format file, jumlah baris dan kolom, ukuran file, dan siapa yang menyediakannya. Ambil tangkapan layar dari 20 baris pertama dan 20 baris terakhir. Hitung statistik dasar: berapa total sel, berapa banyak yang tampak kosong, tipe data apa yang ada. Ini mungkin memakan waktu sekitar sepuluh menit tetapi telah menghemat banyak jam saya dalam melacak kembali.

Saya menggunakan template sederhana yang saya isi untuk setiap dataset. Ini mencakup bidang untuk jumlah baris yang diharapkan (jika diketahui), kolom yang diharapkan dan tujuannya, masalah kualitas data yang diketahui yang disebutkan oleh penyedia, dan pengamatan awal saya. Dokumen ini menjadi sangat berharga ketika pertanyaan muncul di kemudian hari—dan selalu demikian.

Selanjutnya, buat salinan lengkap dari data mentah dan simpan di tempat yang tidak akan Anda modifikasi secara tidak sengaja. Saya menyimpan milik saya dalam folder yang secara harfiah diberi nama "00_RAW_DO_NOT_TOUCH" dengan izin hanya-baca. Anda akan terkejut betapa sering Anda perlu merujuk kembali ke data asli untuk memverifikasi apakah suatu anomali sudah ada sejak awal atau diperkenalkan selama pembersihan.

Akhirnya, buat log pembersihan data. Ini adalah dokumen terpisah di mana Anda akan mencatat setiap perubahan yang Anda buat pada dataset, mengapa Anda membuatnya, dan kapan. Ini terdengar membosankan, tetapi log ini telah menyelamatkan reputasi saya lebih kali daripada yang dapat saya hitung. Ketika pemangku kepentingan mempertanyakan analisis Anda enam bulan kemudian, Anda akan memiliki jalur audit lengkap yang menunjukkan dengan tepat bagaimana Anda mengubah data mentah menjadi dataset analitis akhir Anda.

Langkah 2: Pahami Proses Generasi Data

Anda tidak dapat secara efektif membersihkan data yang tidak Anda pahami. Ini terlihat jelas, namun saya telah menyaksikan analis terjun ke pembersihan tanpa menanyakan pertanyaan dasar tentang dari mana data tersebut berasal dan bagaimana data itu dibuat. Ini seperti mencoba memperbaiki mesin mobil tanpa mengetahui apakah itu menggunakan bensin atau diesel.

Pembersihan data bukan hanya tentang memperbaiki kesalahan—ini tentang memahami data Anda dengan baik cukup untuk mengetahui kapan sesuatu yang tampak seperti kesalahan sebenarnya adalah wawasan kritis, dan kapan sesuatu yang tampak normal sebenarnya adalah bencana yang menunggu untuk terjadi.

Jadwalkan percakapan dengan siapa pun yang menyediakan data atau, lebih baik lagi, dengan orang-orang yang awalnya memasukkan atau menghasilkannya. Ajukan pertanyaan seperti: Bagaimana data ini dikumpulkan? Apakah itu entri manual atau otomatis? Sistem mana yang menghasilkan data ini? Apakah ada masalah yang diketahui selama periode pengumpulan? Apa yang sebenarnya diwakili oleh masing-masing kolom? Apakah ada kode atau singkatan yang harus saya ketahui?

Saya pernah menghabiskan dua hari mencoba mencari tahu mengapa kolom "kepuasan pelanggan" berisi nilai-nilai seperti "NPS_9" dan "CSAT_7" yang tercampur. Sebuah percakapan lima menit dengan tim entri data mengungkapkan bahwa mereka telah mengganti sistem survei di tengah tahun dan menggunakan sistem notasi hibrida. Memahami proses generasi segera menjelaskan apa yang tampak seperti data yang rusak.

Perhatikan dengan saksama untuk memahami rentang dan hubungan yang diharapkan dalam data Anda. Jika Anda bekerja dengan data penjualan, berapa nilai pesanan yang tipikal? Apa rentangnya dari yang terkecil hingga terbesar? Jika Anda menganalisis data pasien, rentang usia apa yang harus Anda harapkan? Harapan-harapan ini menjadi pemeriksaan kesehatan mental Anda selama pembersihan.

Juga tanyakan tentang setiap transformasi yang telah dilakukan pada data. Apakah ini data mentah langsung dari sumber, atau apakah seseorang sudah membersihkan, mengagregasi, atau memodifikasinya? Saya pernah menemui dataset yang telah melewati tiga proses pembersihan berbeda oleh orang yang berbeda, masing-masing memperkenalkan asumsi dan perubahan mereka sendiri. Mengetahui sejarah ini membantu Anda memahami anomali dan menghindari pembersihan berlebihan.

Langkah 3: Profil Data Anda Secara Sistematis

Profiling data adalah di mana Anda mengenal dataset Anda dengan intim. Langkah ini melibatkan menghasilkan statistik dan visualisasi yang komprehensif yang mengungkapkan struktur dan konten sebenarnya dari data Anda. Saya menghabiskan setidaknya 30 menit untuk langkah ini untuk dataset kecil dan beberapa jam untuk yang besar—ini adalah waktu yang memberikan imbalan di seluruh analisis.

Masalah Kualitas Data	Kesulitan Deteksi	Dampak Potensial	Sumber Umum
Nilai yang Hilang	Mudah	Sedang hingga Tinggi	Kesalahan sistem, formulir yang tidak lengkap, celah integrasi data
Satuan yang Tidak Konsisten	Sulit	Kritis	Banyak sumber data, sistem internasional, migrasi warisan
Catatan Duplikat	Sedang	Sedang	Kesalahan entri data, kesalahan sistem, operasi penggabungan
Pencilan (Tidak Valid)	Sedang	Tinggi	Kesalahan input, kegagalan sensor, korupsi data
Konsistensi Format	Mudah hingga Sedang	Rendah hingga Sedang	Entri manual, sistem yang berbeda, konversi tanggal/waktu

Untuk setiap kolom, hitung dasar-dasarnya: jumlah nilai non-null, jumlah nilai null, jumlah nilai unik, tipe data, nilai minimum, nilai maksimum, rata-rata, median, dan modus jika berlaku. Statistik ini segera mengungkapkan masalah. Jika kolom "umur" Anda memiliki nilai maksimum 847, Anda memiliki masalah. Jika kolom "negara bagian" Anda memiliki 73 nilai unik padahal hanya ada 50 negara bagian AS, ada yang salah.

Buat distribusi frekuensi untuk variabel kategorikal. Berapa kali masing-masing nilai unik muncul? Saya telah menangkap banyak kesalahan entri data dengan cara ini. Misalnya, dalam sebuah dataset negara bagian AS, saya pernah menemukan "CA" muncul 5.000 kali, "California" muncul 200 kali, "ca" muncul 50 kali, dan "Calif" muncul 30 kali. Semua negara bagian yang sama, empat representasi berbeda—masing-masing membagi analisis saya.

Untuk kolom numerik, buat histogram dan box plot. Visualisasi ini mengungkapkan distribusi, pencilan, dan pola yang tidak terduga yang mungkin terlewat oleh statistik mentah. Saya pernah menemukan bahwa kolom "jumlah transaksi" memiliki lonjakan yang mencurigakan di angka $999,99—ternyata sistem pembayaran memiliki bug yang mencatat transaksi yang gagal pada jumlah itu alih-alih null.

Periksa pola yang tidak terduga dalam data yang seharusnya acak. Jika Anda memiliki ID transaksi atau ID pelanggan yang seharusnya unik, verifikasi bahwa itu benar-benar unik. Saya telah menemukan ID duplikat di kolom "identifikasi unik" lebih sering daripada yang mau saya akui. Juga cari pola berurutan di mana seharusnya tidak ada—kadang-kadang d...

The Data Cleaning Checklist: 15 Steps Before Any Analysis — csv-x.com

Langkah 1: Dokumentasikan Data Mentah Anda Sebelum Menyentuh Apa Pun

Langkah 2: Pahami Proses Generasi Data

Langkah 3: Profil Data Anda Secara Sistematis