What about step 1: understand your data before you touch it?

The biggest mistake I see beginners make is diving straight into cleaning without first understanding what they're working with. It's like trying to fix a car engine without knowing what model you're dealing with. You need to start with reconnaissance.

What about step 2: standardize your structure and format?

Once you understand your data, the next step is to establish a consistent structure. Inconsistent formatting is one of the most common and frustrating data quality issues I encounter. It manifests in countless ways: dates written as "01/15/2024" in one row and "January 15, 2024" in another, phone...

What about step 3: handle missing values strategically?

Missing data is inevitable. In my experience, virtually every real-world dataset has gaps. The question isn't whether you'll encounter missing values, but how you'll handle them. The approach you choose can significantly impact your analysis results, so this step requires careful thought.

What about step 4: identify and remove duplicate records?

Duplicate records are like weeds in a garden—they seem to appear out of nowhere and can quickly overrun your dataset if you don't deal with them. I've worked with databases where duplicates accounted for 30% or more of the records, completely skewing any analysis performed on them.

What about step 5: validate data types and ranges?

Data type validation is where you ensure that each field contains the type of data it's supposed to contain. This might sound basic, but type mismatches cause countless problems in data analysis and are surprisingly common in real-world datasets.

Data Cleaning 101: Fix Messy Data in 10 Steps [Tiếng Việt]

💡 Key Takeaways

Step 1: Understand Your Data Before You Touch It
Step 2: Standardize Your Structure and Format
Step 3: Handle Missing Values Strategically
Step 4: Identify and Remove Duplicate Records

Tôi sẽ không bao giờ quên ngày mà tôi đã mất ba tuần làm việc chỉ vì một dấu phẩy đặt sai chỗ. Đó là năm 2011, và tôi là một nhà phân tích dữ liệu cấp junior tại một công ty bảo hiểm quy mô vừa ở Chicago. Tôi đã dành gần một tháng để xây dựng mô hình phân khúc khách hàng, chỉ để phát hiện rằng toàn bộ tập dữ liệu của tôi đã bị hỏng do định dạng ngày tháng không đồng nhất và các ký tự đặc biệt ẩn náu trong những trường địa chỉ lẽ ra nên sạch sẽ. Mô hình đã trở thành rác rưởi. Sếp của tôi rất tức giận. Và tôi đã học được bài học khó khăn nhất trong sự nghiệp của mình: dữ liệu bừa bộn không chỉ làm chậm bạn lại—nó có thể hoàn toàn lật đổ công việc của bạn.

💡 Những Điều Chính Cần Ghi Nhớ

Bước 1: Hiểu Dữ Liệu Của Bạn Trước Khi Chạm Đến Nó
Bước 2: Chuẩn Hóa Cấu Trúc Và Định Dạng Của Bạn
Bước 3: Xử Lý Giá Trị Thiếu Một Cách Chiến Lược
Bước 4: Nhận Diện Và Xóa Bỏ Các Bản Ghi Trùng Lặp

Trải nghiệm đau thương đó đã đặt tôi vào một con đường định hình mười ba năm tiếp theo trong sự nghiệp của tôi. Hôm nay, với tư cách là một kỹ sư dữ liệu cấp cao chuyên về chất lượng và quản trị dữ liệu, tôi đã làm sạch hơn số lượng tập dữ liệu mà tôi có thể đếm được—từ các bảng tính 50 hàng đến các cơ sở dữ liệu đa tera phục vụ các công ty Fortune 500. Tôi đã thấy mọi hình thức lộn xộn dữ liệu có thể tưởng tượng: các bản ghi trùng lặp nhân lên như thỏ, các giá trị null giả vờ như số không, các trường văn bản bị ô nhiễm bởi các thẻ HTML, và các vấn đề mã hóa biến tên thành ngôn ngữ vô nghĩa.

Sự thật là, dữ liệu bẩn ở khắp mọi nơi. Theo một nghiên cứu của Gartner năm 2023, chất lượng dữ liệu kém khiến các tổ chức mất trung bình 12,9 triệu đô la mỗi năm. IBM ước tính rằng dữ liệu xấu khiến nền kinh tế Mỹ thiệt hại khoảng 3,1 triệu đô la mỗi năm. Tuy nhiên, bất chấp những con số đáng kinh ngạc này, hầu hết các tổ chức vẫn xem việc làm sạch dữ liệu như một việc phải làm—một thứ gì đó cần phải vội vàng hoàn thành trên con đường phân tích.

Bài viết này là nỗ lực của tôi để thay đổi điều đó. Trong vài phần tiếp theo, tôi sẽ hướng dẫn bạn qua quy trình 10 bước chính xác mà tôi sử dụng để biến dữ liệu lộn xộn, không đáng tin cậy thành các tập dữ liệu đã làm sạch, sẵn sàng cho phân tích. Đây không phải là những khái niệm lý thuyết—đó là những kỹ thuật đã được thử nghiệm mà tôi đã tinh chỉnh qua nhiều năm làm việc thực tế. Dù bạn đang xử lý một tập tin CSV đơn giản hay một tập dữ liệu đa nguồn phức tạp, khung làm việc này sẽ giúp bạn tiếp cận việc làm sạch dữ liệu một cách có hệ thống và hiệu quả.

Bước 1: Hiểu Dữ Liệu Của Bạn Trước Khi Chạm Đến Nó

Sai lầm lớn nhất mà tôi thấy những người mới bắt đầu mắc phải là lao vào làm sạch mà không hiểu trước những gì họ đang làm việc. Nó giống như việc cố gắng sửa chữa động cơ xe mà không biết mình đang xử lý mẫu xe nào. Bạn cần bắt đầu bằng việc thăm dò.

Khi tôi nhận được một tập dữ liệu mới, tôi dành ít nhất 30 phút chỉ để khám phá nó trước khi thực hiện bất kỳ thay đổi nào. Tôi mở nó trong một công cụ như Excel, Google Sheets, hoặc một trình xem CSV và cuộn qua nó. Tôi đang tìm kiếm các mẫu, sự bất thường, và cấu trúc. Có bao nhiêu hàng và cột? Các tiêu đề cột cho tôi biết điều gì? Có những phần hoặc nhóm rõ ràng nào không? Tôi có thấy bất kỳ cờ đỏ nào ngay lập tức như các ô gộp, mã màu, hoặc các tìm tổng số hợp nhất không?

Kế tiếp, tôi tạo ra các thống kê cơ bản cho từng cột. Đối với các trường số, tôi muốn biết giá trị tối thiểu, tối đa, trung bình, và trung vị. Đối với các trường văn bản, tôi muốn thấy số lượng giá trị duy nhất và các mục phổ biến nhất. Tổng quan thống kê này thường làm lộ ra những vấn đề mà không thể thấy khi bạn chỉ cuộn qua các hàng. Ví dụ, nếu một cột "số lượng" có giá trị tối thiểu là -500, đó là vấn đề rõ ràng về chất lượng dữ liệu cần điều tra.

Tôi cũng tạo một từ điển dữ liệu ở giai đoạn này—một tài liệu đơn giản mô tả từng trường, kiểu dữ liệu mong đợi của nó, mục đích của nó, và bất kỳ vấn đề nào đã biết. Điều này có vẻ như là công việc thêm vào, nhưng nó tiết kiệm rất nhiều thời gian sau này. Khi bạn đang đi sâu vào việc làm sạch và gặp phải điều gì đó khó hiểu, bạn có thể tham khảo lại từ điển của mình thay vì cố gắng nhớ những gì bạn đã học ba giờ trước.

Tài liệu hóa đặc biệt quan trọng khi bạn làm việc với dữ liệu từ nhiều nguồn khác nhau hoặc khi bạn sẽ cần lặp lại quy trình làm sạch trong tương lai. Một lần tôi đã làm việc trên một dự án nơi chúng tôi nhận dữ liệu bán hàng hàng tháng từ 47 văn phòng khu vực khác nhau, mỗi nơi có quy tắc định dạng hơi khác nhau. Việc tạo ra một từ điển dữ liệu toàn diện ngay từ tháng đầu tiên đã cứu chúng tôi hàng trăm giờ trong năm tiếp theo.

Cuối cùng, tôi luôn tạo một bản sao sao lưu của dữ liệu gốc trước khi làm bất kỳ điều gì khác. Tôi không thể nhấn mạnh điều này đủ: Không bao giờ làm việc trực tiếp trên bản sao duy nhất của dữ liệu. Tôi đã thấy quá nhiều người vô tình ghi đè tệp nguồn của họ và mất những thông tin không thể thay thế. Hãy tạo một bản sao, đặt tên cho nó rõ ràng với ngày tháng, và lưu trữ nó ở nơi an toàn. Bản thân bạn trong tương lai sẽ cảm ơn bạn.

Bước 2: Chuẩn Hóa Cấu Trúc Và Định Dạng Của Bạn

Khi bạn hiểu dữ liệu của mình, bước tiếp theo là thiết lập một cấu trúc nhất quán. Định dạng không nhất quán là một trong những vấn đề chất lượng dữ liệu phổ biến nhất và khó chịu nhất mà tôi gặp phải. Nó thể hiện qua vô số cách: các ngày được viết là "01/15/2024" trong một hàng và "15 tháng Giêng, 2024" trong một hàng khác, số điện thoại có và không có dấu gạch ngang, cách viết không nhất quán, và các đơn vị đo lường trộn lẫn nhau.

"Dữ liệu bẩn không chỉ là một vấn đề kỹ thuật—nó là một rủi ro kinh doanh. Mọi quyết định được đưa ra dựa trên dữ liệu xấu là một quyết định được đưa ra trong bóng tối."

Tôi bắt đầu bằng cách chuẩn hóa định dạng ngày tháng. Ngày tháng thường gây rắc rối vì các hệ thống và khu vực khác nhau định dạng chúng khác nhau. "03/04/2024" là ngày 4 tháng 3 hay ngày 3 tháng 4? Nếu không có ngữ cảnh, thật khó biết. Tôi luôn chuyển đổi các ngày sang định dạng ISO 8601 (YYYY-MM-DD) vì nó không mơ hồ và sắp xếp chính xác. Nếu dữ liệu của bạn bao gồm thời gian, hãy sử dụng định dạng YYYY-MM-DD HH:MM:SS.

Kế tiếp, tôi xử lý định dạng văn bản. Tôi thiết lập quy tắc cho cách viết hoa và áp dụng chúng một cách nhất quán. Đối với tên, tôi thường sử dụng cách viết hoa tiêu đề (John Smith). Đối với mã hoặc định danh, tôi có thể sử dụng chữ hoa (SKU-12345). Sự lựa chọn cụ thể ít quan trọng hơn so với sự nhất quán. Tôi cũng loại bỏ khoảng trắng ở đầu và cuối tất cả các trường văn bản—những ký tự vô hình này gây ra vô số vấn đề khi bạn đang cố gắng khớp hoặc lọc dữ liệu.

Định dạng số cũng cần được chú ý. Loại bỏ các ký hiệu tiền tệ, dấu phần trăm và dấu phân cách hàng nghìn khỏi các trường số. Lưu trữ chúng dưới dạng số nguyên chất và chỉ áp dụng định dạng khi trình bày dữ liệu. Một lần tôi đã gỡ lỗi một lỗi tính toán trong hai giờ trước khi nhận ra rằng một số số đã được lưu trữ dưới dạng văn bản vì chúng bao gồm các dấu phẩy. Công thức đã xử lý "1,000" như văn bản và "1000" như số, dẫn đến các kết quả cực kỳ không nhất quán.

Đối với dữ liệu phân loại, tôi tạo ra một danh sách tiêu chuẩn hóa các giá trị chấp nhận được và ánh xạ mọi thứ đến danh sách đó. Nếu bạn có một trường "trạng thái" chỉ nên chứa "Đang hoạt động," "Không hoạt động," hoặc "Đang chờ," nhưng bạn tìm thấy các biến thể như "đang hoạt động," "ĐANG HOẠT ĐỘNG," "Đang tiến hành," và "Chờ," bạn cần làm sạch những điều này. Tôi thường tạo một bảng ánh xạ cho thấy giá trị gốc và tương đương đã chuẩn hóa của nó, sau đó sử dụng tìm và thay thế hoặc một hàm tra cứu để áp dụng các sửa chữa.

Các tiêu đề cột xứng đáng được chú ý đặc biệt. Tôi đổi tên chúng cho rõ ràng, ngắn gọn và nhất quán. Tôi tránh khoảng trắng (sử dụng dấu gạch dưới thay vào đó), ký tự đặc biệt, và các viết tắt mơ hồ. "Cust_Name" tốt hơn "Tên Khách Hàng" cho hầu hết các công cụ xử lý dữ liệu, và "order_date" rõ ràng hơn "Ord_Dt" khi bạn đọc mã sau sáu tháng.

Bước 3: Xử Lý Giá Trị Thiếu Một Cách Chiến Lược

Dữ liệu thiếu là điều không thể tránh khỏi. Trong kinh nghiệm của tôi, gần như mọi tập dữ liệu thực tế đều có khoảng trống. Câu hỏi không phải là bạn có gặp phải các giá trị thiếu hay không, mà là bạn sẽ xử lý chúng như thế nào. Cách tiếp cận mà bạn chọn có thể ảnh hưởng đáng kể đến kết quả phân tích của bạn, vì vậy bước này yêu cầu suy nghĩ cẩn thận.

Loại Vấn Đề Dữ Liệu	Nguyên Nhân Phổ Biến	Tác Động Kinh Doanh	Khó Khăn Trong Làm Sạch
Bản Ghi Trùng Lặp	Nhập liệu thủ công, hợp nhất hệ thống, thiếu định danh duy nhất	Các chỉ số bị phóng đại, lãng phí tài nguyên, sự nhầm lẫn của khách hàng	Trung bình
Giá Trị Thiếu	Các trường tùy chọn, lỗi di chuyển dữ liệu, lỗi cảm biến	Phân tích không đầy đủ, các mô hình thiên lệch, khoảng trống trong báo cáo	Cao
Sự Không Nhất Quán Trong Định Dạng	Nhiều nguồn dữ liệu, khác biệt khu vực, hệ thống kế thừa	Các phép nối thất bại, lỗi phân tích, thất bại trong tích hợp	Thấp
Vấn Đề Mã Hóa	Mismatches bộ ký tự, chuyển giao tệp, di chuyển cơ sở dữ liệu	Văn bản bị hỏng, lỗi tìm kiếm, vấn đề hiển thị	Trung bình
Giá Trị Ngoại Lệ & Bất Thường	Lỗi nhập liệu, lỗi hệ thống, hoạt động gian lận	Thống kê lệch lạc, thông tin sai, suy giảm mô hình	Cao

Đầu tiên, tôi xác định tất cả các cách mà các giá trị thiếu xuất hiện trong tập dữ liệu. Các giá trị null là những cái rõ ràng, nhưng dữ liệu thiếu thường ngụy trang rất tốt. Tôi đã thấy các tập dữ liệu mà các giá trị thiếu được đại diện bằng "N/A," "NULL," "Không có," "—," chuỗi rỗng, số không, 999, hoặc thậm chí là các khoảng trắng đơn. Bạn cần tìm tất cả những biến thể này và quyết định cách xử lý chúng.

Chiến lược phù hợp phụ thuộc vào lý do dữ liệu thiếu và những gì bạn dự định làm với nó. Nếu các giá trị bị thiếu hoàn toàn một cách ngẫu nhiên và đại diện cho một phần nhỏ của dữ liệu, bạn có thể chọn cách bỏ qua chúng trong phân tích. Ngược lại, nếu các giá trị này có thể ảnh hưởng đến kết quả của bạn, bạn sẽ cần thực hiện những bước khôi phục thích hợp.

Data Cleaning 101: Fix Messy Data in 10 Steps — csv-x.com

Bước 1: Hiểu Dữ Liệu Của Bạn Trước Khi Chạm Đến Nó

Bước 2: Chuẩn Hóa Cấu Trúc Và Định Dạng Của Bạn

Bước 3: Xử Lý Giá Trị Thiếu Một Cách Chiến Lược