What about step 1: document your raw data before touching anything?

The first rule of data cleaning is counterintuitive: don't clean anything yet. Before you make a single change, you need to document exactly what you received. I learned this lesson the hard way when a client once accused me of introducing errors into their dataset. Without documentation of the...

What about step 2: understand the data generation process?

You cannot effectively clean data you don't understand. This seems obvious, yet I've watched analysts dive into cleaning without asking basic questions about where the data came from and how it was created. This is like trying to fix a car engine without knowing whether it runs on gasoline or...

What about step 3: profile your data systematically?

Data profiling is where you get to know your dataset intimately. This step involves generating comprehensive statistics and visualizations that reveal the actual structure and content of your data. I spend at least 30 minutes on this step for small datasets and several hours for large ones—it's...

What about step 4: handle missing data with strategy, not assumptions?

Missing data is the most common problem you'll encounter, and it's also the most commonly mishandled. The way you deal with missing values can dramatically affect your analysis results, yet I've seen analysts simply delete all rows with any missing data or fill everything with zeros without...

What about step 5: standardize formats and representations?

Inconsistent formatting is the silent killer of data analysis. It doesn't cause obvious errors—it just quietly splits your data into artificial categories and makes your results wrong. I've seen "New York," "NY," "new york," "N.Y.," and "New York City" all appear in the same state column, each...

The Data Cleaning Checklist: 15 Steps Before Any Analysis [한국어]

💡 Key Takeaways

Step 1: Document Your Raw Data Before Touching Anything
Step 2: Understand the Data Generation Process
Step 3: Profile Your Data Systematically
Step 4: Handle Missing Data with Strategy, Not Assumptions

나는 단 하나의 소수점 오류로 내 회사에 $47,000을 손실시킨 날을 아직도 기억한다. 2016년, 나는 중형 소매 체인에서 데이터 분석가로 3년 차에 접어들었고, 우리는 재고 회전율에 대한 뛰어난 분석을 막 마쳤다. 경영진 팀은 내 프레젠테이션을 좋아했다. 그들은 나의 추천을 바탕으로 대규모 재주문을 즉시 승인했다. 2주 후, 우리는 진실을 발견했다: 나는 가격이 일관되게 기록되지 않은 데이터 세트를 정리하지 못했다—어떤 것은 달러로, 어떤 것은 센트로 기록되었다. 내 "철저한 분석"은 쓰레기 데이터에 기반한 것이었고, 결과적으로 초과 재고를 처리하는 데 여섯 달이 걸렸다.

💡 주요 요점

1단계: 무엇이든 조작하기 전에 원시 데이터 문서화하기
2단계: 데이터 생성 프로세스 이해하기
3단계: 데이터 체계적으로 프로파일링하기
4단계: 가정이 아니라 전략으로 결측 데이터 처리하기

그 비싼 실수는 열다섯 년의 경험이 더욱 강화한 교훈을 나에게 가르쳤다: 데이터 정리는 분석의 지루한 전제조건이 아니라, 당신의 통찰력이 경력을 쌓거나 파괴할지를 결정하는 기반이다. 오늘, 나는 의료, 금융, 소매 및 제조 분야에서 500행에서 5천만 기록에 이르는 데이터 세트를 정리한 수석 데이터 분석 컨설턴트로서, 재앙이 되기 전에 오류를 잡아내는 체계적인 접근 방식을 개발했다.

통계는 서글프다. IBM에 따르면, 불량 데이터 품질로 인해 미국 경제는 매년 약 3.1조 달러의 비용을 겪고 있다. 가트너 역시 연구 결과 불량 데이터 품질로 인해 조직들이 매년 평균 1500만 달러의 손실을 보고한다고 한다. 그럼에도 불구하고, 나는 많은 분석가들—경험이 많은 이들조차도—데이터 정리를 서두르거나 단계들을 완전히 건너뛰는 모습을 봤고, "흥미로운" 분석 부분으로 빨리 가고자 했다.

이 체크리스트는 수천 개의 데이터 세트를 정리하며 수많은 실수를 범하고 실제로 중요한 것이 무엇인지 배운 결실이다. 이건 이론적인 모범 사례가 아니라, 내 클라이언트가 수백만 달러를 절약하고 나의 분석이 정확성을 유지하게 한 특정한 단계들이다.

1단계: 무엇이든 조작하기 전에 원시 데이터 문서화하기

데이터 정리의 첫 번째 규칙은 직관에 반한다: 아직 아무것도 정리하지 마라. 한 번의 변경을 가하기 전에, 무엇을 받았는지 정확히 문서화해야 한다. 나는 한 번 고객이 내 데이터 세트에 오류를 도입했다고 나를 비난했을 때 이 교훈을 실전에서 배웠다. 원래 상태에 대한 문서 없이, 데이터에 손대기 전 문제들이 존재했음을 증명할 방법이 없었다.

먼저 데이터 수령서를 작성한다. 출처, 수령일, 파일 형식, 행 및 열의 수, 파일 크기, 제공자를 기록한다. 처음 20행과 마지막 20행의 스크린샷을 찍는다. 기본 통계 계산하기: 총 셀 수, 비어 보이는 셀 수, 존재하는 데이터 유형. 이것은 10분 정도 걸리지만, 무수한 시간의 회귀작업을 절약해주었다.

모든 데이터 세트에 대해 작성하는 간단한 템플릿을 사용한다. 여기에는 (알려진 경우) 예상 행 수, 예상 열 및 그 목적, 제공자가 언급한 데이터 품질 문제, 그리고 나의 초기 관찰을 위한 필드가 포함된다. 이 문서는 나중에 질문이 생길 때—항상 생기기 마련이다—매우 귀중해진다.

다음으로 원시 데이터의 완전한 백업을 만들고 우연히 수정하지 않을 장소에 저장한다. 나는 "00_RAW_DO_NOT_TOUCH"라는 폴더에 읽기 전용 권한으로 보관한다. 원본 데이터로 돌아가서 이상이 처음부터 존재했는지 아니면 정리 중에 도입된 것인지 확인해야 할 때가 얼마나 많은지 놀랄 것이다.

마지막으로 데이터 정리 로그를 만든다. 이는 데이터 세트에 대해 내가 한 모든 변경, 이유, 시간을 기록할 별도의 문서이다. 이는 지루하게 들리지만, 이 로그는 내 명성을 여러 번 구조적으로 구해주었다. 이해관계자들이 6개월 후 내 분석에 의문을 제기할 때, 나는 원시 데이터를 최종 분석 데이터 세트로 변환하는 과정을 정확히 보여주는 완전한 감사 추적을 갖게 된다.

2단계: 데이터 생성 프로세스 이해하기

당신이 이해하지 못하는 데이터를 효과적으로 정리할 수 없다. 이것은 자명해 보이지만, 나는 분석가들이 데이터의 출처와 생성 방법에 대한 기본적인 질문 없이 정리 작업에 뛰어드는 모습도 보았다. 이것은 자동차 엔진이 휘발유로 작동하는지 디젤로 작동하는지 모른 채 수리를 시도하는 것과 같다.

데이터 정리는 단순히 오류를 수정하는 것이 아니다—데이터를 충분히 이해하여 오류처럼 보이는 것이 실제로는 중요한 통찰인지, 정상처럼 보이는 것이 실제로는 재앙을 일으킬 것인지를 아는 것이다.

데이터를 제공한 사람과 대화를 예약하거나, 더 나아가 원래 데이터를 입력하거나 생성한 사람들이랑 대화하라. 다음과 같은 질문을 해봐라: 이 데이터는 어떻게 수집되었는가? 수작업 입력인가 자동화인가? 어떤 시스템이 생성했는가? 수집 기간 동안 알려진 문제가 있었는가? 각 열은 실제로 무엇을 나타내는가? 내가 알아야 할 코드나 약어가 있는가?

나는 한 번 "고객 만족도" 열에 "NPS_9"와 "CSAT_7" 값들이 혼합되어 있는 이유를 두 일 걸려 파악한 적이 있다. 데이터 입력 팀과의 5분 대화로 그들이 연중간 설문 시스템을 변경하고 혼합 표기법을 사용하고 있음을 알게 되었다. 생성 프로세스를 이해함으로써 즉시 데이터가 손상된 것처럼 보였던 이유를 설명할 수 있었다.

데이터에서 기대되는 범위와 관계를 이해하는 데 특별히 주의하라. 판매 데이터에 대해 작업 중이라면, 일반 주문 가치는 무엇인가? 가장 작고 큰 것의 범위는 어떠한가? 환자 데이터 분석 중이라면, 어떤 나이 범위를 예상해야 하는가? 이러한 기대는 정리 과정에서 정신을 차릴 수 있는 체크가 된다.

데이터가 이미 겪었던 변환에 대한 질문도 해보라. 이 원시 데이터는 소스에서 직접 온 것인가, 아니면 누군가 이미 정리, 집계 또는 수정했는가? 나는 서로 다른 사람들이 세 가지 다른 정리 프로세스를 거친 데이터 세트를 만난 경험이 있으며, 각각은 저마다의 가정과 변경을 도입했다. 이러한 이력을 아는 것은 당신이 이상치를 이해하고 과도하게 정리하는 것을 피하는 데 도움이 된다.

3단계: 데이터 체계적으로 프로파일링하기

데이터 프로파일링은 데이터 세트를 친밀하게 이해하는 지점이다. 이 단계는 데이터의 실제 구조와 내용을 드러내는 포괄적인 통계와 시각화를 생성하는 것을 포함한다. 나는 작은 데이터 세트에서는 최소 30분, 큰 데이터 세트에서는 몇 시간을 이 단계에 투자한다—이 시간은 전체 분석에서 유익한 결과를 가져온다.

데이터 품질 문제	탐지 난이도	잠재적 영향	일반적인 출처
결측 값	쉬움	중간에서 높음	시스템 오류, 불완전한 양식, 데이터 통합의 격차
일관성 없는 단위	어려움	치명적	다양한 데이터 출처, 국제 시스템, 레거시 마이그레이션
중복 기록	중간	중간	데이터 입력 오류, 시스템 오류, 병합 작업
이상치 (유효하지 않은)	중간	높음	입력 오류, 센서 오작동, 데이터 손상
포맷 일관성 부족	쉬움에서 중간	낮음에서 중간	수동 입력, 서로 다른 시스템, 날짜/시간 변환

모든 열에 대해 기본적인 사항을 계산하라: null이 아닌 값의 수, null 값의 수, 고유 값의 수, 데이터 유형, 최소값, 최대값, 평균, 중앙값, 그리고 해당되는 경우 최빈값. 이러한 통계는 즉시 문제를 드러낸다. 만약 "나이" 열의 최대값이 847이라면, 문제가 있다. 만약 "주" 열에 유일한 값이 73개가 있다면, 미국의 주가 50개밖에 되지 않는 상황에서 무언가 잘못된 것이다.

범주형 변수의 빈도 분포를 작성하라. 각 고유 값이 얼마나 자주 나타나는가? 나는 이러한 방식으로 수많은 데이터 입력 오류를 발견했다. 예를 들어, 미국 주의 데이터 세트에서 "CA"가 5,000회 나타난 반면, "California"는 200회, "ca"는 50회, "Calif"는 30회 나타났다. 모두 같은 주이지만, 네 가지 다른 표현—각각 내 분석을 분할하고 있다.

숫자 열의 경우, 히스토그램과 상자 그림을 작성하라. 이러한 시각화는 분포, 이상치 및 원시 통계가 놓칠 수 있는 예기치 않은 패턴을 드러낸다. 한 번은 "거래 금액" 열에 정확히 $999.99에서 의심스러운 급증이 발생한 것을 발견했다—결국 결제 시스템이 결제 실패를 그 금액으로 기록하는 버그가 있는 것으로 드러났다.

무작위 데이터에서 예상치 못한 패턴을 확인하라. 고유해야 하는 거래 ID나 고객 ID가 있는 경우, 실제로 고유한지 확인하라. 나는 "고유 식별자" 열에서 중복 ID를 발견한 경험이 너무 많아, 이젠 셀 수조차 없다. 또한, 있어서는 안 되는 순차적 패턴을 찾아보라—때때로 데이터 세트에서 사건이 발생해서는 안 되는 경우가 있다.

The Data Cleaning Checklist: 15 Steps Before Any Analysis — csv-x.com

1단계: 무엇이든 조작하기 전에 원시 데이터 문서화하기

2단계: 데이터 생성 프로세스 이해하기

3단계: 데이터 체계적으로 프로파일링하기