What about the real cost of data cleaning nobody talks about?

Let's start with some uncomfortable math. If you're a data professional making $85,000 a year (roughly the median for data analysts in the US), and you're spending 80% of your time on data cleaning, that means your organization is paying $68,000 annually just for you to prepare data. Not analyze...

Why CSV Files Are Both Perfect and Terrible?

CSV files are the cockroaches of the data world—they've survived every technological shift, they're everywhere, and they're nearly impossible to kill. There's a good reason for this: CSV is brilliantly simple. It's human-readable, works across every platform, requires no special software, and has...

What about the three-phase approach to faster data cleaning?

After years of trial and error, I've settled on a three-phase approach that consistently cuts cleaning time by 50-60%. The phases are: Triage, Transformation, and Validation. Each phase has specific goals and uses specific tools, and skipping any phase inevitably leads to problems downstream.

What about tools that actually save time (and ones that don't)?

I've tried dozens of data cleaning tools over the years, from enterprise platforms costing thousands per month to open-source libraries maintained by one person in their spare time. Here's what I've learned about what actually works.

What about automation: the only way to scale?

Here's a hard truth: if you're cleaning data manually, you're doing it wrong. Manual cleaning doesn't scale, isn't reproducible, and is error-prone. The solution is automation, but not the kind of automation most people think of.

80% of Data Work Is Cleaning. Here's How to Speed It Up. \u2014 CSV-X.com [한국어]

💡 Key Takeaways

The Real Cost of Data Cleaning Nobody Talks About
Why CSV Files Are Both Perfect and Terrible
The Three-Phase Approach to Faster Data Cleaning
Tools That Actually Save Time (And Ones That Don't)

저는 데이터 엔지니어의 관점에서 이 전문 블로그 기사를 포괄적인 HTML 형식으로 작성할 것입니다.

저는 한 개의 데이터 세트를 정리하는 데 여섯 시간을 보냈던 날을 아직도 기억합니다. 여섯 시간. 모델을 구축하는 것도, 인사이트를 생성하는 것도, 이해관계자를 감동시킬 시각화를 만드는 것도 아닌, 단지 정리하는 데 소요된 시간입니다. 중복 제거, 날짜 형식 표준화, 인코딩 문제 수정, 열 이름 불일치 조정. 2018년이었고, 저는 중견 전자상거래 회사에서 데이터 엔지니어로서 경력 3년차에 접어들고 있었으며, 처음 보기에는 깔끔해 보이지만 내부적으로는 혼란에 빠진 CSV 파일들 속에서 허우적거리고 있었습니다.

💡 주요 포인트

누구도 이야기하지 않는 데이터 정리의 실제 비용
CSV 파일이 완벽하면서도 끔찍한 이유
더 빠른 데이터 정리를 위한 세 가지 단계 접근법
실제로 시간을 절약하는 도구들(그리고 그렇지 않은 것들)

그날은 저에게 모든 것을 바꿔 놓았습니다. 저는 시간을 철저히 기록하기 시작했고, 숫자는 잔인했습니다: 제 근무 시간의 78%가 데이터 준비 및 정리에 소요되었습니다. 단일 프로젝트의 78%가 아니라, 제 전체 직업의 78%였습니다. 저만 그런 게 아니었습니다. Anaconda의 2020년 설문조사에 따르면 데이터 과학자들은 데이터 로딩 및 정리에 45%의 시간을, 또 19%는 데이터 수집에 소요합니다. 합치면 64%입니다. 그리고 더 복잡한 실제 데이터 소스와 작업한 제 경험에 따르면, 이 숫자는 더 높아질 것입니다.

오늘로 시간을 빠르게 돌려보면, 저는 이제 8년 이상의 경력을 가진 수석 데이터 엔지니어이며, 완벽한 데이터 웨어하우스부터 마치 만난 적이 없는 사람들로 구성된 위원회가 조립한 것 같은 악몽의 레거시 CSV 내보내기까지 다양한 작업을 해왔습니다. 저는 수백 개의 프로젝트에 걸쳐 수백만 개의 행을 정리했으며, 중요한 것을 배웠습니다: 우리가 데이터 정리에 소비하는 80%의 시간은 불가피한 것이 아닙니다. 그것은 잘못된 도구, 비효율적인 작업 흐름, 데이터 정리가 실제로 요구하는 것에 대한 근본적인 오해의 증상입니다.

이 기사는 2018년 제가 누군가로부터 듣고 싶었던 모든 것입니다. 전투에서 검증된 전략들, 어렵게 얻은 통찰들, 그리고 저를 도와 데이터 정리 시간을 80%에서 35%로 줄이고 때로는 더 낮출 수 있었던 실용적인 도구들로 가득 차 있습니다. CSV 파일과 씨름하는 대신 실제로 훈련받은 일을 할 수 없는 것에 지치셨다면, 계속 읽어주세요.

누구도 이야기하지 않는 데이터 정리의 실제 비용

불편한 수학부터 시작하겠습니다. 만약 연봉 85,000달러(미국 데이터 분석가의 중간값)를 받는 데이터 전문가라면, 데이터 정리에 80%의 시간을 소비하고 있다는 것은 귀하의 조직이 매년 68,000달러를 단순히 데이터를 준비하는 데 지출하고 있다는 뜻입니다. 그것을 분석하는 것도, 인사이트를 도출하는 것도 아닌, 단지 준비하는 데 드는 비용입니다.

이제 팀 전체로 곱해 보세요. 그 급여 수준에서 5인 데이터 팀은 데이터 정리만으로 연간 340,000달러를 소비하고 있습니다. 이것은 추가 수석 데이터 과학자를 고용하는 비용보다 더 큽니다. 이는 실질적인 인프라 개선, 교육 프로그램 또는 실제로 그 정리 부담을 줄일 수 있는 도구 투자에 충분할 수 있습니다.

하지만 재정적 비용은 이야기를 구성하는 부분에 불과합니다. 또 다른 기회 비용이 있습니다: 결코 발생하지 않는 분석들, 결코 드러나지 않는 인사이트들, 날짜 형식을 수정하고 중복 행을 제거하느라 바쁜 팀이 질문조차 하지 못하는 경우입니다. 이전 역할에서 우리는 데이터 청소에 소요된 시간마다 잠재적인 분석 작업을 약 2.5시간 잃는다고 추정했습니다. 왜 2.5시간일까요? 데이터 청소 모드에서 분석적 사고로 전환하는 동안 모멘텀을 잃고, 컨텍스트를 잊게 되며, 문제에 대한 정신적 모델을 재구축하는 데 시간이 걸리기 때문입니다.

그 다음은 심리적 비용입니다. 데이터 정리는 지루하고 반복적이며 종종 시시포스의 노동처럼 느껴집니다. 하나의 데이터 세트를 수정하면 내일은 또 다른 데이터 세트가 동일한 문제로 나타납니다. 이는 탈진, 직무 불만족 및 이직으로 이어집니다. 2019년 제 데이터 전문가 네트워크를 대상으로 비공식적으로 실시한 설문조사에서 67%가 "데이터 정리에 너무 많은 시간"을 현재 역할을 떠나는 주요 요인으로 지적했습니다.

가장 안타까운 점은 이런 고통의 대부분이 자초한 것이라는 점입니다. 우리는 잘못된 작업에 맞게 설계된 도구를 사용하고, 2005년에는 유효했지만 오늘날에는 비효율적인 작업 흐름을 따르며, 어느 다른 엔지니어링 분야에서 웃음거리가 될 데이터 품질 기준을 받아들이고 있습니다. 소프트웨어 엔지니어가 IDE에 리인터가 없는 이유로 80%의 시간을 구문 오류를 수정하는 데 소모한다면, 그것이 바로 우리가 데이터 정리에서 처한 상황입니다.

CSV 파일이 완벽하면서도 끔찍한 이유

CSV 파일은 데이터 세계의 바퀴벌레입니다. 그들은 모든 기술적 변화 속에서도 살아남았고, 어디에나 있으며, 거의 죽일 수 없습니다. 그럴 만한 이유가 있습니다: CSV는 매우 간단합니다. 사람에게 읽기 쉬우며, 모든 플랫폼에서 작동하고, 특별한 소프트웨어가 필요 없으며, 1970년대부터 존재해왔습니다. 시스템 간에 데이터를 이동해야 할 때, CSV는 종종 작동하는 최저 공통 분모입니다.

우리가 데이터 정리에 쓰는 시간의 80%는 불가피한 것이 아닙니다. 그것은 잘못된 도구, 비효율적인 작업 흐름, 데이터 정리가 실제로 요구하는 것에 대한 근본적인 오해의 증상입니다.

하지만 그 단순함은 막대한 숨겨진 비용을 수반합니다. CSV는 스키마 강제 적용이 없고, 데이터 유형 검증이 없으며, null을 처리하는 표준화된 방법이 없고, 중첩 구조에 대한 내장 지원이 없습니다. 이는 "여기 쉼표로 구분된 텍스트가 있습니다. 이게 의미하는 바를 알아내는 것은 당신입니다."라는 형식입니다. 이는 우리의 시간을 소모하는 끝없는 문제의 행렬을 초래합니다.

제 경험에 따르면, 제가 만나는 가장 일반적인 CSV 문제는 다음과 같으며, 시간 낭비의 정도에 따라 순위가 매겨져 있습니다:

인코딩 문제 (청소 시간의 25%): UTF-8, Latin-1, Windows-1252—CSV 파일은 상상할 수 있는 모든 인코딩 방식으로 제공되며, 불일치하는 인코딩은 텍스트를 의미 없는 글자로 변환합니다. 한 번은 우리의 전체 파이프라인을 중단시킨 단 하나의 스마트 따옴표 문자 때문에 네 시간을 디버깅한 적이 있습니다.
일관성 없는 구분자 (20%): 이름과는 달리 CSV 파일은 항상 쉼표를 사용하지 않습니다. 때로는 세미콜론, 탭 또는 파이프일 수 있습니다. 파일 중간에 변경되기도 합니다. 때로는 구분자가 데이터 자체에 나타나며 적절히 이스케이프되지 않습니다.
날짜 형식 혼돈 (18%): "01/02/2023"은 1월 2일인가요, 2월 1일인가요? "2023-01-02"는 날짜인가요, 아니면 그냥 문자열인가요? "Jan 2, 2023"이나 "2-Jan-23"는 어떨까요? 모든 시스템은 고유의 규칙을 가지고 있으며, CSV는 어떤 것도 보존하지 않습니다.
형식 모호 (15%): "123"은 숫자인가요, 문자열인가요? "00123"은요? 아니면 "1.23e5"는요? CSV는 모든 것을 텍스트로 저장하므로 의도된 형식을 추측해야 합니다.
Null 처리 (12%): 빈 문자열, "NULL", "N/A", "null", 비어 있는 셀, "-", "0"—저는 CSV 파일에서 누락된 데이터를 표현하는 30가지 이상의 다양한 방법을 보았으며, 종종 동일한 파일 내에서 혼합되어 있습니다.
헤더 불일치 (10%): 공백, 특수 문자, 일관되지 않은 대문자 사용 또는 전혀 헤더가 없는 열 이름. 때로는 실제 헤더 행이 3행일 수 있으며, 누군가 위에 메타데이터를 추가했기 때문입니다.

비극적인 점은 이러한 모든 문제는 해결 가능합니다. Parquet, Avro 또는 심지어 JSON과 같은 현대 데이터 형식은 대부분의 이 문제를 자동으로 처리합니다. 그러나 CSV는 보편적이기 때문에 계속 사용되고 있으며, 우리는 그 한계를 다루어야 합니다. 핵심은 CSV를 버리는 것이 아닙니다. 그것은 비현실적입니다. 대신 그것을 다루는 고통을 최소화하는 작업 흐름을 개발하는 것입니다.

더 빠른 데이터 정리를 위한 세 가지 단계 접근법

수년 간의 시행착오 끝에 저는 청소 시간을 일관되게 50-60% 단축하는 세 가지 단계 접근법을 정착했습니다. 이 단계는 Triage(선별), Transformation(변환), Validation(검증)입니다. 각 단계는 특정 목표가 있으며 특정 도구를 사용하며, 어떤 단계를 건너뛰면 필연적으로 하류에 문제가 발생합니다.

접근법	시간 투자	확장성	오류 비율
수동 Excel 정리	데이터 세트당 8-10시간	좋지 않음 - 매번 전면 재작업 필요	높음 - 인간 오류에 취약
파이썬 스크립트 (Pandas)	초기 4-6시간, 재사용당 1-2시간	좋음 - 수정 시 재사용 가능	중간 - 스크립트 품질에 따라 다름
특화된 CSV 도구	데이터 세트당 1-2시간	우수 - 내장 자동화	낮음 - 일관된 규칙 적용
데이터 파이프라인 자동화	설정 20-40시간, 실행당 몇 분	우수 - 완전 자동화	매우 낮음 - 테스트 및 검증됨

단계 1: Triage (총 시간의 10-15%)

Triage는 변경을 시작하기 전에 무엇을 다루고 있는지를 이해하는 것입니다. 이는 대다수의 사람들이 잘못하는 부분입니다. 그들은 문제의 전체 범위를 이해하지 않고 바로 청소에 착수합니다. 이는 외과의사가 X-레이를 보기 전에 수술을 하는 것과 같습니다.

Triage 단계에서는 다음과 같은 질문을 던집니다: 얼마나 많은 행이 있나요? 얼마나 많은 열이 있나요? 데이터 유형은 무엇인가요? 중복은 있나요? 열마다 null 비율은 얼마인가요? 명백한 이상치는 있나요? 인코딩은 무엇인가요? 실제 구분자는 무엇인가요? 저는 이를 위해 자동화된 프로파일링 도구를 사용합니다. 대규모 파일을 수동으로 검사하는 것은 시간 낭비입니다. 좋은 프로파일링 도구는 백만 행의 CSV를 몇 초 안에 분석하고 포괄적인 정보를 제공할 수 있습니다.