What about understanding your data's natural story structure?

Every dataset has a story, but not every story is obvious. The first mistake most people make is jumping straight to chart creation without understanding what their data is actually trying to say. I spend 40% of my time on any project just getting to know the data—and that's not wasted time, it's...

What about cleaning your data: the unglamorous foundation?

Nobody wants to talk about data cleaning. It's boring. It's tedious. It's also absolutely critical. I estimate that 60% of failed visualizations fail not because of poor chart choice or bad design, but because the underlying data was messy. Garbage in, garbage out—it's a cliché because it's true.

What about choosing the right chart type for your message?

Chart selection is where most people go wrong. They default to whatever chart type they're comfortable with—usually a bar chart or pie chart—regardless of whether it's appropriate. I've seen time-series data forced into pie charts. I've seen correlation data tortured into bar charts. It's like...

What about design principles that make charts readable?

A technically correct chart can still fail if it's poorly designed. I've seen charts with accurate data and appropriate chart types that nobody could understand because the design was cluttered, confusing, or ugly. Good design isn't about making things pretty—it's about making things clear.

What about tools and workflows for efficient chart creation?

The tools you use matter less than your process, but the right tools make the process faster and more reliable. I've used dozens of charting tools over my career. Here's what I've learned about choosing and using them effectively.

How to Turn CSV Data into Charts That Tell a Story [한국어]

💡 Key Takeaways

Understanding Your Data's Natural Story Structure
Cleaning Your Data: The Unglamorous Foundation
Choosing the Right Chart Type for Your Message
Design Principles That Make Charts Readable

삼 년 전, 나는 한 세일즈 VP가 18개월 간의 지역 성과 데이터가 담긴 스프레드시트를 바라보며 "그래서... 우리는 이기고 있는 건가요, 지고 있는 건가요?"라고 묻는 모습을 봤습니다. 그 순간은 우리가 데이터를 다루는 방식의 모든 문제를 단적으로 보여주었습니다. 대답은 바로 그 셀들에 있었지만, 눈에 보이지 않았습니다. 이야기는 숫자의 산 아래 묻혀 있었습니다.

💡 주요 점

데이터의 자연적인 이야기 구조 이해하기
데이터 정리하기: 화려하지 않은 기초
메시지에 맞는 차트 유형 선택하기
차트를 읽기 쉽게 만드는 디자인 원칙

저는 마커스 첸입니다. 지난 12년 동안 데이터 시각화 컨설턴트로 일하며 포춘 500 기업부터 작은 스타트업까지 다양한 고객들과 작업해왔습니다. 저는 수천 개의 데이터 세트를 매력적인 시각적 내러티브로 변환했습니다—고객 행동 로그부터 제조 품질 메트릭스까지. 제가 배운 것은 이것입니다: 문제는 데이터가 아니라 프레젠테이션입니다.

최근 기업 소프트웨어 연구에 따르면 평균 비즈니스 전문가는 매일 2.5기가바이트의 데이터에 접하게 됩니다. 대다수는 CSV 파일 형태로 도착합니다—보기에 간단하지만 복잡함을 숨기고 있는 이러한 콤마로 구분된 값 문서입니다. 일반적인 판매 보고서 CSV는 200개의 열과 50,000개의 행을 포함할 수 있습니다. 즉, 1천만 개의 데이터 포인트입니다. 어떤 인간의 두뇌도 그것을 원시 상태로 처리할 수 없습니다. 우리는 번역이 필요합니다. 우리는 이야기가 필요합니다.

이 글은 나의 책상에 놓인 모든 CSV 파일에 어떻게 접근하는지를 보여줄 것입니다. 이론이 아닙니다—실용적이고 검증된 기술로, 임원들에게 프레젠테이션을 하든, 보고서를 작성하든, 자신의 비즈니스를 더 잘 이해하려 하든 모두 적용됩니다. 마지막에는 어떤 데이터 세트를 보더라도 그 안에 있는 내러티브를 볼 수 있는 방법을 알게 될 것입니다.

데이터의 자연적인 이야기 구조 이해하기

모든 데이터 세트는 이야기를 가지고 있지만, 모든 이야기가 명백한 것은 아닙니다. 대부분의 사람들이 저지르는 첫 번째 실수는 데이터가 실제로 무엇을 말하고자 하는지를 이해하지 않고 차트 생성을 바로 시작하는 것입니다. 저는 모든 프로젝트에서 40%의 시간을 데이터 파악하는 데 사용하는데, 이는 낭비되는 시간이 아니라 이후에 이어지는 모든 것의 기초입니다.

새로운 CSV 파일을 열 때, 저는 다섯 가지 특정 이야기 요소를 찾고 있습니다. 첫째, 주인공: 주요 주제가 무엇인가요? 세일즈 데이터에서는 수익일 수 있습니다. 고객 데이터에서, 그것은 유지율일 수 있습니다. 둘째, 갈등: 무엇이 변하고 있거나, 고군분투하고 있거나, 경쟁하고 있나요? 셋째, 타임라인: 이것이 시간에 따라 어떻게 전개되나요? 넷째, 조연: 어떤 보조 메트릭스가 맥락을 제공하나요? 다섯째, 해결: 우리는 어떤 결과나 통찰을 향해 나아가고 있나요?

구체적인 예를 들어보겠습니다. 작년에 저는 한 전자 상거래 회사와 작업했는데, 그 CSV는 14개 제품 카테고리에서 24개월 동안 89,000개의 거래를 포함하고 있었습니다. 원시 데이터는 압도적이었습니다. 하지만 제가 "여기서의 이야기는 무엇인가요?"라고 물었을 때, 그 답이 나왔습니다: 가장 빠르게 성장하는 카테고리(아웃도어 용품, 연간 340% 증가)는 전통적으로 베스트셀러인 홈 가전 제품의 판매를 잠식하고 있었습니다(동기 대비 23% 감소). 이건 이야기입니다. 그것은 차트가 극적으로 보여줄 수 있는 것입니다.

핵심은 차트 도구를 건드리기 전에 올바른 질문을 하는 것입니다. 무엇이 변했나요? 무엇이 놀랍나요? 중요한 비교는 무엇인가요? 저는 문자 그대로 체크리스트를 유지합니다: 시간에 따른 추세, 그룹 간의 비교, 부분-전체 관계, 변수 간의 상관관계, 분포 및 이상치, 지리적 패턴, 그리고 순위/계층. 모든 CSV 이야기는 이 카테고리 중 하나 이상에 해당합니다.

실제로 이것이 어떻게 이루어지는지 보여드리겠습니다. 파일을 스프레드시트 도구에서 여세요—I 사용하자는 Excel이지만 Google Sheets나 LibreOffice도 괜찮습니다. 아직 차트를 만들기 시작하지 마세요. 대신 요약 시트를 만듭니다. 기본 통계를 계산합니다: 총계, 평균, 증가율, 백분율. 데이터를 다양한 방법으로 정렬합니다. 무엇이 위로 올라오나요? 어떤 패턴이 나타나나요? 저는 한 번 고객 데이터베이스를 정렬하고 필터링하는 데 세 시간을 쏟은 적이 있습니다. 그 세 시간 덕분에 저는 일곱 개의 관련 없는 시각화를 만드는 것을 피하고, 실제로 중요한 두 개의 차트를 생산하는 데 도움이 되었습니다.

이야기 구조는 또한 차트 유형을 결정합니다. 시간 기반 이야기는 선형 차트나 면적 차트가 필요합니다. 비교 이야기는 막대 차트가 필요합니다. 부분-전체 이야기는 원형 차트나 트리 맵이 필요합니다. 상관관계 이야기는 산점도가 필요합니다. 분포 이야기는 히스토그램이 필요합니다. 이야기를 먼저 이해하면 본능적으로, 무작위로가 아닌 올바른 시각화를 선택할 수 있습니다.

데이터 정리하기: 화려하지 않은 기초

누구도 데이터 정리에 대해 이야기하고 싶어하지 않습니다. 지루합니다. 귀찮습니다. 또한 반드시 필요합니다. 실패한 시각화의 60%는 차트 선택이 나쁘거나 디자인이 좋지 않아서가 아니라, 근본 데이터가 엉망이었기 때문이라고 추정합니다. 쓰레기가 들어오면 쓰레기가 나옵니다—이것은 진실이기 때문에 진부하게 들립니다.

"당신의 데이터가 문제가 아닙니다. 당신의 프레젠테이션이 문제입니다. 이야기는 이미 거기에 있습니다—당신은 단지 그것을 시각화해야 합니다."

실제 CSV 파일은 재앙입니다. 저는 동일한 파일에서 여섯 가지 다른 형식을 가진 날짜 열을 본 적이 있습니다. 숫자 열이 텍스트 노트로 오염된 경우도 봤습니다. 중복된 행, 결측값, 일관되지 않은 카테고리 이름(“New York,” “NY,” “new york,” 또는 “New York City” 중 무엇인지)에 대해 보았고, 아포스트로피가 이상한 심볼로 변하는 인코딩 문제도 목격했습니다. 한 고객의 CSV는 데이터베이스 내보내기 오류로 인해 행의 14%가 완전히 중복되었습니다. 또 다른 CSV에는 실제 수익과 예상 수익이 섞여 구별할 수 없는 “수익” 열이 있었습니다.

저의 정리 과정은 체계적입니다. 첫째, 원본 CSV의 사본을 만듭니다—유일한 버전에서 작업하지 마세요. 둘째, 명백한 문제를 스캔합니다: 빈 행, 반복되는 헤더 행, 계산을 왜곡할 총계가 있는 바닥글. 셋째, 형식을 표준화합니다. 모든 날짜를 YYYY-MM-DD 형식으로 만듭니다. 모든 통화 기호를 제거하고 숫자로 변환합니다. 모든 카테고리 이름에서 대소문자와 철자 일관성을 유지합니다.

넷째—이것은 중요합니다—결측 데이터를 처리합니다. 당신에게는 세 가지 옵션이 있습니다: 결측값이 있는 행 삭제(데이터 손실이 감수할 수 있을 때만), 결측값을 평균값이나 중앙값으로 채우기(숫자 데이터에 유효), 또는 별도의 "알 수 없음" 카테고리 만들기(범주형 데이터에 유효). 저는 응답자의 18%가 나이 데이터가 결측인 고객 만족 데이터세트와 작업한 적이 있습니다. 해당 행을 삭제하는 대신 "제공되지 않은 나이" 카테고리를 만들었고, 이 그룹이 만족도 패턴이 상당히 다르다는 것을 발견했습니다—사실 의미있는 세그먼트였습니다.

다섯째, 데이터를 검증합니다. 숫자가 의미가 있나요? CSV에 하루에 4,700만 달러의 매출이 있는 소매점이 표시되면 무언가 잘못된 것입니다—소수점이 잘못되어 있을 수 있습니다. 고객 나이 데이터에 247세인 사람이 포함되어 있다면, 이는 오류입니다. 간단한 검증 체크를 생성합니다: 최소 및 최대 값, 일치해야 하는 합계, 다른 소스와 일치해야 하는 개수입니다.

이 작업을 위한 도구는 과정보다 중요하지 않습니다. Excel의 "텍스트 나누기", "찾기 및 바꾸기", "중복 제거" 기능이 정리 작업의 80%를 처리합니다. 대규모 데이터 세트(100,000개 이상의 행)에서는 pandas 라이브러리와 함께 Python을 사용합니다—더 빠르고 더 신뢰할 수 있습니다. 하지만 원칙은 같습니다: 깨끗한 데이터는 신뢰할 수 있는 시각화의 기초입니다.

메시지에 맞는 차트 유형 선택하기

차트 선택은 대부분의 사람들이 실수하는 곳입니다. 그들은 보통 편안하게 사용할 수 있는 차트 유형—대개 막대 차트나 원형 차트—으로 기본 설정합니다. 제가 시간 시계열 데이터를 원형 차트로 강요받는 걸 본 적이 있습니다. 상관관계 데이터가 막대 차트로 왜곡되는 것도 봤습니다. 이는 모든 작업에 망치를 사용하는 것과 같습니다, 왜냐하면 망치에 편안함을 느끼기 때문입니다.

차트 유형	최적의 경우	데이터 구조	전하는 이야기
선형 차트	시간에 따른 추세	연속 데이터가 있는 시간 시계열	성장, 감소, 패턴, 계절성
막대 차트	카테고리 비교	불연속 값이 있는 범주형 데이터	순위, 비교, 차이점
산점도	변수 간의 관계	두 개의 연속 변수	상관관계, 이상치, 군집
원형 차트	부분-전체 관계	100%를 합계하는 범주형 데이터	구성, 시장 점유율, 분포
히트맵	대규모 데이터 세트의 패턴	두 차원에 걸쳐 있는 값의 행렬	강도, 농도, 이상 현상

여기에는 수백 개의 프로젝트를 통해 다듬어진 나의 결정 프레임워크가 있습니다. 시간이 지남에 따라 변화를 보여주고 싶다면, 선형 차트를 사용하세요. 결론적으로, 선형 차트는 시간적 추세를 보여주는 가장 효율적인 방법입니다. 인간의 눈은 선을 따르고 패턴을 감지하는 데 탁월합니다. 저는 시간 차원이 있는 모든 데이터에 대해 선형 차트를 사용합니다: 월별 판매, 일별 웹사이트 트래픽, 연도별 온도. 비교할 여러 시간 시계열이 있다면, 같은 차트에서 여러 선을 사용하세요—하지만 다섯 선 이하로 유지하지 않으면 스파게티가 됩니다.

불연속 카테고리를 비교할 때는 막대 차트를 사용하세요. 긴 카테고리 이름이나 많은 카테고리(8개 초과)를 가진 경우에는 수평 막대가 가장 효과적입니다. 수직 막대는 더 짧은 카테고리 이름에 적합합니다.