💡 Key Takeaways
- The Spreadsheet That Nearly Cost Me My Job
- Why Python Beats Excel for Data Analysis (And When It Doesn't)
- Setting Up Your Python Environment in 10 Minutes
- Your First Data Analysis: Loading and Exploring a CSV File
전문가 블로그 기사를 써드리겠습니다. 데이터 분석가의 관점에서 매력적인 1인칭 내러티브를 만들어 보겠습니다.
내 직업을 거의 잃게 만든 스프레드시트
나는 여전히 매니저가 47개의 탭이 있는 인쇄된 Excel 스프레드시트를 들고 내 칸막이로 들어온 아침을 기억합니다. "사라," 그녀가 말했습니다. 목소리에 좌절감이 가득 담겨 있었습니다. "우리는 정오까지 Q3 분석이 필요해. 이사회 회의는 오후 1시에 시작해." 시계는 오전 9시 47분이었습니다. 나는 고객 거래 데이터 180,000개의 행을 분석하고, 트렌드를 파악하고, 유지율 지표를 계산하고, 2,300만 달러의 예산 결정에 영향을 미칠 시각화를 만들어야 했습니다. 두 시간 13분이 남았습니다.
💡 주요 요점
- 내 직업을 거의 잃게 만든 스프레드시트
- 데이터 분석에서 파이썬이 엑셀보다 나은 이유(그리고 그럴 때가 아닌 경우)
- 10분 안에 파이썬 환경 설정하기
- 첫 데이터 분석: CSV 파일 로드 및 탐색하기
그건 내가 중소기업 전자상거래 회사의 주니어 분석가였던 7년 전의 일입니다. 나는 다음 90분 동안 클릭하고 끌어다 놓으며 피벗테이블이 충돌하지 않기를 기도했습니다. 나는 마감시간보다 4분 일찍 끝냈습니다. 프레젠테이션은 잘 진행되었지만, 내가 운이 좋았다는 것을 알았습니다. 그날 밤, 나는 처음으로 파이썬을 다운로드했습니다.
오늘 나는 소매, 의료 및 금융 분야에서 5천만 개 이상의 데이터를 처리한 선임 데이터 분석가입니다. 지금은 같은 분석을 15분 이내에 완료할 수 있으며, 훨씬 더 높은 정확도로 할 수 있습니다. 파이썬은 나의 작업 흐름뿐만 아니라 내 경력 궤적을 완전히 변화시켰습니다. 내 급여는 3년 동안 64% 증가했습니다. 나는 월요일 아침 데이터 요청을 두려워하던 사람이 이제는 숫자 속에 숨겨진 통찰력을 찾는 수사 작업을 실제로 즐기게 되었습니다.
가장 좋은 점은? 컴퓨터 과학 학위나 몇 개월의 교육이 필요 없다는 것입니다. 다음 30분 동안, 저는 여러분에게 실제 데이터를 파이썬으로 분석을 시작하는 방법을 정확히 보여드릴 것입니다. 이론이 아닙니다. 추상적인 개념이 아닙니다. 내일 아침 보스가 방금 이메일로 보낸 CSV 파일을 열 때 사용할 수 있는 실제적이고 실용적인 기술입니다.
데이터 분석에서 파이썬이 엑셀보다 나은 이유(그리고 그럴 때가 아닌 경우)
솔직히 말씀드리자면: 엑셀은 사라지지 않을 것이고, 사라져서는 안 됩니다. 나는 여전히 거의 매일 빠른 확인, 간단한 계산 및 비기술적 이해관계자와 결과를 공유하기 위해 엑셀을 사용합니다. 하지만 내가 7년 동안 두 가지 방식으로 데이터를 분석하면서 배운 것은: 엑셀은 스포츠카이고, 파이썬은 화물 기차라는 것입니다. 스포츠카는 도시를 빠르게 돌아다니기에 완벽합니다. 화물 기차는 대규모 화물을 이동할 때 필요한 것입니다.
"주니어 분석가와 선임 분석가의 차이는 지능이 아닙니다. 100,000개의 행을 3시간이 아니라 15분 안에 처리할 수 있는 능력입니다."
파이썬은 엑셀로는 감당할 수 없는 양의 데이터를 처리합니다. 나는 한 번 2.1GB CSV 파일을 엑셀에서 열어 보려고 시도한 적이 있습니다. 열리는데 11분이 걸렸고, 계산된 열을 추가하려고 할 때 충돌했습니다. 파이썬에서는 pandas 라이브러리를 사용하여 같은 파일을 23초에 로드하고 복잡한 집계를 8초 후에 수행했습니다. 과장이 아닙니다. 나는 차이를 믿을 수 없어서 시간을 재었습니다.
재현 가능성은 파이썬의 진짜 강점입니다. 내가 파이썬에서 수행하는 모든 분석은 코드로 문서화됩니다. 내 매니저가 "프리미엄 세그먼트를 위한 고객 생애 가치를 어떻게 계산했나요?"라고 묻는다면, 나는 3주 전에 클릭했던 셀이나 적용했던 필터를 기억할 필요가 없습니다. 내 파이썬 스크립트를 열면 모든 단계가 거기에 명확하게 작성되어 있습니다. 검토하거나 업데이트된 데이터로 다시 실행할 수 있도록 준비되어 있습니다. 이는 최소한 열두 번 이상의 오류를 피할 수 있게 해주었습니다.
파이썬은 당신의 야망에 맞춰 확장할 수 있습니다. 오늘 기본 CSV 분석부터 시작하세요. 다음 달에는 회사의 데이터베이스에 직접 연결하세요. 6개월 후, 매일 아침 출근하기 전에 실행되는 자동 보고서를 만드세요. 1년 후, 고객 이탈을 예측하는 머신 러닝 모델을 구현하세요. 이러한 작업 모두에 동일한 기초 기술이 적용됩니다. 반면 엑셀은 꽤 빨리 한계에 부딪힙니다.
하지만 내가 여전히 엑셀을 선택하는 경우도 있습니다: 빠른 일회성 점검(이 숫자는 합리적인가요?), "스프레드시트를 보고 싶어하는" 임원과 결과 공유, 비기술적 팀원과의 협업이 그 예입니다. 파이썬은 모든 사람이 파이썬을 설치하고 기본 프로그래밍 개념을 이해해야 합니다. 엑셀은 보편적입니다. 청중을 알고 그에 맞게 선택하세요.
10분 안에 파이썬 환경 설정하기
파이썬을 시작하는 가장 큰 장벽은 언어를 배우는 것이 아니라, 모든 것을 설치하고 구성하는 것입니다. 나는 동료들이 설치 지침에 갇혀서 코드 한 줄도 쓰기 전에 포기하는 것을 봤습니다. 누군가가 나에게 줬으면 하는 간단한 경로를 알려드리겠습니다.
| 기능 | Excel | Python (pandas) | 최고의 사용 사례 |
|---|---|---|---|
| 행 한계 | 1,048,576행 | RAM에 의해 한정됨 (백만 개 이상) | 대규모 데이터세트에 파이썬 사용 |
| 학습 곡선 | 기본 사항을 배우는데 1-2주 | 데이터 분석에 2-4주 | 즉시 시작하는 엑셀 |
| 자동화 | 매크로(제한적이고 취약함) | 완전한 스크립트 및 반복 가능 | 반복 작업에 파이썬 |
| 협업 | 쉬운 공유, 버전 충돌 | Git 친화적이며 재현 가능한 코드 | 빠른 공유를 위한 엑셀 |
| 비용 | $70-160/년 (Microsoft 365) | 무료 및 오픈 소스 | 예산을 염두에 둔 팀을 위한 파이썬 |
Anaconda를 다운로드하세요. 파이썬 자체나 pip, 가상 환경이 아니라 Anaconda만 다운로드하세요. anaconda.com에 가서 운영 체제에 맞는 설치 프로그램을 다운로드하고 실행하세요. Anaconda는 파이썬과 데이터 분석에 필요한 모든 라이브러리가 포함된 배포판입니다. 약 500MB 정도 되며, 다운로드는 인터넷 속도에 따라 3-8분 정도 걸립니다.
설치하는 동안 모든 기본 옵션을 수락하세요. 아무 것도 사용자 지정하지 마세요. 설치 경로나 환경 변수를 변경하여 발생하는 문제를 해결하는 데 몇 시간을 소비하는 사람들을 많이 보았습니다. 기본 설정은 완벽하게 작동합니다. Windows에서 설치 프로그램이 Anaconda를 PATH에 추가할 것인지 묻는 경우, 예라고 대답하세요. 이렇게 하면 컴퓨터의 어디에서나 쉽게 파이썬을 실행할 수 있습니다.
설치가 완료되면 Anaconda Navigator를 엽니다. 여러 응용 프로그램이 표시됩니다. Jupyter Notebook 밑의 "Launch"를 클릭하세요. 그러면 파일 시스템을 보여주는 브라우저 창이 열립니다. 그곳이 당신의 작업 공간입니다. 분석 프로젝트를 유지하고 싶은 폴더로 이동하세요. 나는 "data_projects"라는 폴더를 내 문서에 사용하고 있으며, 오른쪽 상단 모서리에서 "New"를 클릭한 다음 "Python 3"을 클릭하세요.
축하합니다. 이제 Jupyter 노트를 보고 있습니다. 여기에 파이썬 코드를 작성하고 실행할 것입니다. 코드를, 결과와 메모를 한 곳에 결합한 스마트 문서로 생각하세요. 첫 번째 셀에 다음을 입력하세요: print("Hello, data world!") 그리고 Shift + Enter를 누르세요. 셀 아래에 "Hello, data world!"가 나타나면 환경이 완벽하게 작동하고 있습니다.
이 전체 과정—다운로드, 설치, 실행, 테스트—는 약 10분 정도 걸려야 합니다. 나는 최소한 30대 이상의 다른 컴퓨터에서 동료들을 교육하며 이 작업을 수행했으며, 놀라울 정도로 일관성이 있었습니다. 유일한 일반 문제는 설치를 차단하는 안티바이러스 소프트웨어로, 보통 설치 과정 중에 임시로 비활성화하여 해결할 수 있습니다.
첫 데이터 분석: CSV 파일 로드 및 탐색하기
이제 실제 데이터를 분석해 봅시다. 나는 예제로 판매 데이터 세트를 사용할 것이지만, 동일한 기술은 고객 데이터, 설문 응답, 재무 거래, 웹사이트 분석 등 어떤 CSV 파일에도 적용됩니다. 패턴은 보편적입니다.
"엑셀은 데이터베이스가 되기 위해 성장한 계산기입니다. 파이썬은 데이터를 다룰 줄 아는 프로그래밍 언어입니다. 어떤 도구가 문제 크기에 맞는지 아세요."
우선, 데이터가 필요합니다. 만약 바로 사용할 CSV 파일이 없다면, 날짜, 제품, 수량 및 수익과 같은 열이 포함된 간단한 파일을 엑셀에서 생성하세요. "sales_data.csv"라는 이름으로 Jupyter 노트북이 위치한 같은 폴더에 저장하세요. 또는 kaggle.com에서 연습하기에 완벽한 수천 개의 무료 데이터 세트를 다운로드하세요.
Jupyter 노트북에서 데이터 분석을 가능하게 하는 강력한 라이브러리인 pandas를 가져오는 것부터 시작합니다. 새로운 셀에 다음을 입력하세요:
import pandas as pd
Shift + Enter를 눌러 실행하세요. 눈에 보이는 변화는 없지만, 데이터 작업을 위한 수백 가지 기능이 포함된 라이브러리를 로드한 것입니다. "as pd" 부분은 약어입니다. 매번 "pandas"를 입력하는 대신 "pd"만 입력하면 됩니다. 이는 실제로 모든 파이썬 데이터 분석가가 따르는 관례입니다.
이제 CSV 파일을 로드하세요:
df = pd.read_csv('sales_data.csv')
그게 전부입니다. 한 줄의 코드로, 전체 데이터 세트가 이제 "df"라는 변수에 로드되었습니다(데이터프레임을 의미하는 pandas의 용어입니다). 내가 처음 이것을 보았을 때는 클릭하는 것만으로 수년을 보내왔던 터라...