What about the 3 am database import that changed everything?

I still remember the panic in my junior developer's voice when he called me at 3 AM. "The client's CSV import has been running for six hours and it's only 40% complete. Their business opens in three hours and they need this customer data live." That was seven years ago, early in my career as a...

What about understanding the real performance gap between import methods?

Before we dive into the how-to, you need to understand why your import method matters so much. Last year, I ran a comprehensive benchmark test for a client who was importing daily sales data—approximately 2.3 million rows in a CSV file that was 847MB in size. We tested four different import methods...

What about mysql load data infile: the fast track for mysql imports?

MySQL's LOAD DATA INFILE is the tool I reach for first when working with MySQL databases. It's built directly into the database engine and optimized at the C code level for maximum throughput. In my experience, it consistently delivers 15-25x better performance than application-level import...

What about postgresql copy: the performance champion?

If MySQL's LOAD DATA INFILE is fast, PostgreSQL's COPY command is a rocket ship. In every benchmark I've run, COPY has outperformed equivalent MySQL imports by 20-40%, and it offers more flexibility in handling complex data scenarios. After working with both systems extensively, I've come to prefer...

What about handling real-world csv complications?

Theory is great, but real-world CSV files are messy. In my seven years of database work, I've encountered CSV files with embedded line breaks in quoted fields, files with inconsistent column counts, files with mixed character encodings, and files where the delimiter appears in the data itself....

Import CSV to Database: MySQL PostgreSQL Guide [한국어]

💡 Key Takeaways

The 3 AM Database Import That Changed Everything
Understanding the Real Performance Gap Between Import Methods
MySQL LOAD DATA INFILE: The Fast Track for MySQL Imports
PostgreSQL COPY: The Performance Champion

import-csv-to-database-guide.html

모든 것을 바꾼 3 AM 데이터베이스 가져오기

3 AM에 저에게 전화한 주니어 개발자의 목소리에서 느꼈던 당황함이 아직도 기억납니다. "클라이언트의 CSV 가져오기가 6시간째 진행 중인데 겨우 40% 완료되었습니다. 그들의 사업체는 3시간 후에 열리며 이 고객 데이터를 실시간으로 필요로 합니다." 그것은 제가 중간 규모의 이커머스 플랫폼에서 데이터베이스 아키텍트로 경력을 시작한 지 7년 전의 일이었습니다. 오늘날, 50,000에서 5천만 행까지 처리하는 회사를 위해 MySQL 및 PostgreSQL 데이터베이스를 통한 수백 개의 CSV 가져오기 작업을 최적화한 결과, 대부분의 개발자들이 잘못하고 있으며—그로 인해 수시간의 처리 시간과 수천 달러의 서버 비용이 발생한다고 말씀드릴 수 있습니다.

💡 주요 요점

모든 것을 바꾼 3 AM 데이터베이스 가져오기
가져오기 방법 간의 실제 성능 격차 이해하기
MySQL LOAD DATA INFILE: MySQL 가져오기를 위한 빠른 경로
PostgreSQL COPY: 성능 챔피언

사실은, CSV 파일을 데이터베이스에 가져오는 것은 아침까지 배포되어야 하는 2GB 파일을 마주하기 전까지는 속기 쉬운 단순한 작업처럼 보입니다. 저는 팀들이 8시간이 걸리는 사용자 정의 Python 스크립트를 작성하는 것을 보았는데, 적절한 접근 방식을 사용하면 12분 만에 완료할 수 있는 작업입니다. 잘못 구성된 가져기로 인해 서버가 메모리 부담에 의해 다운되는 것을 보았습니다. 그리고 INSERT 문에서 대량 로딩 방법으로 전환함으로써 기업들이 월 데이터 처리 비용을 73% 줄이는 것을 도와주었습니다.

이 가이드에서는 MySQL 및 PostgreSQL 데이터베이스에 20억 개 이상의 CSV 데이터를 가져오는 과정에서 배운 모든 것을 공유할 것입니다. 실제 운영 환경에서 효과적으로 작동하는 방법, 알아야 할 성능 벤치마크 및 3 AM의 당황한 전화를 피할 수 있는 노하우를 다룰 것입니다. 5MB의 고객 목록을 가져오든 50GB의 거래 로그를 가져오든, 사용할 접근 방식과 그 이유를 정확히 알고 떠날 수 있을 것입니다.

가져오기 방법 간의 실제 성능 격차 이해하기

어떻게 할지에 대해 파고들기 전에, 가져오기 방법이 왜 그렇게 중요한지 이해해야 합니다. 작년, 하루 판매 데이터를 가져오고 있는 클라이언트를 위해 포괄적인 벤치마크 테스트를 수행했습니다—대략 847MB의 크기를 가진 CSV 파일에서 230만 행이 포함되어 있었습니다. 동일한 하드웨어에서 네 가지 다른 가져오기 방법을 테스트했습니다: 4 vCPU와 16GB RAM을 가진 표준 AWS RDS db.m5.xlarge 인스턴스입니다.

"INSERT 문과 대량 로딩의 차이는 단지 속도에 국한되지 않으며—6시간의 가져오기 창과 12분의 차이입니다. 운영 환경에서 그 격차는 성공과 실패의 차이가 됩니다."

결과는 놀라웠습니다. 개별 INSERT 문을 사용한 Python 스크립트를 통해 4시간 23분이 걸렸습니다. 배치 처리된 준비된 문을 사용하여 같은 가져오기를 진행할 경우(배치당 1000행)에는 47분이 소요되었습니다. MySQL의 LOAD DATA INFILE은 8분 12초에 끝났습니다. 하지만 저를 놀라게 한 것은: PostgreSQL의 COPY 명령을 적절히 구성하여 사용했을 때 전체 가져오기가 단 3분 41초 만에 완료되었습니다. 이는 단순 접근 방식보다 71배의 성능 향상을 의미합니다.

차이는 단지 속도뿐만 아니라 리소스 활용도와 관련이 있습니다. INSERT 문 접근 방식에서는 CPU 사용량이 89%로 급증하며 전체 기간 동안 유지되었습니다. 네트워크 입출력은 각 행이 데이터베이스와의 왕복을 요구하기 때문에 지속적으로 최대에 도달했습니다. 반면 LOAD DATA INFILE 및 COPY 방법은 CPU 사용량을 약 34%로 유지하며 첫 90초 동안 네트워크 전송을 완료하고 나머지 시간은 디스크 I/O 및 인덱스 생성에 사용했습니다.

대부분의 개발자들이 깨닫지 못하는 것은: 개별 INSERT 문을 사용할 때 여러분은 데이터뿐만 아니라 각 행에 대한 SQL 문 구조 전체를 전송하는 것입니다. 10개 열이 있는 테이블의 경우, 실제 데이터 150바이트에 대해 200바이트의 SQL 오버헤드를 전송할 수 있습니다. 이는 133%의 오버헤드 비율입니다. 대량 로딩 방법은 이러한 오버헤드를 완전히 제거하며, 최소한의 프로토콜 포장을 통해 원시 데이터만 전송합니다.

메모리 점유율은 또 다른 이야기를 전합니다. Python 스크립트 접근 방식은 처리를 하기 전에 전체 CSV를 메모리에 보유하며, 애플리케이션 서버에서 1.2GB의 RAM을 소비했습니다. 대량 로딩 방법은 데이터를 직접 데이터베이스로 스트리밍하여 애플리케이션 메모리를 50MB 미만으로 사용했습니다. 이 차이는 여러 개의 가져오기를 동시에 실행하거나 큰 파일로 작업할 때 매우 중요해집니다.

MySQL LOAD DATA INFILE: MySQL 가져오기를 위한 빠른 경로

MySQL의 LOAD DATA INFILE은 MySQL 데이터베이스와 작업할 때 가장 먼저 사용하는 도구입니다. 데이터베이스 엔진에 직접 내장되어 있으며 최대 처리량을 위해 C 코드 수준에서 최적화되어 있습니다. 저의 경험에 따르면, 이는 애플리케이션 수준 가져오기 스크립트보다 일관되게 15-25배 더 나은 성능을 제공합니다. 그리고 일단 이 퀴크를 이해하면 사용하기가 놀랍도록 간단합니다.

가져오기 방법	속도 (1M 행)	메모리 사용량	최고의 사용 사례
개별 INSERT	45-60 분	낮음	작은 데이터 세트 (<10K 행), 복잡한 검증
배치 INSERT	8-12 분	중간	중간 데이터 세트 (10K-500K 행), 일부 검증
LOAD DATA INFILE (MySQL)	45-90 초	낮음	대량 데이터 세트, 최소 변환 필요
COPY (PostgreSQL)	40-80 초	낮음	대량 데이터 세트, 직접 파일 접근 가능
대량 입력 API	2-4 분	높음	원격 가져오기, 복잡한 전처리 필요

기본 구문은 다음과 같습니다: LOAD DATA INFILE '/path/to/file.csv' INTO TABLE your_table FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY '\n' IGNORE 1 ROWS; 하지만 지옥은 세부 사항에 있으며, 이러한 세부 사항은 10분의 가져오기와 3시간의 악몽의 차이를 의미할 수 있습니다.

먼저, LOCAL 키워드를 이해하십시오. LOAD DATA LOCAL INFILE을 사용하면 MySQL은 클라이언트 머신에서 파일을 읽고 네트워크를 통해 전송합니다. LOCAL이 없으면 MySQL은 파일이 데이터베이스 서버 자체에 있다고 기대합니다. 이러한 차이로 인해 개발자들이 수십 번 실수하는 것을 보았습니다—그들은 LOCAL을 사용하지 않고 랩탑에서 원격 RDS 인스턴스로 파일을 로드하려고 하여 "파일을 찾을 수 없습니다" 오류를 받게 됩니다. 성능 차이도 상당합니다: LOCAL은 네트워크 전송 시간을 증가시키지만 여전히 INSERT 문보다 훨씬 빠릅니다. 제 테스트에서 LOCAL은 서버 측 로딩과 비교하여 가져오기 시간에 약 40% 추가했지만 여전히 대안보다 10배 빠릅니다.

문자 인코딩은 또 다른 함정입니다. 기본적으로 MySQL은 CSV가 서버의 문자 집합에 있다고 가정하지만, 이는 파일과 일치하지 않을 수 있습니다. 저는 항상 문자 집합을 명시적으로 지정합니다: CHARACTER SET utf8mb4. 이는 특정 문자들이 물음표로 나타나거나 가져오기가 중간에 실패하는 이유를 디버깅하는 데 수많은 시간을 절약해주었습니다. 4바이트 지원이 있는 UTF-8 (utf8mb4)은 현대 데이터 집합에서 점점 더 일반화되고 있는 이모지와 특수 문자를 처리합니다.

복잡한 설명이 있는 제품 카탈로그 데이터를 가져오는 프로젝트에서의 실제 예입니다: LOAD DATA LOCAL INFILE 'products.csv' INTO TABLE products CHARACTER SET utf8mb4 FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY '\\' LINES TERMINATED BY '\r\n' IGNORE 1 ROWS (product_id, name, description, price, stock_quantity) SET created_at = NOW(), updated_at = NOW(); CSV 열을 테이블 열에 매핑하고 계산된 값으로 추가 필드를 설정할 수 있는 방법을 주목하십시오. 이 유연성은 CSV를 테이블 구조와 정확히 일치하도록 사전 처리할 필요가 없음을 의미합니다.

하나의 중요한 최적화: 대규모 가져오기 전에 인덱스를 비활성화하고 이후에 다시 빌드하십시오. 세 개의 인덱스가 있는 테이블의 경우, 인덱스를 삭제하고 가져온 후 다시 생성하여 3.2배 속도를 향상시킬 수 있음을 측정했습니다. 명령 순서는 다음과 같습니다: ALTER TABLE your_table DISABLE KEYS; 그런 다음 LOAD DATA 문, 다음 ALTER TABLE your_table ENABLE KEYS; MySQL은 모든 인덱스를 단일 통과에서 다시 빌드하여, 삽입된 각 행에 대해 업데이트하는 것보다 훨씬 효율적입니다.

PostgreSQL COPY: 성능 챔피언

MySQL의 LOAD DATA INFILE이 빠르다면, PostgreSQL의 COPY 명령은 로켓선입니다. 제가 실행한 모든 벤치마크에서 COPY는 동등한 MySQL 가져오기를 20-40% 초과 성능을 보였으며 복잡한 데이터 시나리오를 처리하는 데 더 많은 유연성을 제공합니다. 두 시스템을 광범위하게 사용한 후, 저는 무거운 데이터 가져오기 작업에 대해 PostgreSQL을 선호하게 되었으며, COPY는 그 이유 중 하나입니다.

"대부분의 개발자들은 CSV 가져오기를 일회성 작업으로 처리하고 편의성을 위해 최적화합니다. 하지만 여러분이 매일 수백만 개의 행을 처리하고 있는 경우."