What about the 3 am database import that changed everything?

I still remember the panic in my junior developer's voice when he called me at 3 AM. "The client's CSV import has been running for six hours and it's only 40% complete. Their business opens in three hours and they need this customer data live." That was seven years ago, early in my career as a...

What about understanding the real performance gap between import methods?

Before we dive into the how-to, you need to understand why your import method matters so much. Last year, I ran a comprehensive benchmark test for a client who was importing daily sales data—approximately 2.3 million rows in a CSV file that was 847MB in size. We tested four different import methods...

What about mysql load data infile: the fast track for mysql imports?

MySQL's LOAD DATA INFILE is the tool I reach for first when working with MySQL databases. It's built directly into the database engine and optimized at the C code level for maximum throughput. In my experience, it consistently delivers 15-25x better performance than application-level import...

What about postgresql copy: the performance champion?

If MySQL's LOAD DATA INFILE is fast, PostgreSQL's COPY command is a rocket ship. In every benchmark I've run, COPY has outperformed equivalent MySQL imports by 20-40%, and it offers more flexibility in handling complex data scenarios. After working with both systems extensively, I've come to prefer...

What about handling real-world csv complications?

Theory is great, but real-world CSV files are messy. In my seven years of database work, I've encountered CSV files with embedded line breaks in quoted fields, files with inconsistent column counts, files with mixed character encodings, and files where the delimiter appears in the data itself....

Import CSV to Database: MySQL PostgreSQL Guide [Français]

💡 Key Takeaways

The 3 AM Database Import That Changed Everything
Understanding the Real Performance Gap Between Import Methods
MySQL LOAD DATA INFILE: The Fast Track for MySQL Imports
PostgreSQL COPY: The Performance Champion

L'importation de base de données à 3 h qui a tout changé

Je me souviens encore de la panique dans la voix de mon développeur junior lorsqu'il m'a appelé à 3 h. "L'importation CSV du client fonctionne depuis six heures et n'est qu'à 40 %." Leur entreprise ouvre dans trois heures et ils ont besoin de ces données clients en direct." C'était il y a sept ans, au début de ma carrière en tant qu'architecte de bases de données sur une plateforme e-commerce de taille moyenne. Aujourd'hui, après avoir optimisé des centaines d'opérations d'importation CSV sur des bases de données MySQL et PostgreSQL pour des entreprises traitant entre 50 000 et 50 millions de lignes, je peux vous dire que la plupart des développeurs s'y prennent mal—et cela leur coûte des heures de temps de traitement et des milliers en coûts de serveur.

💡 Points clés

L'importation de base de données à 3 h qui a tout changé
Comprendre l'écart de performance réel entre les méthodes d'importation
MySQL LOAD DATA INFILE : Le moyen rapide pour les importations MySQL
PostgreSQL COPY : Le champion de la performance

La vérité est que l'importation de fichiers CSV dans des bases de données est l'une de ces tâches qui semble trompeusement simple jusqu'à ce que vous soyez face à un fichier de 2 Go qui doit être en production le matin. J'ai vu des équipes recourir à l'écriture de scripts Python personnalisés qui prennent 8 heures pour importer ce qui pourrait être fait en 12 minutes avec la bonne approche. J'ai regardé des serveurs planter sous le poids de mémoire d'importations mal configurées. Et j'ai aidé des entreprises à réduire leurs coûts mensuels de traitement de données de 73 % simplement en passant des instructions INSERT aux méthodes de chargement en masse.

Dans ce guide, je vais partager tout ce que j'ai appris en importation de plus de 2 milliards de lignes de données CSV dans des bases de données MySQL et PostgreSQL. Nous aborderons les méthodes qui fonctionnent réellement dans des environnements de production, les références de performance que vous devez connaître, et les pièges qui vous sauveront de ces appels de panique à 3 h. Que vous importiez une liste de clients de 5 Mo ou un journal de transactions de 50 Go, vous repartirez en sachant exactement quelle approche utiliser et pourquoi.

Comprendre l'écart de performance réel entre les méthodes d'importation

Avant d'entrer dans le mode d'emploi, vous devez comprendre pourquoi votre méthode d'importation est si importante. L'année dernière, j'ai réalisé un test de référence complet pour un client qui importait des données de ventes quotidiennes—environ 2,3 millions de lignes dans un fichier CSV de 847 Mo. Nous avons testé quatre méthodes d'importation différentes sur du matériel identique : une instance AWS RDS db.m5.xlarge standard avec 4 vCPUs et 16 Go de RAM.

"La différence entre les instructions INSERT et le chargement en masse n'est pas seulement une question de vitesse—c'est la différence entre une fenêtre d'importation de 6 heures et une de 12 minutes. En production, cet écart est la différence entre le succès et l'échec."

Les résultats ont été stupéfiants. Utiliser des instructions INSERT individuelles via un script Python a pris 4 heures et 23 minutes. Le même import avec des instructions préparées par lots (1000 lignes par lot) s'est terminé en 47 minutes. Le LOAD DATA INFILE de MySQL a fini en 8 minutes et 12 secondes. Mais voici ce qui m'a même surpris : utiliser la commande COPY de PostgreSQL avec la configuration appropriée a permis de terminer l'importation complète en seulement 3 minutes et 41 secondes. C'est une amélioration de performance de 71x par rapport à l'approche naïve.

La différence ne concerne pas seulement la vitesse—il s'agit d'utilisation des ressources. Pendant l'approche par instructions INSERT, nous avons observé une utilisation du CPU atteignant 89 % et y restant pendant toute la durée. Le transfert réseau était constamment saturé car chaque ligne nécessitait un aller-retour vers la base de données. Les méthodes LOAD DATA INFILE et COPY, en revanche, maintenaient l'utilisation du CPU autour de 34 % et complétaient le transfert réseau dans les 90 premières secondes, passant le temps restant sur l'E/S disque et la construction d'index.

Voici ce que la plupart des développeurs ne réalisent pas : lorsque vous utilisez des instructions INSERT individuelles, vous ne vous contentez pas d'envoyer des données—vous envoyez l'intégralité de la structure de l'instruction SQL pour chaque ligne. Pour une table avec 10 colonnes, vous pourriez envoyer 200 octets de surcharge SQL pour chaque 150 octets de données réelles. C'est un ratio de surcharge de 133 %. Les méthodes de chargement en masse éliminent complètement cette surcharge, envoyant simplement les données brutes avec un minimum d'encapsulation de protocole.

L'empreinte mémoire raconte une autre histoire. L'approche du script Python a maintenu l'ensemble du CSV en mémoire avant le traitement, consommant 1,2 Go de RAM sur le serveur d'application. Les méthodes de chargement en masse ont streamé les données directement vers la base de données, utilisant moins de 50 Mo de mémoire d'application. Cette différence devient critique lorsque vous exécutez plusieurs imports simultanément ou travaillez avec des fichiers plus volumineux.

MySQL LOAD DATA INFILE : Le moyen rapide pour les importations MySQL

Le LOAD DATA INFILE de MySQL est l'outil que je privilégie en premier lorsque je travaille avec des bases de données MySQL. Il est directement intégré au moteur de base de données et optimisé au niveau du code C pour un maximum de débit. De mon expérience, il offre systématiquement des performances 15 à 25 fois meilleures que les scripts d'importation au niveau de l'application, et il est remarquablement simple à utiliser une fois que vous comprenez ses particularités.

Méthode d'importation	Vitesse (1M lignes)	Utilisation de la mémoire	Meilleur cas d'utilisation
INSERTs individuels	45-60 minutes	Faible	Petits ensembles de données (<10K lignes), validation complexe
INSERTs par lots	8-12 minutes	Moyenne	Ensembles de données moyens (10K-500K lignes), validation partielle
LOAD DATA INFILE (MySQL)	45-90 secondes	Faible	Grands ensembles de données, transformation minimale requise
COPY (PostgreSQL)	40-80 secondes	Faible	Grands ensembles de données, accès direct au fichier disponible
API d'insertion en masse	2-4 minutes	Élevée	Importations distantes, prétraitement complexe requis

La syntaxe de base ressemble à ceci : LOAD DATA INFILE '/path/to/file.csv' INTO TABLE your_table FIELDS TERMINATED BY ',' ENCLOSED BY '"' LINES TERMINATED BY '\n' IGNORE 1 ROWS; Mais le diable est dans les détails, et ces détails peuvent faire la différence entre un import de 10 minutes et un cauchemar de 3 heures.

Tout d'abord, comprenez le mot-clé LOCAL. Lorsque vous utilisez LOAD DATA LOCAL INFILE, MySQL lit le fichier depuis la machine cliente et le transfère via le réseau. Sans LOCAL, MySQL s'attend à ce que le fichier soit sur le serveur de base de données lui-même. J'ai vu cela bloquer des développeurs des dizaines de fois—ils reçoivent une erreur "fichier non trouvé" parce qu'ils essaient de charger un fichier depuis leur ordinateur portable vers une instance RDS distante sans utiliser LOCAL. La différence de performance est aussi significative : LOCAL ajoute du temps de transfert réseau, mais c'est toujours de loin plus rapide que les instructions INSERT. Dans mes tests, LOCAL a ajouté environ 40 % au temps d'importation par rapport au chargement côté serveur, mais c'est encore 10 fois plus rapide que l'alternative.

Le codage des caractères est une autre mine terrestre. Par défaut, MySQL suppose que votre CSV est dans le jeu de caractères du serveur, ce qui pourrait ne pas correspondre à votre fichier. Je spécifie toujours explicitement le jeu de caractères : CHARACTER SET utf8mb4. Cela m'a fait gagner d'innombrables heures à déboguer pourquoi certains caractères apparaissaient sous forme de points d'interrogation ou entraînaient l'échec de l'importation à mi-parcours. UTF-8 avec support de 4 octets (utf8mb4) prend en charge les emojis et les caractères spéciaux qui deviennent de plus en plus courants dans les ensembles de données modernes.

Voici un exemple du monde réel d'un projet où nous avons importé des données de catalogue de produits avec des descriptions complexes : LOAD DATA LOCAL INFILE 'products.csv' INTO TABLE products CHARACTER SET utf8mb4 FIELDS TERMINATED BY ',' ENCLOSED BY '"' ESCAPED BY '\\' LINES TERMINATED BY '\r\n' IGNORE 1 ROWS (product_id, name, description, price, stock_quantity) SET created_at = NOW(), updated_at = NOW(); Remarquez comment nous pouvons mapper les colonnes CSV aux colonnes de la table et même définir des champs supplémentaires avec des valeurs calculées. Cette flexibilité signifie que vous n'avez pas besoin de prétraiter votre CSV pour correspondre exactement à la structure de votre table.

Une optimisation critique : désactivez les index avant de grandes importations et reconstruisez-les ensuite. Pour une table avec trois index, j'ai mesuré un gain de vitesse de 3,2 fois en supprimant les index, en important, puis en les recréant. La séquence de commandes est : ALTER TABLE your_table DISABLE KEYS; puis votre commande LOAD DATA, puis ALTER TABLE your_table ENABLE KEYS; MySQL reconstruit tous les index en un seul passage, ce qui est beaucoup plus efficace que de les mettre à jour pour chaque ligne insérée.

PostgreSQL COPY : Le champion de la performance

Si le LOAD DATA INFILE de MySQL est rapide, la commande COPY de PostgreSQL est une fusée. Dans tous les benchmarks que j'ai réalisés, COPY a dépassé les importations MySQL équivalentes de 20 à 40 %, et elle offre plus de flexibilité dans la gestion de scénarios de données complexes. Après avoir travaillé avec les deux systèmes de manière approfondie, je préfère PostgreSQL pour les charges de travail d'importation de données lourdes, et COPY est une grande raison de cela.

"La plupart des développeurs considèrent les importations CSV comme une tâche ponctuelle et optimisent pour la commodité. Mais lorsque vous traitez des m