Python Pandas CSV Tutorial: From Zero to Data Analysis [Français]

# Tutoriel CSV Python Pandas : De Zéro à l'Analyse de Données Je n'oublierai jamais le regard de Sarah durant la deuxième semaine de notre bootcamp de science des données. Elle fixait son carnet Jupyter depuis trois heures, convaincue qu'elle perdait la raison. Son fichier CSV contenait 5 000 enregistrements clients lorsqu'elle l’a ouvert dans Excel, mais quand elle l’a chargé dans Pandas, `df.shape` n’affichait que 2 847 lignes. Aucun message d'erreur. Aucun avertissement. Juste 2 153 clients disparaissant silencieusement dans le vide numérique. Le coupable ? Des encodages de caractères mixtes. Le système CRM de son entreprise collectait des données depuis des années, et quelque part en cours de route, quelqu'un était passé de l'encodage Latin-1 à l'UTF-8. Pandas a rencontré ces caractères incompatibles, a haussé les épaules et a juste... les a ignorés. Sarah avait passé ces trois heures à remettre en question son installation Python, son code, son choix de carrière, et peut-être même sa santé mentale, alors que le véritable problème était un seul paramètre qu'elle ignorait. Ce scénario se reproduit dans chaque cohorte de bootcamp que j'enseigne. Les fichiers CSV semblent simples : ce ne sont que du texte séparé par des virgules, non ? Mais ce sont en réalité des mines terrestres de cas marginaux, de problèmes d'encodage, d'incompatibilités de types de données et de défaillances silencieuses qui peuvent corrompre toute votre analyse avant même que vous réalisiez qu'il y a un problème. Après avoir enseigné à plus de 500 étudiants et débogué des milliers de problèmes d'importation de CSV, j'ai appris que l'écart entre "charger un CSV" et "charger un CSV correctement" est là où la plupart des projets de science des données échouent.

Pourquoi les Fichiers CSV Sont-plus Difficiles Qu'ils N'en Ont l'Air

Quand je demande aux nouveaux étudiants ce qui pourrait mal se passer avec un fichier CSV, ils répondent généralement "pas grand-chose, c'est juste du texte." Ensuite, je leur montre ma collection de cauchemars CSV du monde réel, et leur confiance s'évapore. CSV signifie "valeurs séparées par des virgules", mais ce nom est trompeur. En pratique, les fichiers CSV peuvent être séparés par des virgules, des points-virgules, des tabulations, des barres verticales, ou tout caractère que la personne qui a exporté les données a décidé d'utiliser ce jour-là. Ils peuvent avoir des en-têtes, ou pas. Ils peuvent utiliser des guillemets autour des champs de texte, ou les utiliser de manière incohérente. Ils peuvent encoder les dates au format "MM/JJ/AAAA" ou "JJ-MM-AAAA" ou "AAAA/MM/JJ" ou sous forme de timestamps Unix ou de numéros de série Excel (oui, vraiment). Le "standard" CSV (RFC 4180) est plus une suggestion que la plupart des logiciels ignorent joyeusement. Microsoft Excel exporte des CSV de manière différente selon vos paramètres régionaux. Google Sheets a ses propres idées sur la mise en forme. Les exports de bases de données suivent une autre série de conventions. Et lorsque vous tirez des données de plusieurs sources—ce qui est pratiquement le cas de chaque projet du monde réel—vous êtes garanti de rencontrer des incohérences. Voici ce qui rend cela particulièrement dangereux : Pandas essaiera d'être utile. Il fera des hypothèses sur vos types de données, vos délimiteurs, votre encodage, et vos valeurs manquantes. Parfois, ces hypothèses sont correctes. Parfois, elles sont catastrophiquement fausses. Et parfois—comme dans le cas de Sarah—elles sont fausses de manière à ne pas déclencher d'erreurs, elles corrompent simplement vos données en silence. J'ai vu des étudiants passer des jours à construire des modèles d'apprentissage automatique sophistiqués sur des ensembles de données où Pandas avait mal analysé 30 % des dates. J'ai vu des analystes présenter des recommandations commerciales basées sur des chiffres de revenus où Pandas interprétait les symboles monétaires comme du texte et convertissait tout en chaînes. J'ai débogué des situations où Pandas lisait "N/A" comme une donnée manquante dans une colonne mais comme la chaîne littérale "N/A" dans une autre colonne, parce que les types de données étaient différents. La solution n'est pas d'éviter les fichiers CSV—ils sont omniprésents et souvent inévitables. La solution est de comprendre exactement ce que fait Pandas lorsqu'il lit votre CSV, et de contrôler explicitement chaque hypothèse qu'il fait. C'est de cela que parle ce tutoriel : passer de "j'espère que cela fonctionne" à "je sais exactement ce qui se passe avec mes données."

Le Pipeline de Lecture CSV de Pandas : Que Se Passe-t-il Réellement

Avant de plonger dans le code, vous devez comprendre ce qui se passe en coulisse lorsque vous appelez `pd.read_csv()`. Ce n'est pas une connaissance académique—comprendre ce pipeline est ce qui sépare les étudiants qui luttent avec les fichiers CSV de ceux qui les gèrent avec confiance. Lorsque Pandas lit un fichier CSV, il passe par plusieurs phases distinctes : Phase 1 : Accès au Fichier et Détection de l'Encodage Pandas ouvre le fichier et tente de décoder les octets en texte. Par défaut, il suppose un encodage UTF-8, ce qui fonctionne pour de nombreux fichiers modernes, mais échoue de manière spectaculaire pour les données plus anciennes. Si l'encodage est incorrect, Pandas peut lancer une erreur, ou il peut silencieusement remplacer les caractères problématiques par des points d'interrogation ou des caractères de remplacement Unicode. Phase 2 : Détection du Délimiteur Pandas examine les premières lignes pour deviner quel caractère sépare vos colonnes. Il est généralement assez bon à cela, mais "assez bon" n'est pas la même chose que "toujours correct." J'ai vu des fichiers où les 100 premières lignes utilisaient des virgules, mais à la ligne 101, on était passé aux points-virgules parce que quelqu'un avait modifié manuellement le fichier. Phase 3 : Détection des En-têtes Pandas suppose que votre première ligne contient des noms de colonnes, sauf si vous l'informez du contraire. Si votre CSV n'a pas d'en-têtes, Pandas traitera votre première ligne de données comme noms de colonnes, ce qui crée un désordre. Si votre CSV a plusieurs lignes d'en-têtes (ce qui est courant dans les exports d'Excel), Pandas n'utilisera que la première. Phase 4 : Inférence des Types de Données C'est ici que les choses deviennent vraiment intéressantes. Pandas examine les premières lignes de chaque colonne et devine le type de données. Les nombres deviennent des entiers ou des flottants. Le texte devient des chaînes (ou du type "objet" dans la terminologie de Pandas). Les dates... eh bien, les dates sont compliquées. Pandas essaiera de les analyser si elles ressemblent à des dates, mais sa définition de "de type date" peut ne pas correspondre à vos données. Phase 5 : Gestion des Valeurs Manquantes Pandas a une liste intégrée de chaînes qu'il traite comme des valeurs manquantes : "NA", "N/A", "NULL", "NaN", chaînes vides, et quelques autres. Si vos données utilisent d'autres conventions (comme "MANQUANT" ou "---" ou "9999"), Pandas ne les reconnaîtra pas comme des valeurs manquantes. Chacune de ces phases implique des hypothèses. Et chaque hypothèse est une occasion de corruption silencieuse des données. La clé pour des importations CSV fiables est de rendre ces hypothèses explicites à travers des paramètres.

L'Histoire des Points Décimaux Invisibles

Laissez-moi vous parler de Marcus, un étudiant de ma cohorte du printemps 2023. Il analyzait les données de ventes d'une entreprise de commerce électronique européenne, et son analyse montrait que les valeurs moyennes de commandes avaient mystérieusement chuté de 90 % au T3. Son responsable paniquait, pensant qu'ils avaient un gros problème d'affaires. Marcus a passé deux jours à enquêter. Il a vérifié les requêtes de base de données, vérifié le processus d'exportation, examiné les fichiers CSV bruts dans un éditeur de texte—tout semblait en ordre. Les chiffres dans le CSV étaient corrects : "1.234,56" pour mille deux cent trente-quatre euros et cinquante-six centimes, utilisant la convention européenne des points pour les séparateurs de milliers et des virgules pour les points décimaux. Mais lorsqu'il a chargé les données dans Pandas, ces chiffres sont devenus 1.234 (un point deux trois quatre). Pandas a vu le point et l'a interprété comme un point décimal, car c'est la convention américaine. La virgule ? Pandas pensait que c'était un séparateur de milliers et l'a ignorée. Donc "1.234,56" est devenu 1.234, et "5.678,90" est devenu 5.678. Chaque valeur monétaire de l'ensemble de données était fausse d'un facteur de 100 ou plus. La solution était simple une fois le problème identifié : spécifier les paramètres `decimal` et `thousands` dans `pd.read_csv()`. Mais trouver le problème a pris des jours car les données semblaient raisonnables à première vue. Les chiffres étaient numériques, ils étaient dans les bonnes colonnes, mais ils étaient complètement faux. C'est ce que je veux dire quand je dis que les importations CSV sont dangereuses. Les erreurs ne sont pas toujours évidentes. Elles ne produisent pas toujours des exceptions. Parfois, vos données deviennent simplement incorrectes en silence, et vous ne le remarquez pas jusqu'à ce que vous ayez déjà pris des décisions basées sur elles. L'histoire de Marcus a une fin heureuse : nous avons repéré l'erreur avant qu'il ne soit trop tard. Mais j'ai entendu des histoires horribles de collègues de l'industrie concernant des analyses qui ont abouti à des présentations de direction avant que quelqu'un remarque que les données étaient incorrectes. Une entreprise a failli prendre une décision d'investissement de plusieurs millions de dollars sur la base d'importations CSV corrompues.

Comprendre les Types de Données : La Fondation des Importations Correctes

Passons aux choses pratiques. Voici un tableau montrant les problèmes de type de données les plus courants que je vois dans les projets d'étudiants, et comment les gérer :

Type de Données	Problèmes Courants	Comportement par Défaut de Pandas	Approche Correcte
Entiers	Zéros en tête (codes postaux), grands nombres stockés sous forme de texte	Convertit en int64, supprime les zéros en tête	Utiliser dtype='str' pour les codes, dtype='Int64' pour les entiers nullables
Flottants	Symboles monétaires, séparateurs de milliers, décimales européennes	Convertit en objet (chaîne) si des caractères non numériques sont présents	Nettoyer les données d'abord ou utiliser le paramètre converters
Dates	Multiples formats, problèmes de fuseaux horaires, dates de série Excel	Conserve sous forme de chaîne, sauf si le format est évident	Utiliser parse_dates avec une chaîne de format explicite
Booléens	Oui/Non, Vrai/Faux, 1/0, variations Y/N	Conserve sous forme de chaîne	Utiliser des convertisseurs ou mapper après importation
Catégories	Valeurs de chaîne répétées (états, pays, types de produits)	Stocke sous forme d'objet, gaspille de la mémoire	Utiliser dtype='category' pour l'efficacité
Valeurs Manquantes	Chaînes vides, "N/A", "NULL", "---", 9999, etc.	Ne reconnaît que les valeurs NA standards	Utiliser le paramètre na_values pour spécifier des indicateurs manquants personnalisés

La leçon la plus importante de ce tableau : ne jamais faire confiance à l'inférence de type de données par défaut de Pandas pour quoi que ce soit d'important. Spécifiez toujours explicitement les types de données pour les colonnes critiques, en particulier les identifiants, les dates et les valeurs numériques. Voici un exemple réel d'un projet étudiant. Ils analysaient des données clients et avaient remarqué que certains identifiants clients étaient manquants. Il s'avère que les identifiants n'étaient pas manquants—ce étaient des codes postaux qui commençaient par zéro, comme "01234" pour le Massachusetts. Pandas les a convertis en entiers (1234), et lorsqu'ils ont essayé de rejoindre un autre ensemble de données qui avait les identifiants de chaîne corrects ("01234"), la jointure a échoué silencieusement, supprimant des milliers d'enregistrements. La solution : ```python # Mauvais - perd les zéros en tête df = pd.read_csv('customers.csv') # Bon - préserve les codes postaux sous forme de chaînes df = pd.read_csv('customers.csv', dtype={'zip_code': 'str'}) ``` Ce paramètre unique les a sauvés d'une analyse complètement incorrecte.

Le Problème d'Encodage : Pourquoi Vos Données Internationales Se Corrompent

Laissez-moi partager quelque chose qui surprend la plupart des étudiants : il existe des dizaines de façons d'encoder du texte sous forme d'octets, et les fichiers CSV n'incluent pas de métadonnées sur l'encodage qu'ils utilisent. Vous devez juste deviner, et si vous devinez mal, vos données se corrompent.

"J'ai passé six mois à analyser les données de commentaires clients avant de réaliser que chaque accent, chaque emoji, chaque caractère non anglais dans nos évaluations internationales avait été corrompu lors de l'importation. Notre modèle d'analyse de sentiment s'entraînait sur des données inutilisables, et personne ne l'a remarqué parce que les évaluations en anglais semblaient correctes." — Ancien étudiant, maintenant ingénieur en ML dans une entreprise Fortune 500

L'UTF-8 est la norme moderne et devrait être votre première supposition. Mais les systèmes plus anciens utilisent souvent le Latin-1 (également appelé ISO-8859-1), les systèmes Windows pourraient utiliser CP1252, et si vous travaillez avec des données d'Asie de l'Est, vous pourriez rencontrer Shift-JIS, GB2312, ou Big5. Comment savez-vous quel encodage utiliser ? Parfois, vous pouvez demander à ceux qui vous ont donné le fichier. Parfois, vous pouvez...