Python Pandas CSV Tutorial: From Zero to Data Analysis [Español]

# Tutorial de CSV de Python Pandas: De Cero a Análisis de Datos Nunca olvidaré la expresión del rostro de Sarah durante la segunda semana de nuestro bootcamp de ciencia de datos. Había estado mirando su cuaderno de Jupyter durante tres horas, convencida de que estaba perdiendo la cabeza. Su archivo CSV tenía 5,000 registros de clientes cuando lo abrió en Excel, pero cuando lo cargó en Pandas, `df.shape` mostraba solo 2,847 filas. Sin mensaje de error. Sin advertencia. Solo 2,153 clientes desapareciendo en silencio en el vacío digital. ¿El culpable? Codificaciones de caracteres mezcladas. El sistema CRM de su empresa había estado recopilando datos durante años, y en algún momento, alguien cambió de codificación Latin-1 a UTF-8. Pandas se encontró con esos caracteres incompatibles, se encogió de hombros y simplemente... los ignoró. Sarah había pasado esas tres horas cuestionándose su instalación de Python, su código, su elección de carrera, y posiblemente su cordura—cuando el verdadero problema era un solo parámetro que no sabía que existía. Este escenario se repite en cada cohort de bootcamp que enseño. Los archivos CSV parecen simples—son solo texto separado por comas, ¿verdad? Pero en realidad son minas terrestres de casos extremos, problemas de codificación, desajustes de tipos de datos, y fallos silenciosos que pueden corromper tu análisis completo antes de que te des cuenta de que algo está mal. Después de enseñar a más de 500 estudiantes y depurar miles de problemas de importación de CSV, he aprendido que la brecha entre "cargar un CSV" y "cargar un CSV correctamente" es donde la mayoría de los proyectos de ciencia de datos fracasan.

Por qué los Archivos CSV son Más Difíciles de lo que Parecen

Cuando le pregunto a los nuevos estudiantes qué podría salir mal con un archivo CSV, suelen decir "nada mucho—es solo texto." Luego les muestro mi colección de pesadillas de CSV del mundo real, y su confianza se evapora. CSV significa "valores separados por comas", pero ese nombre es engañoso. En la práctica, los archivos CSV se separan por comas, punto y coma, tabulaciones, pipes, o cualquier carácter que la persona que exportó los datos decidió usar ese día. Pueden tener encabezados, o podrían no tenerlos. Pueden usar comillas alrededor de los campos de texto, o pueden usarlas de manera inconsistente. Podrían codificar fechas como "MM/DD/YYYY" o "DD-MM-YYYY" o "YYYY/MM/DD" o como marcas de tiempo de Unix o como números de serie de Excel (sí, de verdad). El "estándar" CSV (RFC 4180) es más una sugerencia que la mayoría del software ignora alegremente. Microsoft Excel exporta CSV de forma diferente según tu configuración regional. Google Sheets tiene sus propias ideas sobre el formato. Las exportaciones de bases de datos siguen un conjunto diferente de convenciones. Y cuando estás extrayendo datos de múltiples fuentes—lo que es básicamente cada proyecto del mundo real—te garantizas encontrar inconsistencias. Esto es lo que hace que esto sea particularmente peligroso: Pandas intentará ser útil. Hará suposiciones sobre tus tipos de datos, tus delimitadores, tu codificación, y tus valores faltantes. A veces esas suposiciones son correctas. Otras veces son catastróficamente incorrectas. Y a veces—como en el caso de Sarah—están equivocadas de maneras que no arrojan errores, simplemente corrompen silenciosamente tus datos. He visto a estudiantes pasar días construyendo modelos sofisticados de aprendizaje automático sobre conjuntos de datos donde Pandas analizó incorrectamente el 30% de las fechas. He visto a analistas presentar recomendaciones comerciales basadas en cifras de ingresos donde Pandas interpretó los símbolos de moneda como texto y convirtió todo a cadenas. He depurado situaciones donde Pandas leyó "N/A" como datos faltantes en una columna, pero como la cadena literal "N/A" en otra columna, porque los tipos de datos eran diferentes. La solución no es evitar los archivos CSV—son omnipresentes y a menudo inevitables. La solución es entender exactamente qué está haciendo Pandas cuando lee tu CSV, y controlar explícitamente cada suposición que hace. De eso trata este tutorial: pasar de "Espero que esto funcione" a "Sé exactamente qué está pasando con mis datos."

La Pipeline de Lectura de CSV de Pandas: Lo que Realmente Sucede

Antes de que nos sumerjamos en el código, necesitas entender qué sucede detrás de escena cuando llamas a `pd.read_csv()`. Este no es un conocimiento académico—entender esta pipeline es lo que separa a los estudiantes que luchan con archivos CSV de los estudiantes que los manejan con confianza. Cuando Pandas lee un archivo CSV, pasa por varias fases distintas: Fase 1: Acceso al Archivo y Detección de Codificación Pandas abre el archivo y intenta decodificar los bytes en texto. Por defecto, asume codificación UTF-8, que funciona para muchos archivos modernos pero falla espectacularmente para datos más antiguos. Si la codificación es incorrecta, Pandas puede lanzar un error, o puede reemplazar silenciosamente caracteres problemáticos por signos de interrogación o caracteres de reemplazo Unicode. Fase 2: Detección de Delimitadores Pandas mira las primeras líneas para adivinar qué carácter separa tus columnas. Usualmente es bastante bueno en esto, pero "bastante bueno" no es lo mismo que "siempre correcto." He visto archivos donde las primeras 100 filas usaron comas, pero la fila 101 cambió a punto y coma porque alguien editó el archivo manualmente. Fase 3: Detección de Encabezados Pandas asume que tu primera fila contiene nombres de columnas a menos que le digas lo contrario. Si tu CSV no tiene encabezados, Pandas tratará tu primera fila de datos como nombres de columnas, lo que crea un desorden. Si tu CSV tiene múltiples filas de encabezado (común en exportaciones de Excel), Pandas solo usará la primera. Fase 4: Inferencia de Tipos de Datos Aquí es donde las cosas se ponen realmente interesantes. Pandas examina las primeras filas de cada columna y adivina el tipo de dato. Los números se convierten en enteros o flotantes. El texto se convierte en cadenas (o tipo "object" en la terminología de Pandas). Las fechas... bueno, las fechas son complicadas. Pandas intentará analizarlas si parecen similares a fechas, pero su definición de "similar a una fecha" podría no coincidir con tus datos. Fase 5: Manejo de Valores Faltantes Pandas tiene una lista integrada de cadenas que trata como valores faltantes: "NA", "N/A", "NULL", "NaN", cadenas vacías y algunas otras. Si tus datos utilizan convenciones diferentes (como "MISSING" o "---" o "9999"), Pandas no las reconocerá como valores faltantes. Cada una de estas fases implica suposiciones. Y cada suposición es una oportunidad para la corrupción silenciosa de datos. La clave para importaciones CSV confiables es hacer estas suposiciones explícitas a través de parámetros.

La Historia de los Puntos Decimales Invisibles

Déjame contarte sobre Marcus, un estudiante de mi cohorte de primavera de 2023. Estaba analizando datos de ventas para una empresa europea de comercio electrónico, y su análisis mostró que los valores promedio de pedidos habían caído misteriosamente un 90% en el tercer trimestre. Su gerente estaba entrando en pánico, pensando que tenían un gran problema comercial. Marcus pasó dos días investigando. Revisó las consultas de la base de datos, verificó el proceso de exportación, examinó los archivos CSV en un editor de texto—todo parecía estar bien. Los números en el CSV eran correctos: "1.234,56" para mil doscientos treinta y cuatro euros y cincuenta y seis centavos, utilizando la convención europea de puntos para separadores de miles y comas para puntos decimales. Pero cuando cargó los datos en Pandas, esos números se convirtieron en 1.234 (uno punto dos tres cuatro). Pandas vio el punto y lo interpretó como un punto decimal, porque esa es la convención estadounidense. ¿La coma? Pandas pensó que era un separador de miles y la ignoró. Así que "1.234,56" se convirtió en 1.234, y "5.678,90" se convirtió en 5.678. Cada valor monetario en el conjunto de datos estaba incorrecto por un factor de 100 o más. La solución fue simple una vez que identificamos el problema: especificar los parámetros `decimal` y `thousands` en `pd.read_csv()`. Pero encontrar el problema tomó días porque los datos parecían razonables a primera vista. Los números eran numéricos, estaban en las columnas correctas, simplemente sucedió que estaban completamente equivocados. Esto es lo que quiero decir cuando digo que las importaciones CSV son peligrosas. Los errores no siempre son obvios. No siempre arrojan excepciones. A veces tus datos simplemente se vuelven incorrectos en silencio, y no te das cuenta hasta que ya has tomado decisiones basadas en ellos. La historia de Marcus tiene un final feliz—capturamos el error antes de que se causara algún daño real. Pero he escuchado historias de terror de colegas de la industria sobre análisis que llegaron hasta presentaciones ejecutivas antes de que alguien notara que los datos estaban mal. Una empresa casi tomó una decisión de inversión multimillonaria basada en importaciones CSV corruptas.

Entendiendo los Tipos de Datos: La Base de Importaciones Correctas

Pongámonos prácticos. Aquí hay una tabla que muestra los problemas de tipo de dato más comunes que veo en proyectos de estudiantes, y cómo manejarlos:

Tipo de Dato	Problemas Comunes	Comportamiento por Defecto de Pandas	Enfoque Correcto
Enteros	Ceros a la izquierda (códigos ZIP), números grandes almacenados como texto	Convierte a int64, elimina ceros a la izquierda	Usa dtype='str' para códigos, dtype='Int64' para enteros anulables
Flotantes	Símbolos de moneda, separadores de miles, decimales europeos	Convierte a objeto (cadena) si hay caracteres no numéricos presentes	Limpia los datos primero o usa el parámetro converters
Fechas	Múltiples formatos, problemas de zona horaria, fechas seriales de Excel	Mantiene como cadena a menos que el formato sea obvio	Usa parse_dates con una cadena de formato explícita
Booleanos	Sí/No, Verdadero/Falso, 1/0, variaciones Y/N	Mantiene como cadena	Usa converters o haz un mapeo después de la importación
Categorías	Valores de cadena repetidos (estados, países, tipos de productos)	Almacena como objeto, desperdicia memoria	Usa dtype='category' para eficiencia
Valores Faltantes	Cadenas vacías, "N/A", "NULL", "---", 9999, etc.	Solo reconoce valores NA estándar	Usa el parámetro na_values para especificar indicadores de falta personalizados

La lección más importante de esta tabla: nunca confíes en la inferencia de tipo de dato por defecto de Pandas para nada importante. Siempre especifica explícitamente los tipos de datos para columnas críticas, especialmente IDs, fechas y valores numéricos. Aquí hay un ejemplo real de un proyecto estudiantil. Estaban analizando datos de clientes y notaron que algunos IDs de clientes faltaban. Resulta que los IDs no estaban faltando—eran códigos ZIP que comenzaban con cero, como "01234" para Massachusetts. Pandas los convirtió en enteros (1234), y cuando intentaron unirse a otro conjunto de datos que tenía los IDs de cadena correctos ("01234"), la unión falló silenciosamente, eliminando miles de registros. La solución: ```python # Incorrecto - pierde los ceros a la izquierda df = pd.read_csv('customers.csv') # Correcto - preserva los códigos ZIP como cadenas df = pd.read_csv('customers.csv', dtype={'zip_code': 'str'}) ``` Este parámetro les salvó de un análisis completamente incorrecto.

El Problema de Codificación: Por Qué Tus Datos Internacionales Se Rompen

Déjame compartir algo que sorprende a la mayoría de los estudiantes: hay docenas de formas diferentes de codificar texto como bytes, y los archivos CSV no incluyen metadatos sobre qué codificación utilizan. Solo tienes que adivinar, y si adivinas mal, tus datos se rompen.

"Pasé seis meses analizando datos de comentarios de clientes antes de darme cuenta de que cada marca de acento, cada emoji, cada carácter no inglés en nuestras reseñas internacionales había sido corrompido durante la importación. Nuestro modelo de análisis de sentimientos estaba entrenando con datos basura, y nadie se dio cuenta porque las reseñas en inglés se veían bien." — Antiguo estudiante, ahora ingeniero de ML en una empresa Fortune 500

UTF-8 es el estándar moderno y debería ser tu primera suposición. Pero los sistemas más antiguos a menudo utilizan Latin-1 (también llamado ISO-8859-1), los sistemas de Windows podrían usar CP1252, y si estás trabajando con datos de Asia Oriental, podrías encontrar Shift-JIS, GB2312 o Big5. ¿Cómo sabes qué codificación usar? A veces puedes preguntar a quien te dio el archivo. A veces puedes lo...