When Nested Arrays Cost a Fintech $1.2M in Reporting Errors?

Last March, I got a panicked Slack message at 11 PM from a fintech client's CFO. Their quarterly board report showed revenue numbers that didn't match their internal dashboards. The discrepancy? $1.2 million. For six weeks, their automated JSON-to-CSV conversion had been silently mangling nested...

What about building pipelines that process 2 billion events monthly?

My background is in data engineering for high-volume SaaS platforms. I've built ingestion pipelines for marketing automation tools processing 500M+ events daily, analytics platforms handling clickstream data from 100M+ users, and financial systems where a single corrupted record can trigger...

How Shopify's Webhook Nearly Destroyed a Client's Inventory System?

Three years ago, I worked with an e-commerce analytics company that aggregated data from multiple platforms. They had a seemingly simple pipeline: ingest webhooks from Shopify, Stripe, and other services, convert to CSV, load into their data warehouse, and generate reports for merchants.

What about comparing json-to-csv libraries: what actually breaks in production?

I've tested every major JSON-to-CSV library across Node.js, Python, and Go. Here's what breaks when you feed them real-world SaaS data:

Why "Just Use Pandas" Is Terrible Advice for Production Pipelines?

Every time I mention JSON-to-CSV conversion challenges, someone suggests: "Just use pandas.json_normalize()." This advice is well-meaning but dangerous for production systems.

The 12 JSON-to-CSV Edge Cases That Will Ruin Your Data Pipeline [Português]

💡 Key Takeaways

When Nested Arrays Cost a Fintech $1.2M in Reporting Errors
Building Pipelines That Process 2 Billion Events Monthly
How Shopify's Webhook Nearly Destroyed a Client's Inventory System
Comparing JSON-to-CSV Libraries: What Actually Breaks in Production

# Os 12 Casos Limite de JSON para CSV Que Vão Arruinar Sua Pipeline de Dados

💡 Principais Conclusões

Quando Arrays Aninhados Custaram a Uma Fintech $1,2M em Erros de Relatório
Construindo Pipelines Que Processam 2 Bilhões de Eventos Mensais
Como o Webhook do Shopify Quase Destruiu o Sistema de Inventário de Um Cliente
Comparando Bibliotecas JSON para CSV: O Que Realmente Quebra em Produção

Quando Arrays Aninhados Custaram a Uma Fintech $1,2M em Erros de Relatório

No último março, recebi uma mensagem desesperada no Slack às 11 PM do CFO de um cliente fintech. Seu relatório trimestral mostrava números de receita que não correspondiam aos seus painéis internos. A discrepância? $1,2 milhões. Durante seis semanas, sua conversão automatizada de JSON para CSV estava silenciosamente distorcendo arrays de transações aninhadas, e ninguém percebeu até que o deck do conselho já estivesse nas mãos dos investidores.

A causa raiz era enganosamente simples: o webhook do processador de pagamento deles entregava dados de transação como arrays JSON aninhados—uma transação podia ter múltiplos itens, cada um com seu próprio cálculo de imposto. Quando seu pipeline ETL achatou isso para CSV, duplicou registros pai para cada item filho, mas não conseguiu desduplicar os totais de transação. Cada transação de múltiplos itens foi contada várias vezes.

Isso não foi um erro de um engenheiro júnior. Foi uma equipe sênior usando uma biblioteca open-source popular que tinha mais de 50.000 estrelas no GitHub. A biblioteca funcionava perfeitamente para estruturas JSON simples. Mas dados SaaS do mundo real nunca são simples. Eles são aninhados, inconsistentes e cheios de casos limite que só se revelam em produção—geralmente no pior momento possível.

Gastei oito anos construindo pipelines ETL para empresas SaaS, desde startups em estágio inicial até empresas públicas processando bilhões de eventos mensalmente. Depurei corrupção de dados às 3 AM, reconstruí pipelines que falharam silenciosamente durante meses e aprendi que a conversão de JSON para CSV é onde a maioria dos problemas de integridade dos dados se esconde. Não no banco de dados. Não na API. Naquela etapa de transformação aparentemente trivial que todos assumem que "apenas funciona."

Construindo Pipelines Que Processam 2 Bilhões de Eventos Mensais

Meu background é em engenharia de dados para plataformas SaaS de alto volume. Construi pipelines de ingestão para ferramentas de automação de marketing processando mais de 500 milhões de eventos diariamente, plataformas de analítica lidando com dados de clickstream de mais de 100 milhões de usuários, e sistemas financeiros onde um único registro corrompido pode acionar violações regulatórias.

O padrão que vejo repetidamente: as equipes se concentram em escalar seus bancos de dados e otimizar suas APIs, mas tratam a transformação de dados como uma reflexão tardia. Eles gastarão semanas otimizando uma consulta do Postgres que economiza 50ms, e depois usarão um conversor ingênuo de JSON para CSV que corrompe silenciosamente 0,01% dos registros. Aquela taxa de 0,01% se acumula com o tempo até que você esteja explicando ao seu conselho por que suas métricas não correspondem à realidade.

A conversão de JSON para CSV está em um ponto crítico na maioria dos pipelines de dados. É onde dados estruturados e hierárquicos são achatados em formato tabular para ferramentas de análise, planilhas e sistemas legados. Essa transformação é, por natureza, destrutiva—CSV não pode representar estruturas aninhadas—mas a maioria das implementações lida com essa perda de forma insatisfatória. Elas tomam decisões implícitas sobre como achatar os dados sem documentar essas decisões ou validar os resultados.

As ferramentas não ajudam. A maioria das bibliotecas JSON para CSV foi criada para casos de uso simples: objetos planos com esquemas consistentes. Elas falham quando você fornece respostas de API do mundo real com campos opcionais, arrays aninhados, tipos polimórficos e estruturas inconsistentes. E elas quebram silenciosamente. Sem erros. Sem avisos. Apenas dados sutilmente corrompidos que parecem normais até que alguém execute um relatório financeiro.

Aprendi a tratar a conversão de JSON para CSV como um componente crítico do sistema que precisa da mesma rigidez que migrações de banco de dados ou contratos de API. Isso significa testes abrangentes, manuseio explícito de casos limite e validação em cada etapa. Aqui está como isso se parece na prática.

Como o Webhook do Shopify Quase Destruiu o Sistema de Inventário de Um Cliente

Três anos atrás, trabalhei com uma empresa de análises de comércio eletrônico que agregava dados de múltiplas plataformas. Eles tinham um pipeline aparentemente simples: ingestar webhooks do Shopify, Stripe e outros serviços, converter para CSV, carregar no seu armazém de dados, e gerar relatórios para os comerciantes.

Uma manhã de segunda-feira, a equipe de suporte deles foi inundada com chamados. Os comerciantes estavam vendo números de inventário impossíveis—contagens de estoque negativas, produtos aparecendo como "em estoque" quando estavam esgotados, e quantidades de pedidos que não correspondiam às suas vendas reais. Os dados da plataforma de análise estavam completamente errados, e estavam errados há três dias antes de alguém perceber.

O culpado era a estrutura variante do Shopify. Na API do Shopify, um produto pode ter várias variantes (tamanho, cor, etc.), e cada variante tem sua própria contagem de inventário. A estrutura JSON parece assim:

```json

{

"product_id": "12345",

🛠 Explore Nossas Ferramentas

Conversor de Excel para CSV — Grátis, Online, Preserva Dados → Conversor de JSON para XML — Grátis, Instantâneo → Como Limpar Dados CSV — Guia Grátis →

"title": "Camiseta",

"variants": [

{"id": "v1", "size": "S", "inventory": 10},

{"id": "v2", "size": "M", "inventory": 15},

{"id": "v3", "size": "L", "inventory": 8}

]

}

```

O conversor CSV deles achatou isso criando uma linha por variante, o que parece razoável. Mas aqui está o caso limite: quando uma variante esgotou e o Shopify a removia do array de variantes, o conversor não criava uma linha para ela. O sistema a montante interpretou "linha faltando" como "sem mudança" em vez de "inventário agora zero." Produtos apareceram como em estoque quando na verdade estavam esgotados.

A correção exigiu manuseio explícito: ao achatar variantes, eles precisavam manter uma lista de referência de todos os IDs de variantes conhecidos e escrever explicitamente linhas de inventário zero para variantes que desapareceram do JSON. Isso transformou uma conversão "simples" em uma operação com estado que exigia rastreamento de dados históricos.

Os bugs de dados mais perigosos são aqueles que produzem saídas com aparência plausível. Se a conversão tivesse travado ou produzido dados obviamente errados, eles teriam percebido imediatamente. Em vez disso, produziu arquivos CSV que pareciam perfeitamente normais—eles apenas estavam faltando informações críticas.

Esse padrão se repete em toda integração SaaS que construí. Os casos limite não são cenários exóticos—são variações normais de como as APIs representam dados. Mas a maioria das ferramentas de conversão os trata como exóticos, o que significa que falham silenciosamente.

Comparando Bibliotecas JSON para CSV: O Que Realmente Quebra em Produção

Testei todas as principais bibliotecas JSON para CSV em Node.js, Python e Go. Aqui está o que quebra quando você as alimenta com dados SaaS do mundo real:

Biblioteca	Arrays Aninhados	Campos Ausentes	Inconsistência de Tipo	Tratamento de Nulo	Pronto Para Produção
json2csv (Node)	Duplica pai	String vazia	Converte para string	String vazia	⚠️ Com configuração
pandas (Python)	Falha ou trunca	NaN	Preserva tipo	NaN ou vazio	⚠️ Requer normalização
csvkit (Python)	Stringifica	String vazia	Converte para string	String vazia	❌ Muito destrutiva
encoding/csv (Go)	Tratamento manual	Tratamento manual	Tratamento manual	Tratamento manual	✅ Controle total
Solução personalizada	Estratégia explícita	Estratégia explícita	Estratégia explícita	Estratégia explícita	✅ Recomendado

A coluna "Pronto Para Produção" reflete se eu confiaria nesta biblioteca com dados financeiros sem testes e validações extensivas. A maioria das bibliotecas funciona bem para casos simples, mas toma decisões implícitas sobre casos limite que podem não corresponder às suas necessidades.

A visão chave: não há uma maneira "correta" de achatar JSON aninhado para CSV. Depende do seu caso de uso. Você está preservando dados para arquivamento? Preparando dados para análises? Gerando relatórios para usuários finais? Cada caso de uso requer um tratamento diferente de estruturas aninhadas, campos ausentes e inconsistências de tipo.

Para o cliente fintech que eu m