Dataset: Vendas e Lucros por Segmento, País e Produto
Esse projeto foi construido com o intuito de demonstrar uma Análise exploratória utilizando uma ferramenta que se bem utilizada pode gerar economia de tempo de até 60% em seu projeto EDA, gerando análises exploratórias confiáveis e eficientes.
Para acessar o projeto em sua plenitude e obter uma experiência surprendente acesse: https://jeffersondesenvolvedormaster.github.io/EDA-com-ydata-profiling/
Gerar um relatório completo e automatizado de EDA que inclui:
- Estatísticas descritivas de todas as variáveis
- Análise de valores ausentes
- Correlações entre variáveis
- Distribuições e histogramas
- Detecção automática de alertas
| Métrica | Valor |
|---|---|
| Observações | 700 registros |
| Variáveis | 16 colunas |
| Valores Ausentes | 53 (0.5%) |
| Linhas Duplicadas | 0 (0%) |
| Memória | 252.6 KB |
| Tipo | Quantidade |
|---|---|
| Numérica (float64) | 6 |
| Categórica (object) | 5 |
| Numérica (int64) | 4 |
| Data/Hora | 1 |
| Variável | Tipo | Descrição |
|---|---|---|
| Segment | Categórica | Segmento de mercado (Government, Enterprise, etc.) |
| Country | Categórica | País da venda |
| Product | Categórica | Nome do produto |
| Discount Band | Categórica | Faixa de desconto aplicada |
| Units Sold | Numérica | Unidades vendidas |
| Manufacturing Price | Numérica | Preço de fabricação |
| Sale Price | Numérica | Preço de venda |
| Gross Sales | Numérica | Vendas brutas |
| Discounts | Numérica | Valor dos descontos |
| Sales | Numérica | Vendas líquidas |
| COGS | Numérica | Custo dos produtos vendidos |
| Profit | Numérica | Lucro |
| Date | Data | Data da transação |
| Month Number | Numérica | Número do mês |
| nome_mes | Categórica | Nome do mês |
| Year | Numérica | Ano |
O YData Profiling identifica automaticamente:
- 16 variáveis analisadas
- 700 observações no dataset
- 0 linhas duplicadas
- 53 valores ausentes concentrados na coluna "Discount Band"
O relatório gera automaticamente histogramas para todas as variáveis numéricas, incluindo:
- Média (linha vermelha tracejada)
- Mediana (linha verde)
- Distribuição de frequências
| Variável | Média | Mediana | Mín | Máx |
|---|---|---|---|---|
| Units Sold | 1,608 | 1,542 | 200 | 4,492 |
| Sale Price | $118 | $20 | $7 | $350 |
| Gross Sales | $182,759 | $37,980 | $1,799 | $1,207,500 |
| Sales | $169,609 | $35,540 | $1,655 | $1,159,200 |
| COGS | $145,475 | $22,506 | $918 | $950,625 |
| Profit | $24,134 | $9,242 | -$40,617 | $262,200 |
O YData Profiling analisa automaticamente a distribuição de cada variável categórica:
| Segmento | Quantidade | % |
|---|---|---|
| Government | 300 | 42.9% |
| Small Business | 100 | 14.3% |
| Channel Partners | 100 | 14.3% |
| Midmarket | 100 | 14.3% |
| Enterprise | 100 | 14.3% |
| País | Quantidade |
|---|---|
| Canada | 140 |
| Germany | 140 |
| France | 140 |
| Mexico | 140 |
| United States | 140 |
| Produto | Quantidade | % |
|---|---|---|
| Paseo | 202 | 28.9% |
| Velo | 109 | 15.6% |
| VTT | 109 | 15.6% |
| Amarilla | 94 | 13.4% |
| Carretera | 93 | 13.3% |
| Montana | 93 | 13.3% |
O YData Profiling calcula automaticamente as correlações de Pearson entre todas as variáveis numéricas.
| Variável 1 | Variável 2 | Correlação |
|---|---|---|
| Gross Sales | Sales | 0.998 |
| Gross Sales | COGS | 0.995 |
| Sales | COGS | 0.992 |
| Sale Price | Gross Sales | 0.808 |
| Sales | Profit | 0.806 |
Os gráficos de dispersão revelam:
- Sales vs Profit: Correlação positiva forte (0.81)
- Units Sold vs Sales: Relação linear positiva
- Gross Sales vs COGS: Correlação quase perfeita (0.99)
- Manufacturing Price vs Sale Price: Variação nos preços de venda
| Variável | Ausentes | % |
|---|---|---|
| Discount Band | 53 | 7.6% |
| Demais variáveis | 0 | 0% |
O YData Profiling identifica automaticamente valores ausentes e gera visualizações para facilitar a análise.
| Segmento | Lucro Total |
|---|---|
| Government | $11,388,173 |
| Small Business | $4,143,168 |
| Channel Partners | $1,316,803 |
| Midmarket | $660,103 |
| Enterprise | -$614,545 |
| País | Lucro Total |
|---|---|
| France | $3,781,021 |
| Germany | $3,680,389 |
| Canada | $3,529,229 |
| United States | $2,995,541 |
| Mexico | $2,907,523 |
O YData Profiling detecta automaticamente potenciais problemas nos dados:
| Alerta | Variáveis | Valor |
|---|---|---|
| Gross Sales ↔ Sales | 1.00 | |
| Gross Sales ↔ COGS | 0.99 | |
| Sales ↔ COGS | 0.99 | |
| Sale Price ↔ Gross Sales | 0.81 | |
| Sales ↔ Profit | 0.81 | |
| Sale Price ↔ COGS | 0.80 | |
| Gross Sales ↔ Discounts | 0.78 | |
| Gross Sales ↔ Profit | 0.78 | |
| Discounts ↔ COGS | 0.78 | |
| Discounts ↔ Sales | 0.74 | |
| COGS ↔ Profit | 0.73 |
| Alerta | Descrição |
|---|---|
| Discount Band: 53 valores (7.6%) | |
| Discounts: 7.6% dos registros |
pip install ydata-profiling pandas openpyxlimport pandas as pd
from ydata_profiling import ProfileReport
# Carregar dados
df = pd.read_excel("Treinamento EDA estatistica descritiva .xls")
# Gerar relatório YData Profiling PURO (sem configurações customizadas)
profile = ProfileReport(df, title="Relatório YData Profiling")
# Salvar relatório HTML
profile.to_file("relatorio_ydata_profiling.html")python gerar_relatorio.pyO relatório HTML interativo será gerado automaticamente.
EDA-com-ydata-profiling/
│
├── README.md # Este arquivo
├── gerar_relatorio.py # Script para gerar o relatório
├── Treinamento EDA estatistica descritiva .xls # Dataset
├── relatorio_ydata_profiling.html # Relatório HTML gerado
│
└── imagens_github/ # Visualizações extraídas
├── 01_overview.png
├── 02_distribuicoes_numericas.png
├── 03_distribuicoes_categoricas.png
├── 04_correlacoes.png
├── 05_interacoes.png
├── 06_valores_ausentes.png
└── 07_resumo_negocio.png
- Segmento Government domina com 43% dos registros e 67% do lucro total
- Enterprise é o único segmento com prejuízo (-$614K)
- Alta correlação entre métricas de vendas indica dados consistentes
- Discount Band é a única variável com valores ausentes (7.6%)
- Paseo é o produto mais vendido (29% das transações)
- França lidera em lucro total ($3.78M)
- Distribuição equilibrada por país (140 registros cada)
Jefferson Desenvolvedor
Este projeto está sob a licença MIT.
⭐ Se este projeto foi útil, deixe uma estrela!
Desenvolvido como demonstração de EDA automatizada com YData Profiling






