✅ Fonte Noto Sans configurada!
✅ Bibliotecas importadas com sucesso!
📚 Ambiente configurado para análise de risco de crédito

📂 Carregando dados de risco de crédito...

✅ Dados carregados com sucesso!
📊 Dimensões do dataset: 1,200,000 linhas × 14 colunas
💾 Memória utilizada: 526.0 MB

📋 Colunas disponíveis no dataset:
============================================================
 1. idade
 2. genero
 3. estado_civil
 4. renda
 5. valor_emprestimo
 6. prazo_emprestimo
 7. score_credito
 8. historico_inadimplencia
 9. tempo_emprego
10. tipo_emprego
11. regiao
12. data_emprestimo
13. prob_default
14. default

📊 Tipos de dados por coluna:
============================================================
idade                     → float64
genero                    → object
estado_civil              → object
renda                     → object
valor_emprestimo          → object
prazo_emprestimo          → int64
score_credito             → float64
historico_inadimplencia   → int64
tempo_emprego             → float64
tipo_emprego              → object
regiao                    → object
data_emprestimo           → object
prob_default              → float64
default                   → int64

👀 Primeiras 3 linhas do dataset:
============================================================
   idade genero estado_civil               renda    valor_emprestimo  \
0  38.66      M   divorciado  3546.0902855483905   5860.251362574305   
1  22.52      F   divorciado  1999.1507983385166  1076.3851406682254   
2  44.01      M     solteiro  2506.1863772417305  1938.8563208086252   

   prazo_emprestimo  score_credito  historico_inadimplencia  tempo_emprego  \
0                12         880.90                        2          47.47   
1                48         852.73                        3          25.00   
2                24         877.59                        2           1.57   

  tipo_emprego        regiao data_emprestimo  prob_default  default  
0     autonomo       sudeste      2022-08-25      5.61e-03        0  
1     autonomo  centro-oeste      2023-05-18      2.41e-03        0  
2      publico           sul      2022-11-12      8.67e-04        0

🔍 ANÁLISE DE QUALIDADE DOS DADOS
======================================================================

📊 1. VALORES AUSENTES (Missing Values):
------------------------------------------------------------
Variável                  Valores Ausentes   Percentual
------------------------------------------------------------
idade                                   0         0.0%
genero                              5,848         0.5%
estado_civil                       11,938         1.0%
renda                             141,765        11.8%
valor_emprestimo                    4,816         0.4%
prazo_emprestimo                        0         0.0%
score_credito                      29,891         2.5%
historico_inadimplencia                 0         0.0%
tempo_emprego                     120,510        10.0%
tipo_emprego                            0         0.0%
regiao                                  0         0.0%
data_emprestimo                         0         0.0%
prob_default                            0         0.0%
default                                 0         0.0%
------------------------------------------------------------
TOTAL                             314,768         1.9%

📊 2. REGISTROS DUPLICADOS:
------------------------------------------------------------
Registros duplicados: 0 (0.00%)

📊 3. ESTATÍSTICAS DESCRITIVAS (Variáveis Numéricas):
------------------------------------------------------------
                            count     mean      std     min      25%      50%  \
idade                    1.20e+06    35.52    11.72   -1.00    26.89    34.99   
renda                    1.06e+06  3627.47  2954.93   80.00  1985.22  2981.26   
valor_emprestimo         1.20e+06  4110.86  3420.25  203.29  1817.76  3163.81   
prazo_emprestimo         1.20e+06    32.53    68.47 -360.00    12.00    24.00   
score_credito            1.17e+06   699.49   143.74  100.00   599.37   724.32   
historico_inadimplencia  1.20e+06     0.80     0.90    0.00     0.00     1.00   
tempo_emprego            1.08e+06    24.01    24.01    0.00     6.91    16.63   
prob_default             1.20e+06     0.03     0.07    0.00     0.00     0.01   
default                  1.20e+06     0.03     0.17    0.00     0.00     0.00   

                             75%        max  
idade                      43.14     121.00  
renda                    4475.71  268656.83  
valor_emprestimo         5306.28   80000.00  
prazo_emprestimo           36.00    7200.00  
score_credito             819.93    1000.00  
historico_inadimplencia     1.00       8.00  
tempo_emprego              33.28     322.53  
prob_default                0.02       0.96  
default                     0.00       1.00  

📊 4. DISTRIBUIÇÃO DO TARGET (default):
------------------------------------------------------------
Não Default (Bom)    →  1,164,501 registros ( 97.0%)
Default (Mau)        →     35,499 registros (  3.0%)

📊 Criando histogramas das variáveis numéricas...

✅ Histogramas criados com sucesso!

📊 Criando boxplots para identificação de outliers...

✅ Boxplots criados com sucesso!

🎯 ANÁLISE DA VARIÁVEL TARGET (default)
======================================================================

📊 1. ESTATÍSTICAS GERAIS:
------------------------------------------------------------
Total de amostras:                       1,200,000
Defaults (Classe 1):                        35,499 (  3.0%)
Não-defaults (Classe 0):                 1,164,501 ( 97.0%)

📊 2. CRIANDO FAIXAS ETÁRIAS PARA ANÁLISE:
------------------------------------------------------------
✅ Faixas etárias criadas:
   18-25: Jovens adultos
   26-35: Adultos jovens
   36-45: Adultos
   46-55: Adultos maduros
   56-65: Pré-aposentadoria
   65+:   Idosos

📊 3. TAXA DE DEFAULT POR FAIXA ETÁRIA:
----------------------------------------
Faixa Etária     Total Clientes     Defaults    Taxa Default
------------------------------------------------------------
18-25                   242,550        8,221           3.4%
26-35                   356,542       10,153           2.8%
36-45                   355,600       10,089           2.8%
46-55                   184,320        5,289           2.9%
56-65                    49,874        1,389           2.8%
65+                       9,953          326           3.3%

📊 4. INSIGHTS PRINCIPAIS:
----------------------------------------
🔴 Faixa de MAIOR risco: 18-25 (3.4%)
🟢 Faixa de MENOR risco: 56-65 (2.8%)
📊 Diferença de risco:   0.6%

📊 Criando visualização da taxa de default por faixa etária...

✅ Visualização criada com sucesso!

✅ Função de métricas criada com sucesso!
📊 Calcula 6 métricas essenciais para avaliação de modelos de crédito

🚀 CONSTRUINDO MODELO DE DEMONSTRAÇÃO
======================================================================

📊 PASSO 1: Selecionando features...
----------------------------------------
Features selecionadas: 6
1. idade
2. renda
3. score_credito
4. tempo_emprego
5. valor_emprestimo
6. prazo_emprestimo

✅ Dados iniciais: X=(1200000, 6), y=(1200000,)

🧹 PASSO 2: Limpando dados...
----------------------------------------
Valores NaN no target (y): 0
Valores NaN nas features (X): 296,982

✅ Após limpeza: X=(928323, 6), y=(928323,)
📉 Registros removidos: 271,677

✂️ PASSO 3: Dividindo dados em treino e teste...
----------------------------------------
📊 Conjunto de TREINO: 742,658 amostras
   - Defaults: 21,924 (3.0%)
   - Não-defaults: 720,734 (97.0%)

📊 Conjunto de TESTE: 185,665 amostras
   - Defaults: 5,481 (3.0%)
   - Não-defaults: 180,184 (97.0%)

🤖 PASSO 4: Treinando modelo de Regressão Logística...
----------------------------------------
✅ Modelo treinado com sucesso!

📊 Coeficientes do modelo:
idade:  -0.008651120298335731
renda:  -0.0006430826043734994
score_credito:  -0.008768950131154021
tempo_emprego:  -0.0011102144788258572
valor_emprestimo:  0.00038232083969972117
prazo_emprestimo:  -0.00013003686064424677

🔮 PASSO 5: Fazendo predições no conjunto de teste...
----------------------------------------
✅ Predições realizadas para 185,665 amostras
📊 Probabilidade média: 0.0293

📊 PASSO 6: Avaliando o modelo...
----------------------------------------

🎯 RESULTADOS DO MODELO:
==================================================
AUC: 0.8684
Gini: 0.7368
KS: 0.5872
Precision: 0.0935
Recall: 0.0042
F1-Score: 0.0080
==================================================

📊 Criando Curva ROC...

✅ Curva ROC criada!

💡 Interpretação:
   - A curva azul mostra o trade-off entre TPR e FPR
   - Quanto mais próxima do canto superior esquerdo, melhor
   - A linha tracejada representa um modelo aleatório
   - Nosso AUC de 0.868 indica performance fraca (esperado!)

📊 Criando distribuição dos scores...

✅ Distribuição dos scores criada!

💡 Interpretação:
   - IDEAL: Distribuições bem separadas (verde à esquerda, vermelho à direita)
   - REALIDADE: Muita sobreposição indica dificuldade de separação
   - Quanto maior a sobreposição, mais difícil distinguir bons de maus pagadores

📊 Criando Matriz de Confusão...

✅ Matriz de Confusão criada!

💡 Interpretação da Matriz de Confusão:
================================================================================
True Negatives (TN):     179,961 - Corretamente previsto como NÃO default
False Positives (FP):        223 - Incorretamente previsto como default
False Negatives (FN):      5,458 - Incorretamente previsto como NÃO default ⚠️
True Positives (TP):          23 - Corretamente previsto como default
================================================================================

💰 Análise de Custos (Hipotética):
Custo de FN (defaults não detectados):     R$   54,580,000.00
Custo de FP (oportunidades perdidas):      R$      111,500.00
Custo Total:                               R$   54,691,500.00

📊 Relatório de Classificação Detalhado:
================================================================================
                 precision    recall  f1-score   support

Não Default (0)     0.9706    0.9988    0.9845    180184
    Default (1)     0.0935    0.0042    0.0080      5481

       accuracy                         0.9694    185665
      macro avg     0.5320    0.5015    0.4962    185665
   weighted avg     0.9447    0.9694    0.9556    185665

📊 Introdução ao Modelo de Risco de Crédito¶

Um Guia Didático Completo para Iniciantes¶

🎯 O que você vai aprender neste capítulo?¶

📋 Conteúdo Programático:¶

🎓 Objetivos de Aprendizagem:¶

💡 Por que isso é importante?¶

📖 Estrutura Pedagógica¶

🎯 SEÇÃO 1: CONCEITOS FUNDAMENTAIS¶

📚 O que é Risco de Crédito?¶

Tipos de Risco de Crédito:¶

Por que Modelar Risco de Crédito?¶

O Problema de Classificação:¶

📚 Configuração do Ambiente¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

📊 SEÇÃO 2: Carregamento e Primeira Exploração dos Dados¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

💡 O que isso significa?¶

Interpretação dos Resultados:¶

🎯 Decisão tomada:¶

🔍 SEÇÃO 3: Análise Exploratória de Dados (EDA)¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

💡 O que isso significa?¶

Interpretação da Análise de Qualidade:¶

Principais Insights:¶

🎯 Decisão tomada:¶

📈 SEÇÃO 4: Visualização de Dados¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

💡 O que isso significa?¶

Interpretação dos Boxplots:¶

🎯 SEÇÃO 5: Análise do Target (Variável de Interesse)¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

💡 O que isso significa?¶

Interpretação da Análise do Target:¶

📊 SEÇÃO 6: Métricas de Avaliação de Modelos¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

📊 Métricas Principais:¶

🎯 Trade-off Precision vs Recall:¶

🔧 Como fazemos?¶

🚀 SEÇÃO 7: Modelo Simples de Demonstração¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

Passos da Modelagem:¶

💡 O que isso significa?¶

Interpretação dos Resultados do Modelo:¶

Por que o modelo está "ruim"?¶

📈 Visualização dos Resultados¶

🎯 O que vamos fazer?¶

❓ Por que fazemos isso?¶

🔧 Como fazemos?¶

💡 SEÇÃO 8: Interpretação Completa e Lições Aprendidas¶

📊 Resumo das Métricas e Suas Interpretações¶

Métricas de Separação (Ranking):¶

Métricas de Classificação (Threshold-dependent):¶

🎯 Por que Precision e Recall estão zerados?¶

🎯 SEÇÃO 9: Aplicações Práticas no Mundo Real¶

💼 Como Modelos de Risco de Crédito São Usados na Prática¶

1️⃣ Aprovação Automática de Crédito (Credit Scoring)¶

2️⃣ Pricing Baseado em Risco (Risk-Based Pricing)¶

3️⃣ Gestão de Portfólio e Provisões¶

4️⃣ Compliance e Regulação (Basel III)¶

5️⃣ Cobrança e Recuperação de Crédito¶

6️⃣ Limite de Crédito Dinâmico¶

💡 Lições Aprendidas e Boas Práticas¶

✅ O que funciona:¶

❌ O que evitar:¶

🎯 Exercícios Práticos e Desafios¶

📝 Exercícios para Fixação do Conteúdo¶

EXERCÍCIO 1: Análise de Threshold (Limiar de Decisão) ⭐⭐¶