No momento, você está visualizando Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV

Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV

  • Autor do post:
  • Tempo de leitura:4 minutos de leitura
  • Categoria do post:Dados

Como referenciar este texto: Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV’. Rodrigo Terra. Publicado em: 09/01/2026. Link da postagem: https://www.makerzine.com.br/dados/predicao-do-valor-de-imoveis-com-regressao-arvores-e-metodos-de-ensemble-um-estudo-com-loocv.

A predição de valores imobiliários é um problema clássico de regressão em aprendizado de máquina, frequentemente utilizado para comparar metodologias supervisionadas e discutir trade-offs entre viés, variância e interpretabilidade. Neste estudo, utilizo o Boston Housing Dataset para investigar o desempenho de quatro abordagens amplamente adotadas: Regressão Linear, Árvore de Regressão, Bagging e Random Forest.

O foco do trabalho não está apenas na obtenção de bons resultados preditivos, mas principalmente na comparação sistemática entre modelos, utilizando um processo rigoroso de validação cruzada Leave-One-Out (LOOCV) e métricas complementares de avaliação.

Dataset e variável resposta

O Boston Housing Dataset contém informações socioeconômicas e estruturais de bairros da região de Boston. A variável resposta do problema é:

  • medv: valor médio das casas ocupadas pelo proprietário (em milhares de dólares)

As variáveis explicativas incluem indicadores como número médio de cômodos, taxa de criminalidade, distância a centros de emprego, impostos locais, entre outras.

Apesar de seu uso histórico, o dataset apresenta limitações éticas conhecidas, o que reforça seu papel como exemplo didático e experimental, e não como base para aplicações reais contemporâneas.

Metodologia

Metodologia

Foram implementados quatro modelos de regressão:

  1. Regressão Linear
    Modelo paramétrico, utilizado como baseline, com padronização das variáveis.

  2. Árvore de Regressão
    Modelo não paramétrico, capaz de capturar relações não lineares, porém sensível a variações nos dados.

  3. Bagging de Árvores
    Ensemble baseado em bootstrap aggregating, com o objetivo de reduzir a variância do modelo base.

  4. Random Forest
    Ensemble de árvores com subamostragem de atributos, buscando reduzir correlação entre estimadores e melhorar generalização.

Validação cruzada: Leave-One-Out (LOOCV)

Para todos os modelos, foi adotada a Leave-One-Out Cross-Validation, na qual:

  • Cada observação é utilizada uma vez como teste

  • O modelo é treinado com todas as demais observações

  • O processo é repetido até que todas as amostras tenham sido avaliadas

Essa abordagem é computacionalmente custosa, mas oferece uma estimativa quase não enviesada do erro de generalização, sendo especialmente útil em datasets de tamanho moderado.

Métricas de avaliação

Foram utilizadas duas métricas complementares:

  • Erro Quadrático Médio (MSE)
    Mede o erro médio ao quadrado entre valores observados e preditos, penalizando grandes desvios.

  • Correlação de Pearson (r)
    Avalia o grau de associação linear entre valores observados e preditos, complementando o MSE ao capturar alinhamento de tendência.

A combinação dessas métricas permite analisar tanto precisão absoluta quanto coerência estrutural das predições.

Resultados

Os resultados mostram diferenças claras entre as metodologias avaliadas.

De forma geral:

  • A Regressão Linear apresenta desempenho razoável, mas limitado pela suposição de linearidade.

  • A Árvore de Regressão isolada tende a apresentar maior variância, refletida em erros mais dispersos.

  • Bagging reduz significativamente a variabilidade das predições ao agregar múltiplas árvores.

  • Random Forest alcança o melhor equilíbrio entre erro e correlação, beneficiando-se da redução de variância e da diversidade entre árvores.

Esses padrões ficam evidentes tanto nas métricas quantitativas quanto nos gráficos de:

  • valores observados vs. preditos

  • resíduos vs. valores preditos

Análise gráfica dos resíduos

A análise dos resíduos revela aspectos importantes do comportamento dos modelos:

  • Modelos ensemble apresentam resíduos mais homogêneos e centrados em zero.

  • A árvore isolada exibe padrões estruturados, sugerindo instabilidade e sobreajuste local.

  • A regressão linear mostra tendência a erros sistemáticos em regiões onde relações não lineares são relevantes.

Essas observações reforçam a importância de ir além de métricas numéricas e analisar visualmente o desempenho dos modelos.

Discussão

Os resultados confirmam conceitos centrais do aprendizado de máquina:

  • Modelos simples são interpretáveis, mas limitados.

  • Modelos flexíveis capturam complexidade, mas sofrem com variância.

  • Métodos de ensemble oferecem uma solução prática para reduzir variância sem impor forte viés estrutural.

O uso de LOOCV garante robustez à comparação, embora aumente o custo computacional. Em contextos reais, estratégias como k-fold cross-validation podem oferecer melhor equilíbrio entre custo e precisão.

Conclusão

Este estudo demonstra como diferentes abordagens de regressão se comportam ao predizer valores imobiliários sob um protocolo rigoroso de validação. A comparação evidencia o papel central dos métodos de ensemble na melhoria do desempenho preditivo e reforça a importância de escolhas metodológicas alinhadas ao objetivo do problema.

Mais do que identificar o “melhor modelo”, o exercício destaca a necessidade de avaliar criticamente métricas, validação e comportamento dos erros, especialmente em aplicações orientadas à tomada de decisão baseada em dados.

Acesse o notebook

Acesse meu Github, para ter acesso ao notebook, bata clicar no botão ao lado →

Rodrigo Terra

Com formação inicial em Física, especialização em Ciências Educacionais com ênfase em Tecnologia Educacional e Docência, e graduação em Ciências de Dados, construí uma trajetória sólida que une educação, tecnologias ee inovação. Desde 2001, dedico-me ao campo educacional, e desde 2019, atuo também na área de ciência de dados, buscando sempre encontrar soluções focadas no desenvolvimento humano. Minha experiência combina um profundo conhecimento em educação com habilidades técnicas em dados e programação, permitindo-me criar soluções estratégicas e práticas. Com ampla vivência em análise de dados, definição de métricas e desenvolvimento de indicadores, acredito que a formação transdisciplinar é essencial para preparar indivíduos conscientes e capacitados para os desafios do mundo contemporâneo. Apaixonado por café e boas conversas, sou movido pela curiosidade e pela busca constante de novas ideias e perspectivas. Minha missão é contribuir para uma educação que inspire pensamento crítico, estimule a criatividade e promova a colaboração.

Deixe um comentário