Como referenciar este texto: ‘Predição do valor de imóveis com Regressão, Árvores e Métodos de Ensemble: um estudo com LOOCV’. Rodrigo Terra. Publicado em: 09/01/2026. Link da postagem: https://www.makerzine.com.br/dados/predicao-do-valor-de-imoveis-com-regressao-arvores-e-metodos-de-ensemble-um-estudo-com-loocv.
A predição de valores imobiliários é um problema clássico de regressão em aprendizado de máquina, frequentemente utilizado para comparar metodologias supervisionadas e discutir trade-offs entre viés, variância e interpretabilidade. Neste estudo, utilizo o Boston Housing Dataset para investigar o desempenho de quatro abordagens amplamente adotadas: Regressão Linear, Árvore de Regressão, Bagging e Random Forest.
O foco do trabalho não está apenas na obtenção de bons resultados preditivos, mas principalmente na comparação sistemática entre modelos, utilizando um processo rigoroso de validação cruzada Leave-One-Out (LOOCV) e métricas complementares de avaliação.
Dataset e variável resposta
O Boston Housing Dataset contém informações socioeconômicas e estruturais de bairros da região de Boston. A variável resposta do problema é:
medv: valor médio das casas ocupadas pelo proprietário (em milhares de dólares)
As variáveis explicativas incluem indicadores como número médio de cômodos, taxa de criminalidade, distância a centros de emprego, impostos locais, entre outras.
Apesar de seu uso histórico, o dataset apresenta limitações éticas conhecidas, o que reforça seu papel como exemplo didático e experimental, e não como base para aplicações reais contemporâneas.
Metodologia
Metodologia
Foram implementados quatro modelos de regressão:
Regressão Linear
Modelo paramétrico, utilizado como baseline, com padronização das variáveis.Árvore de Regressão
Modelo não paramétrico, capaz de capturar relações não lineares, porém sensível a variações nos dados.Bagging de Árvores
Ensemble baseado em bootstrap aggregating, com o objetivo de reduzir a variância do modelo base.Random Forest
Ensemble de árvores com subamostragem de atributos, buscando reduzir correlação entre estimadores e melhorar generalização.
Validação cruzada: Leave-One-Out (LOOCV)
Para todos os modelos, foi adotada a Leave-One-Out Cross-Validation, na qual:
Cada observação é utilizada uma vez como teste
O modelo é treinado com todas as demais observações
O processo é repetido até que todas as amostras tenham sido avaliadas
Essa abordagem é computacionalmente custosa, mas oferece uma estimativa quase não enviesada do erro de generalização, sendo especialmente útil em datasets de tamanho moderado.
Métricas de avaliação
Foram utilizadas duas métricas complementares:
Erro Quadrático Médio (MSE)
Mede o erro médio ao quadrado entre valores observados e preditos, penalizando grandes desvios.Correlação de Pearson (r)
Avalia o grau de associação linear entre valores observados e preditos, complementando o MSE ao capturar alinhamento de tendência.
A combinação dessas métricas permite analisar tanto precisão absoluta quanto coerência estrutural das predições.
Resultados
Os resultados mostram diferenças claras entre as metodologias avaliadas.
De forma geral:
A Regressão Linear apresenta desempenho razoável, mas limitado pela suposição de linearidade.
A Árvore de Regressão isolada tende a apresentar maior variância, refletida em erros mais dispersos.
Bagging reduz significativamente a variabilidade das predições ao agregar múltiplas árvores.
Random Forest alcança o melhor equilíbrio entre erro e correlação, beneficiando-se da redução de variância e da diversidade entre árvores.
Esses padrões ficam evidentes tanto nas métricas quantitativas quanto nos gráficos de:
valores observados vs. preditos
resíduos vs. valores preditos
Análise gráfica dos resíduos
A análise dos resíduos revela aspectos importantes do comportamento dos modelos:
Modelos ensemble apresentam resíduos mais homogêneos e centrados em zero.
A árvore isolada exibe padrões estruturados, sugerindo instabilidade e sobreajuste local.
A regressão linear mostra tendência a erros sistemáticos em regiões onde relações não lineares são relevantes.
Essas observações reforçam a importância de ir além de métricas numéricas e analisar visualmente o desempenho dos modelos.
Discussão
Os resultados confirmam conceitos centrais do aprendizado de máquina:
Modelos simples são interpretáveis, mas limitados.
Modelos flexíveis capturam complexidade, mas sofrem com variância.
Métodos de ensemble oferecem uma solução prática para reduzir variância sem impor forte viés estrutural.
O uso de LOOCV garante robustez à comparação, embora aumente o custo computacional. Em contextos reais, estratégias como k-fold cross-validation podem oferecer melhor equilíbrio entre custo e precisão.
Conclusão
Este estudo demonstra como diferentes abordagens de regressão se comportam ao predizer valores imobiliários sob um protocolo rigoroso de validação. A comparação evidencia o papel central dos métodos de ensemble na melhoria do desempenho preditivo e reforça a importância de escolhas metodológicas alinhadas ao objetivo do problema.
Mais do que identificar o “melhor modelo”, o exercício destaca a necessidade de avaliar criticamente métricas, validação e comportamento dos erros, especialmente em aplicações orientadas à tomada de decisão baseada em dados.
Acesse o notebook
Acesse meu Github, para ter acesso ao notebook, bata clicar no botão ao lado →