Metodologia

Visão Geral

O estimador.pt utiliza modelos estatísticos Bayesianos para prever eleições portuguesas. A nossa abordagem é fundamentalmente probabilística: em vez de prever um único resultado, estimamos distribuições de probabilidade que refletem a incerteza inerente ao processo eleitoral.

Os nossos modelos são implementados em PyMC, uma biblioteca de programação probabilística que permite definir modelos estatísticos complexos e realizar inferência Bayesiana de forma eficiente.


Eleições Legislativas

Estrutura do Modelo

O modelo de eleições legislativas combina dados de sondagens com resultados eleitorais históricos para estimar a evolução do apoio a cada partido ao longo do tempo. A estrutura central utiliza três Processos Gaussianos (GPs) sobrepostos que capturam dinâmicas em diferentes escalas temporais:

1. GP de Baseline (Tendência de Longo Prazo)

  • Escala temporal: ~4 anos
  • Captura mudanças estruturais no sistema partidário
  • Utiliza um kernel ExpQuad (Exponencial Quadrático)

2. GP de Médio Prazo

  • Escala temporal: ~1 ano
  • Captura ciclos políticos e mudanças graduais na opinião pública
  • Utiliza um kernel Matern 5/2

3. GP de Curto Prazo

  • Escala temporal: ~14 dias
  • Captura dinâmicas de campanha e reações a eventos
  • Utiliza um kernel Matern 3/2 para permitir variações mais rápidas

A combinação destes três processos permite separar o sinal de longo prazo do ruído de curto prazo, enquanto ainda captura movimentos reais durante a campanha.

Detalhes Técnicos: Processos Gaussianos

Os Processos Gaussianos são uma forma não-paramétrica de modelar funções desconhecidas. Definimos priors sobre funções em vez de parâmetros fixos, o que permite que o modelo aprenda a forma das tendências a partir dos dados.

Utilizamos a aproximação HSGP (Hilbert Space Gaussian Process) para eficiência computacional. Esta técnica aproxima o GP usando uma série de funções base, reduzindo drasticamente o custo computacional sem perda significativa de precisão.

A função de covariância do GP de baseline é:

k(t, t') = σ² × exp(-|t-t'|² / (2ℓ²))

Priors utilizados:

  • Lengthscale baseline: LogNormal(μ=log(1460), σ=0.3) — centrado em ~4 anos
  • Lengthscale médio prazo: LogNormal(μ=log(365), σ=0.5) — centrado em ~1 ano
  • Lengthscale curto prazo: LogNormal(μ=log(14), σ=0.3) — centrado em ~14 dias
  • Amplitude dos GPs: HalfNormal(σ=0.2-0.3)

Efeitos das Empresas de Sondagens (House Effects)

Cada instituto de sondagens tem tendências sistemáticas para sobre ou subestimar certos partidos. O nosso modelo estima estes "efeitos de casa" (house effects) a partir dos dados históricos.

Por exemplo, se uma empresa consistentemente sobrestima o PS em 2 pontos percentuais, o modelo corrige esta tendência ao agregar sondagens de múltiplas fontes.

Os house effects são modelados com uma restrição de soma zero: se uma empresa sobrestima um partido, tem de subestimar outro(s) para compensar. O prior para o desvio padrão dos house effects é HalfNormal(σ=0.05) por partido, permitindo vieses típicos de ~2-3 pontos percentuais.

Efeitos Distritais

Portugal utiliza um sistema de representação proporcional com alocação de mandatos ao nível distrital. O modelo inclui offsets distritais estáticos que capturam as diferenças regionais no apoio partidário.

Estes offsets são estimados a partir de resultados eleitorais anteriores e permitem prever como os votos nacionais se traduzem em votos em cada distrito. O prior para os offsets distritais é HalfNormal(σ=0.1) por partido, refletindo variações regionais típicas de ~5 pontos percentuais.

Verosimilhança

As observações de sondagens seguem uma distribuição Dirichlet-Multinomial, que é a escolha natural para dados composicionais (percentagens que somam 100%).

Detalhes Técnicos: Dirichlet-Multinomial

A Dirichlet-Multinomial é parametrizada por:

  • n: tamanho da amostra da sondagem
  • α: vetor de concentração (proporcional às probabilidades de cada partido)

Esta distribuição tem duas fontes de variação: o erro de amostragem (que depende de n) e a variação extra captada pelo parâmetro de concentração. Isto permite modelar corretamente o facto de que sondagens nem sempre se comportam como amostras aleatórias simples.

Priors para concentração:

  • Sondagens: Gamma(α=2, β=0.01) — média ~200, permite variação extra além do erro de amostragem
  • Resultados eleitorais: Gamma(α=100, β=0.1) — média ~1000, ajuste mais preciso aos resultados reais

Método D'Hondt e Alocação de Mandatos

Para converter previsões de votos em previsões de mandatos, simulamos o sistema eleitoral português:

  1. 22 círculos eleitorais: 18 distritos continentais + 2 regiões autónomas + Europa + Fora da Europa
  2. Método D'Hondt: Sistema de divisores sequenciais (1, 2, 3, ...) para alocação proporcional de mandatos
  3. 230 mandatos no total (excluindo os 4 da emigração nas eleições de 2024)

O modelo executa milhares de simulações de Monte Carlo:

  1. Para cada simulação, extrai-se uma amostra da distribuição posterior dos votos nacionais
  2. Aplica-se os offsets distritais para obter votos por distrito
  3. Executa-se o algoritmo D'Hondt em cada distrito
  4. Soma-se os mandatos de cada partido

O resultado é uma distribuição completa de possíveis composições parlamentares.

Métricas de Interesse

A partir das simulações, calculamos:

  • Probabilidade de cada partido ganhar mais mandatos
  • Probabilidade de maiorias: direita, esquerda, ou parlamento sem maioria clara
  • Mandatos esperados: média e intervalos de credibilidade (50% e 80%)
  • Distritos contestados: usando o ENSC (Effective Number of Seat Changes) com limiar de 0.8

Eleições Presidenciais

Estrutura do Modelo

O modelo presidencial é diferente do legislativo porque:

  • Os candidatos são indivíduos, não partidos com histórico longo
  • O sistema é de duas voltas (maioria absoluta necessária)
  • A dinâmica de campanha é mais importante

Utilizamos um modelo de random walk no espaço log-odds para capturar a evolução do apoio aos candidatos.

Detalhes Técnicos: Random Walk

O random walk é definido como:

latent[t] = latent[t-1] + innovation[t]

onde innovation[t] ~ ZeroSumNormal(σ) garante que os ganhos de um candidato correspondem a perdas de outros.

O desvio padrão das inovações (σ ≈ 0.05 log-odds/dia) é calibrado para permitir movimentos de ~5 pontos percentuais ao longo de uma campanha de 50 dias. Este valor é fixo (não aprendido) seguindo a metodologia do Economist, dado que com poucas sondagens não é possível estimar a volatilidade de forma fiável.

Priors para candidatos:

  • Baseline: Normal(μ=logit(prior_partido), σ=transformado) — centrado no apoio histórico do partido do candidato
  • Concentração da verosimilhança: Fixo em 60 para sondagens presidenciais

Priors Específicos por Candidato

Para candidatos com afiliação partidária conhecida, utilizamos priors informativos baseados no apoio histórico desses partidos. Isto ajuda a estabilizar as estimativas quando há poucas sondagens disponíveis.

Efeitos das Empresas de Sondagens

Quando disponíveis, utilizamos os house effects estimados no modelo legislativo como priors informativos para o modelo presidencial. Isto permite transferir informação sobre os vieses sistemáticos de cada instituto.

Modelação da Segunda Volta

Para cada simulação:

  1. Verificamos se algum candidato atinge >50% na primeira volta
  2. Se não, identificamos os dois candidatos mais votados
  3. Registamos a probabilidade de cada par de candidatos disputar a segunda volta

Quantificação de Incerteza

Os nossos modelos incorporam múltiplas fontes de incerteza:

  • Erro de sondagem — Variação esperada entre sondagens e resultado real
  • House effects — Incerteza nos vieses estimados de cada instituto
  • Incerteza do modelo — Parâmetros dos GPs e outros componentes
  • Efeitos de campanha — Potencial para mudanças tardias não captadas

Comunicação da Incerteza

Apresentamos a incerteza através de:

  • Intervalos de credibilidade: bandas de 50% e 80% nos gráficos de tendências
  • Probabilidades: "70% de probabilidade de X ganhar mais mandatos"
  • Distribuições de simulações: visualizações que mostram a gama completa de resultados possíveis

Validação do Modelo

Validamos os nossos modelos através de:

  1. Backtesting: Aplicamos o modelo a eleições passadas, usando apenas dados disponíveis antes de cada eleição
  2. Calibração: Verificamos se os intervalos de credibilidade contêm os resultados reais com a frequência esperada
  3. Métricas de erro: Calculamos MAE, RMSE e log-scores
  4. Comparação com resultados: Analisamos o desempenho após cada eleição

Fontes de Dados

Sondagens

  • Aximage, CESOP, Pitagórica, Intercampus, Eurosondagem, e outras empresas registadas na ERC

Resultados Eleitorais

  • Comissão Nacional de Eleições (CNE)
  • SGMAI (Secretaria-Geral do Ministério da Administração Interna)

Dados Demográficos

  • Instituto Nacional de Estatística (INE)

Limitações

O nosso modelo tem limitações importantes:

  • Dependência de sondagens: Se as sondagens tiverem vieses sistemáticos não captados pelo histórico, as previsões serão afetadas
  • Eventos imprevistos: Escândalos, crises, ou outros eventos podem alterar rapidamente o panorama eleitoral
  • Padrões históricos: Assumimos que padrões passados informam o futuro, o que pode não ser verdade em contextos sem precedentes
  • Eleitores indecisos: Dificuldade em prever como os eleitores indecisos se comportarão

As nossas previsões devem ser interpretadas como estimativas probabilísticas informadas, não como certezas.


Referências e Inspiração

A nossa metodologia é inspirada por: