Metodologia
Visão Geral
O estimador.pt utiliza modelos estatísticos Bayesianos para prever eleições portuguesas. A nossa abordagem é fundamentalmente probabilística: em vez de prever um único resultado, estimamos distribuições de probabilidade que refletem a incerteza inerente ao processo eleitoral.
Os nossos modelos são implementados em PyMC, uma biblioteca de programação probabilística que permite definir modelos estatísticos complexos e realizar inferência Bayesiana de forma eficiente.
Eleições Legislativas
Estrutura do Modelo
O modelo de eleições legislativas combina dados de sondagens com resultados eleitorais históricos para estimar a evolução do apoio a cada partido ao longo do tempo. A estrutura central utiliza três Processos Gaussianos (GPs) sobrepostos que capturam dinâmicas em diferentes escalas temporais:
1. GP de Baseline (Tendência de Longo Prazo)
- Escala temporal: ~4 anos
- Captura mudanças estruturais no sistema partidário
- Utiliza um kernel ExpQuad (Exponencial Quadrático)
2. GP de Médio Prazo
- Escala temporal: ~1 ano
- Captura ciclos políticos e mudanças graduais na opinião pública
- Utiliza um kernel Matern 5/2
3. GP de Curto Prazo
- Escala temporal: ~14 dias
- Captura dinâmicas de campanha e reações a eventos
- Utiliza um kernel Matern 3/2 para permitir variações mais rápidas
A combinação destes três processos permite separar o sinal de longo prazo do ruído de curto prazo, enquanto ainda captura movimentos reais durante a campanha.
Detalhes Técnicos: Processos Gaussianos
Os Processos Gaussianos são uma forma não-paramétrica de modelar funções desconhecidas. Definimos priors sobre funções em vez de parâmetros fixos, o que permite que o modelo aprenda a forma das tendências a partir dos dados.
Utilizamos a aproximação HSGP (Hilbert Space Gaussian Process) para eficiência computacional. Esta técnica aproxima o GP usando uma série de funções base, reduzindo drasticamente o custo computacional sem perda significativa de precisão.
A função de covariância do GP de baseline é:
k(t, t') = σ² × exp(-|t-t'|² / (2ℓ²))
Priors utilizados:
- Lengthscale baseline: LogNormal(μ=log(1460), σ=0.3) — centrado em ~4 anos
- Lengthscale médio prazo: LogNormal(μ=log(365), σ=0.5) — centrado em ~1 ano
- Lengthscale curto prazo: LogNormal(μ=log(14), σ=0.3) — centrado em ~14 dias
- Amplitude dos GPs: HalfNormal(σ=0.2-0.3)
Efeitos das Empresas de Sondagens (House Effects)
Cada instituto de sondagens tem tendências sistemáticas para sobre ou subestimar certos partidos. O nosso modelo estima estes "efeitos de casa" (house effects) a partir dos dados históricos.
Por exemplo, se uma empresa consistentemente sobrestima o PS em 2 pontos percentuais, o modelo corrige esta tendência ao agregar sondagens de múltiplas fontes.
Os house effects são modelados com uma restrição de soma zero: se uma empresa sobrestima um partido, tem de subestimar outro(s) para compensar. O prior para o desvio padrão dos house effects é HalfNormal(σ=0.05) por partido, permitindo vieses típicos de ~2-3 pontos percentuais.
Efeitos Distritais
Portugal utiliza um sistema de representação proporcional com alocação de mandatos ao nível distrital. O modelo inclui offsets distritais estáticos que capturam as diferenças regionais no apoio partidário.
Estes offsets são estimados a partir de resultados eleitorais anteriores e permitem prever como os votos nacionais se traduzem em votos em cada distrito. O prior para os offsets distritais é HalfNormal(σ=0.1) por partido, refletindo variações regionais típicas de ~5 pontos percentuais.
Verosimilhança
As observações de sondagens seguem uma distribuição Dirichlet-Multinomial, que é a escolha natural para dados composicionais (percentagens que somam 100%).
Detalhes Técnicos: Dirichlet-Multinomial
A Dirichlet-Multinomial é parametrizada por:
n: tamanho da amostra da sondagemα: vetor de concentração (proporcional às probabilidades de cada partido)
Esta distribuição tem duas fontes de variação: o erro de amostragem (que depende de n) e a variação extra captada pelo parâmetro de concentração. Isto permite modelar corretamente o facto de que sondagens nem sempre se comportam como amostras aleatórias simples.
Priors para concentração:
- Sondagens: Gamma(α=2, β=0.01) — média ~200, permite variação extra além do erro de amostragem
- Resultados eleitorais: Gamma(α=100, β=0.1) — média ~1000, ajuste mais preciso aos resultados reais
Método D'Hondt e Alocação de Mandatos
Para converter previsões de votos em previsões de mandatos, simulamos o sistema eleitoral português:
- 22 círculos eleitorais: 18 distritos continentais + 2 regiões autónomas + Europa + Fora da Europa
- Método D'Hondt: Sistema de divisores sequenciais (1, 2, 3, ...) para alocação proporcional de mandatos
- 230 mandatos no total (excluindo os 4 da emigração nas eleições de 2024)
O modelo executa milhares de simulações de Monte Carlo:
- Para cada simulação, extrai-se uma amostra da distribuição posterior dos votos nacionais
- Aplica-se os offsets distritais para obter votos por distrito
- Executa-se o algoritmo D'Hondt em cada distrito
- Soma-se os mandatos de cada partido
O resultado é uma distribuição completa de possíveis composições parlamentares.
Métricas de Interesse
A partir das simulações, calculamos:
- Probabilidade de cada partido ganhar mais mandatos
- Probabilidade de maiorias: direita, esquerda, ou parlamento sem maioria clara
- Mandatos esperados: média e intervalos de credibilidade (50% e 80%)
- Distritos contestados: usando o ENSC (Effective Number of Seat Changes) com limiar de 0.8
Eleições Presidenciais
Estrutura do Modelo
O modelo presidencial é diferente do legislativo porque:
- Os candidatos são indivíduos, não partidos com histórico longo
- O sistema é de duas voltas (maioria absoluta necessária)
- A dinâmica de campanha é mais importante
Utilizamos um modelo de random walk no espaço log-odds para capturar a evolução do apoio aos candidatos.
Detalhes Técnicos: Random Walk
O random walk é definido como:
latent[t] = latent[t-1] + innovation[t]
onde innovation[t] ~ ZeroSumNormal(σ) garante que os ganhos de um candidato correspondem a perdas de outros.
O desvio padrão das inovações (σ ≈ 0.05 log-odds/dia) é calibrado para permitir movimentos de ~5 pontos percentuais ao longo de uma campanha de 50 dias. Este valor é fixo (não aprendido) seguindo a metodologia do Economist, dado que com poucas sondagens não é possível estimar a volatilidade de forma fiável.
Priors para candidatos:
- Baseline: Normal(μ=logit(prior_partido), σ=transformado) — centrado no apoio histórico do partido do candidato
- Concentração da verosimilhança: Fixo em 60 para sondagens presidenciais
Priors Específicos por Candidato
Para candidatos com afiliação partidária conhecida, utilizamos priors informativos baseados no apoio histórico desses partidos. Isto ajuda a estabilizar as estimativas quando há poucas sondagens disponíveis.
Efeitos das Empresas de Sondagens
Quando disponíveis, utilizamos os house effects estimados no modelo legislativo como priors informativos para o modelo presidencial. Isto permite transferir informação sobre os vieses sistemáticos de cada instituto.
Modelação da Segunda Volta
Para cada simulação:
- Verificamos se algum candidato atinge >50% na primeira volta
- Se não, identificamos os dois candidatos mais votados
- Registamos a probabilidade de cada par de candidatos disputar a segunda volta
Quantificação de Incerteza
Os nossos modelos incorporam múltiplas fontes de incerteza:
- Erro de sondagem — Variação esperada entre sondagens e resultado real
- House effects — Incerteza nos vieses estimados de cada instituto
- Incerteza do modelo — Parâmetros dos GPs e outros componentes
- Efeitos de campanha — Potencial para mudanças tardias não captadas
Comunicação da Incerteza
Apresentamos a incerteza através de:
- Intervalos de credibilidade: bandas de 50% e 80% nos gráficos de tendências
- Probabilidades: "70% de probabilidade de X ganhar mais mandatos"
- Distribuições de simulações: visualizações que mostram a gama completa de resultados possíveis
Validação do Modelo
Validamos os nossos modelos através de:
- Backtesting: Aplicamos o modelo a eleições passadas, usando apenas dados disponíveis antes de cada eleição
- Calibração: Verificamos se os intervalos de credibilidade contêm os resultados reais com a frequência esperada
- Métricas de erro: Calculamos MAE, RMSE e log-scores
- Comparação com resultados: Analisamos o desempenho após cada eleição
Fontes de Dados
Sondagens
- Aximage, CESOP, Pitagórica, Intercampus, Eurosondagem, e outras empresas registadas na ERC
Resultados Eleitorais
- Comissão Nacional de Eleições (CNE)
- SGMAI (Secretaria-Geral do Ministério da Administração Interna)
Dados Demográficos
- Instituto Nacional de Estatística (INE)
Limitações
O nosso modelo tem limitações importantes:
- Dependência de sondagens: Se as sondagens tiverem vieses sistemáticos não captados pelo histórico, as previsões serão afetadas
- Eventos imprevistos: Escândalos, crises, ou outros eventos podem alterar rapidamente o panorama eleitoral
- Padrões históricos: Assumimos que padrões passados informam o futuro, o que pode não ser verdade em contextos sem precedentes
- Eleitores indecisos: Dificuldade em prever como os eleitores indecisos se comportarão
As nossas previsões devem ser interpretadas como estimativas probabilísticas informadas, não como certezas.
Referências e Inspiração
A nossa metodologia é inspirada por: