Inferência Causal Baseada em Regressões

IBM0288 - 2026.1

Prof. Raphael Gouvea

Para reflexão

Tipos de Dados

Em econometria, os dados provêm de duas fontes principais:

Dados Experimentais: Provenientes de experimentos aleatórios controlados (seção anterior). Menos comuns em economia por questões éticas e financeiras.
Dados Observacionais: Obtidos pela observação do comportamento no mundo real (censos, pesquisas, registros administrativos). O desafio é isolar o efeito causal de outros fatores.

Estrutura de Dados

Em econometria, os dados são organizados em três estruturas fundamentais

Corte Transversal (Cross-sectional): Observações de diferentes entidades (países, estados, indivíduos) em um único período de tempo.

Veja o código

# Construindo um data.frame de Corte Transversal
dados_corte_transversal <- data.frame(
  entidade = c("Distrito A", "Distrito B", "Distrito C", "Distrito D", "Distrito E"),
  nota_teste = c(650, 620, 680, 590, 710)
)

head(dados_corte_transversal)

    entidade nota_teste
1 Distrito A        650
2 Distrito B        620
3 Distrito C        680
4 Distrito D        590
5 Distrito E        710

Séries Temporais: Observações de uma única entidade ao longo de vários períodos de tempo.

Veja o código

# Construindo um data.frame de Séries Temporais
dados_serie_temporal <- data.frame(
  ano = 2010:2015,
  indice_macro = c(102.48, 101.79, 105.03, 112.64, 111.47, 109.13)
)

head(dados_serie_temporal)

   ano indice_macro
1 2010       102.48
2 2011       101.79
3 2012       105.03
4 2013       112.64
5 2014       111.47
6 2015       109.13

Aviso

Séries Temporais é conteúdo de Econometria II e não será tratado neste curso.

Dados em Painel ou Longitudinais: Múltiplas entidades, onde cada uma é observada em dois ou mais períodos de tempo.

Veja o código

dados_painel <- data.frame(
  pais = rep(c("Argentina", "Brasil"), each = 4),
  ano = rep(2010:2013, 2),
  indice_macro = c(82.25, 81.70, 85.12, 87.50, 102.48, 101.79, 105.03, 112.64)
)

head(dados_painel, n = 8)

       pais  ano indice_macro
1 Argentina 2010        82.25
2 Argentina 2011        81.70
3 Argentina 2012        85.12
4 Argentina 2013        87.50
5    Brasil 2010       102.48
6    Brasil 2011       101.79
7    Brasil 2012       105.03
8    Brasil 2013       112.64

Regressão

Educação privada de elite

Vale a pena pagar uma universidade privada de elite? Por que?

Existe prêmio (diferencial salarial futuro) por estudar em universidade privada de elite?

Como separar efeito causal de viés de seleção?

Trade-offs

Custos

Universidade privada de elite: ~US$ 29 mil/ano
Universidade pública estadual: ~ US$ 9 mil/ano
Diferença: ~US$ 20 mil/ano
Investimento total: > US$ 100 mil

Benefícios

Turmas menores
Professores renomados
Estrutura moderna
Colegas mais seletos
Networking

Questão central

Vale a pena pagar a diferença de custo?
Comparações simples (Harvard vs. U-Mass ou IBMEC vs UNB) são viesadas
- Por que?
Problema de seleção: diferenças de notas, renda e motivação entre admitidos cada tipo de universidade

Pare refletir

Nancy Quian (prof. de Northwestern): passou em Harvard → escolheu UT por bolsa
Amanda Pallais (prof. Harvard): passou em várias elites → escolheu UVA
Ambas tiveram carreiras de sucesso

O que fazer?

Problema

Diferenças de renda refletem:
- Tanto a qualidade da instituição
- Quanto as características dos alunos

Desafio
- Harvard não sorteia vagas
- Não há experimento aleatório que possamos usar

Possível solução

Explorar quase-aleatoriedade:
- Bolsas de estudo
- Circunstâncias pessoais
- Timing de decisões
Resultado: grupos de tratamento e controle obtidos por exprimento natural

Dica

É muito provável que exista prêmio de estudar em uma escola de elite, mas separar efeito causal de viés de seleção exige método rigoroso.

Notas e Tamanho das Turmas

Reduzir o tamanho das turmas melhora o desempenho escolar dos alunos?

Pergunta de política pública

Dilema: Contratar mais professores para reduzir o número de alunos por sala custa o dinheiro dos contribuintes. Esse investimento compensa?

Questão de Inferência Causal: necessidade de isolar e conhecer o efeito causal de diminuir a turma em 1 aluno sobre as notas nos testes.

Pergunta da família

Dilema: Escolher o distrito escolar do filho que levará ao melhor desempenho acadêmico possível usando o tamanho da turma como indicador.

Questão de Previsão: Não importa o mecanismo causal, necessidade é prever o resultado a partir de variável indicadora

Inferência causal e regressões

Estimação:

Como devemos traçar uma linha através dos dados para estimar o efeito tratamento?
Quando o parâmetro estimado identifica o efeito causal?
Quais são as vantagens e desvantagens do MQO?

Inferência:

Como testar se o efeito tratamento é igual a zero?
Como construir um intervalo de confiança para o efeito tratamento?

Importante

Inferência causal e previsão impõem requisitos diferentes aos dados, ainda que ambas utilizem regressão.

O modelo de regressão linear

\[ Y_i = \beta_0 + \beta_1 X_i + u_i \]

$Y$: variável dependente
$X$: variável independente (regressor)
$\beta_0 + \beta_1 X_i$: função de regressão populacional
$\beta_0$: intercepto populacional
$\beta_1$: inclinação populacional
$u_i$: termo de erro populacional

Exemplo

Modelo:

\[ \text{TestScore}_i = \beta_0 + \beta_1 \ \text{STR}_i + u_i \]

Média condicional:

\[ E(\text{TestScore} \mid \text{STR}) = \beta_0 + \beta_1\,\text{STR} \]

Estimação do modelo de regressão linear

Podemos estimar $\beta_0$ e $\beta_1$ a partir de uma amostra.
Escolher $\beta_0$,$\beta_1$ para ajustar melhor aos dados.

MQO: um problema de minimização

Melhor ajuste = minimizar erros de previsão ao quadrado.

\[ (\hat\beta_0,\hat\beta_1) \;=\; \arg\min_{b_0,b_1} \sum_{i=1}^n \left(Y_i - [b_0 + b_1 X_i]\right)^2 \]

A solução do problema acima define os estimadores de Mínimos Quadrados Ordinários (MQO).

\[ \hat\beta_1 \;=\; \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2} =\frac{Cov(X,Y)}{Var(X)} \]

\[ \hat\beta_0 \;=\; \bar Y - \hat\beta_1 \bar X \]

Os estimadores de MQO

Modelo de regressão linear: $\hat Y_i \;=\; \hat\beta_0 + \hat\beta_1 X_i + \hat u_i$
Os coeficientes $\hat\beta_0$ e $\hat\beta_1$ são estimativas pontuais dos parâmetros populacionais $\beta_0$ e $\beta_1$ a partir dos dados da amostra
$\hat Y_i = \hat\beta_0 + \hat\beta_1 X_i$: valor previsto de $Y_i$ com base em $X_i$.
$\hat u_i$: resíduo da regressão (estimador do erro $u_i$).

Dica

O erro de regressão captura todos os fatores omitidos no modelo. Em geral, esses fatores omitidos são outros fatores que influenciam $Y$, além da variável $X$.

Estimativas do exemplo

Interpretação

Distritos com um aluno a mais por professor, em média, têm pontuações em testes 2,28 pontos menores:

\[\hat\beta_1 = \frac{\Delta E(\text{TestScore} \mid \text{STR})}{\Delta \text{STR}}=-2,28\]

Note que como $Y = \beta_0 + \beta_1 X$, se $X$ muda por uma quantidade $\Delta X$, então $Y$ muda por: $\Delta Y = \beta_1 \Delta X$

Dica

$\beta_0$ é o valor esperado de $Y$ quando $X = 0$. Em muitos modelos econômicos, $X = 0$ não faz sentido prático, então $\beta_0$ serve apenas para posicionar a reta de regressão.

Ajuste do modelo: $R^2$

$Y_i = \hat Y_i + \hat u_i = \text{Predição de MQO} +\text{Resíduo de MQO}$
$\mathrm{Var}(Y_i) = \mathrm{Var}(\hat Y_i) + \mathrm{Var}(\hat u_i)$
$R^2 = \frac{\mathrm{Var}(\hat Y_i)}{\mathrm{Var}(Y_i)+\mathrm{Var}(u_i)}=\frac{\mathrm{Var}(\hat Y_i)}{\mathrm{Var}(Y_i)}=\frac{\sum_{i=1}^{n}(\hat Y_i - \bar Y)²}{\sum_{i=1}^{n}( Y_i - \bar Y)²} = \frac{ESS}{TSS}$

ESS: Soma dos quadrados explicados

TSS: Soma dos quadrados totais

Visualização de $R^2$ distintos

Importante

Não iremos focar nas medidas de ajuste neste curso. Essas medidas têm deixado de ser enfatizadas. O foco é nas hipóteses de identificação de causalidade!

Ajuste do modelo: SER

SER: Standard Error of the Regression
Mede a dispersão dos resíduos em torno da reta.

\[ SER \;=\; \hat\sigma_u \;=\; \sqrt{\frac{1}{n-2}\sum_{i=1}^n \hat u_i^{\,2}} \]

Condierações sobre ajuste de modelo

Espere $R^2$ baixo quando muitos fatores não observados afetam $Y$.
O SER informa a magnitude típica do erro de previsão.

Importante

Não iremos focar nas medidas de ajuste neste curso. Essas medidas têm deixado de ser enfatizadas. O foco é nas hipóteses de identificação de causalidade!

Distribuição amostral dos estimadores

$\hat\beta_0$ e $\hat\beta_1$ são variáveis aleatórias (por que?).
$E[\hat\beta_0]=\beta_0$ e $E[\hat\beta_1]=\beta_1$
$\hat\beta_0$ e $\hat\beta_1$ são normalmente distribuídos em amostras grandes
$\hat\beta_0 \sim N(\beta_0, \sigma_{\beta_0}^2)$ e $\hat\beta_1 \sim N(\beta_1, \sigma_{\beta_1}^2)$
O que determina $\sigma_{\beta_0}^2$ e $\sigma_{\beta_1}^2$?

Variância do estimador - intuição

O número de observações em preto e azul são iguais
Todas observações vêm da mesma distribuição conjunta
Para qual dos dois grupos a reta de regressão é melhor estimada?
Aumentar dispersão de X diminui a $var(\beta_1)$

Homocedasticidade vs Heterocedasticidade

Conceito relacionado à variância condicional do termo de erro:

\[ var(u\mid X = x) \]

Homocedasticidade: $var(u\mid X = x)$ é constante (não depende de $X$)
Heterocedasticidade: $var(u\mid X = x)$ varia com $X$

Visualização

Quando devemos usar desvios-padrões sob homocedasticidade ou não robustos?

Dica

NUNCA! Os devios-padrão robustos são sempre mais adequados já que também são válidos sob a hipótese de homocedasticidade.

Testes de hipóteses

\[ H_0:\; \beta_k=\beta_{k,0} \qquad\text{vs.}\qquad H_1:\; \beta_k\neq\beta_{k,0} \]

Passos práticos para testar $H_0$:

Estime $\hat\beta_1$ e $SE(\hat\beta_1)$.
Calcule a estatística $t$
Calcule o p-valor

1. Estime $\hat\beta_1$ e $SE(\hat\beta_1)$

$SE(\hat\beta_1)$ é o estimador da variância de $\hat\beta_1$ ($\sigma_{\hat\beta_1}$)
Erro-padrão robusto (ajuste para heteroscedasticidade) - regressão simples:

\[SE(\hat\beta_1) = \sqrt\sigma_{\hat\beta_1}=\frac{1}{n}\times\frac{\frac{1}{n-2}\sum_{i=1}^n(X_i-\bar X)^2\hat u_i^2}{[\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2]^2}\]

Fórmula complicada mas softwares (R, Stata, etc.) calculam automaticamente.

2. Calcule a estatística $t$

\[ t = \frac{\text{estimador}-\text{valor hipotético}}{\text{erro padrão do estimador}} \]

$t$ tem distribuição normal padrão em grandes amostras
$t \sim N(0,1)$

3. Calcule o p-valor

Seja $\hat{\beta}_1^{\text{ef}}$ a estimativa efetivamente calculada:

\[ \begin{aligned} \text{p-valor} &= \Pr{H_0}\!\left(\left|\hat{\beta}_1-\beta_{1,0}\right|>\left|\hat{\beta}_1^{\text{ef}}-\beta_{1,0}\right|\right) \\ &= \Pr_{H_0}\!\left(\left|\frac{\hat{\beta}_1-\beta_{1,0}}{SE\!\left(\hat{\beta}_1\right)}\right|>\left|\frac{\hat{\beta}_1^{\text{ef}}-\beta_{1,0}}{SE\!\left(\hat{\beta}_1\right)}\right|\right) \\ &= \Pr_{H_0}\!\left(|t|>\left|t^{\text{ef}}\right|\right) \\ &= \Pr_{H_0}\!\left(|Z|>\left|t^{\text{ef}}\right|\right) \\ &= 2\,\phi\!\left(-\,\left|t^{\text{ef}}\right|\right) \end{aligned} \]

Intervalo de Confiança de 95% para $\beta_k$

Intervalo de Confiança de 95%: intervalo que possui 95% de probabilidade de conter o verdadeiro valor de $\beta_k$.
Inclui todos os valores de $\beta_k$ que não podemos rejeitar ao nível de significância de 5%.

\[ \hat\beta_k - 1,96 \times SE(\hat\beta_k) \leq \beta_k \leq \hat\beta_k + 1,96 \times SE(\hat\beta_k) \]

Aviso

Regra simples: sempre que o módulo da estimativa pontual for duas vezes maior que o desvio-padrão rejeita-se a hipótese nula.

Notas e tamanho das turmas

Efeito causal do tamanho da sala?

Ou alguma outra coisa?

Relações causais entre notas e tamanho das turmas

Quando uma das setas vermelhas está presentes, não é possível garantir que os coeficientes de MQO capturam o efeito causal.

Regressões e causalidade

Quando $\beta_1$ pode ser interpretado como efeito causal médio de $X$ sobre $Y$?
$X$ precisa ser independente de outros fatores que afetam $Y$
- $X$ tem que ser independente do termo de erro $u_i$
- $\operatorname{corr}(X_i,u_i)=0$
Isso acontece para dados experimentais!
Não será sempre verdadeiro para dados observacionais!

Três hipóteses de MQO para inferência causal

A variável independente $X$ é independente do termo de erro $u_i$

\[E[u_i\mid X_i]=0; \operatorname{corr}(X_i,u_i)=0\]

$(X_i,Y_i)$, $i=1,\dots,n$, são independentes e identicamente distribuídos (i.i.d.).
- Algumas violações de indpendência podem ser resolvidas com séries temporais ou dados em painel
Sem grandes outliers em $X$ e/ou $Y$.
- A presença de outliers pode distorcer os estimadores de MQO.

Sensibilidade a outliers

Pontos extremos em $X$ ou $Y$ podem distorcer a reta.

Inferência Causal Baseada em Regressões

Para reflexão

Tipos de Dados

Estrutura de Dados

Regressão

Educação privada de elite

Trade-offs

Questão central

O que fazer?

Possível solução

Notas e Tamanho das Turmas

Inferência causal e regressões

O modelo de regressão linear

Exemplo

Estimação do modelo de regressão linear

MQO: um problema de minimização

Os estimadores de MQO

Estimativas do exemplo

Interpretação

Ajuste do modelo: \(R^2\)

Visualização de \(R^2\) distintos

Ajuste do modelo: SER

Condierações sobre ajuste de modelo

Distribuição amostral dos estimadores

Variância do estimador - intuição

Homocedasticidade vs Heterocedasticidade

Visualização

Testes de hipóteses

1. Estime \(\hat\beta_1\) e \(SE(\hat\beta_1)\)

2. Calcule a estatística \(t\)

3. Calcule o p-valor

Intervalo de Confiança de 95% para \(\beta_k\)

Notas e tamanho das turmas

Relações causais entre notas e tamanho das turmas

Regressões e causalidade

Três hipóteses de MQO para inferência causal

Sensibilidade a outliers