Veja o código
entidade nota_teste
1 Distrito A 650
2 Distrito B 620
3 Distrito C 680
4 Distrito D 590
5 Distrito E 710
IBM0288 - 2026.1
Em econometria, os dados provêm de duas fontes principais:
Dados Experimentais: Provenientes de experimentos aleatórios controlados (seção anterior). Menos comuns em economia por questões éticas e financeiras.
Dados Observacionais: Obtidos pela observação do comportamento no mundo real (censos, pesquisas, registros administrativos). O desafio é isolar o efeito causal de outros fatores.
Em econometria, os dados são organizados em três estruturas fundamentais
entidade nota_teste
1 Distrito A 650
2 Distrito B 620
3 Distrito C 680
4 Distrito D 590
5 Distrito E 710
ano indice_macro
1 2010 102.48
2 2011 101.79
3 2012 105.03
4 2013 112.64
5 2014 111.47
6 2015 109.13
Aviso
Séries Temporais é conteúdo de Econometria II e não será tratado neste curso.
pais ano indice_macro
1 Argentina 2010 82.25
2 Argentina 2011 81.70
3 Argentina 2012 85.12
4 Argentina 2013 87.50
5 Brasil 2010 102.48
6 Brasil 2011 101.79
7 Brasil 2012 105.03
8 Brasil 2013 112.64
Vale a pena pagar uma universidade privada de elite? Por que?
Existe prêmio (diferencial salarial futuro) por estudar em universidade privada de elite?
Como separar efeito causal de viés de seleção?
Custos
Universidade privada de elite: ~US$ 29 mil/ano
Universidade pública estadual: ~ US$ 9 mil/ano
Diferença: ~US$ 20 mil/ano
Investimento total: > US$ 100 mil
Benefícios
Turmas menores
Professores renomados
Estrutura moderna
Colegas mais seletos
Networking
Vale a pena pagar a diferença de custo?
Comparações simples (Harvard vs. U-Mass ou IBMEC vs UNB) são viesadas
Problema de seleção: diferenças de notas, renda e motivação entre admitidos cada tipo de universidade
Pare refletir
Nancy Quian (prof. de Northwestern): passou em Harvard → escolheu UT por bolsa
Amanda Pallais (prof. Harvard): passou em várias elites → escolheu UVA
Ambas tiveram carreiras de sucesso
Problema
Desafio
- Harvard não sorteia vagas
- Não há experimento aleatório que possamos usar
Dica
É muito provável que exista prêmio de estudar em uma escola de elite, mas separar efeito causal de viés de seleção exige método rigoroso.
Reduzir o tamanho das turmas melhora o desempenho escolar dos alunos?
Pergunta de política pública
Questão de Inferência Causal: necessidade de isolar e conhecer o efeito causal de diminuir a turma em 1 aluno sobre as notas nos testes.
Pergunta da família
Questão de Previsão: Não importa o mecanismo causal, necessidade é prever o resultado a partir de variável indicadora
Estimação:
Como devemos traçar uma linha através dos dados para estimar o efeito tratamento?
Quando o parâmetro estimado identifica o efeito causal?
Quais são as vantagens e desvantagens do MQO?
Inferência:
Como testar se o efeito tratamento é igual a zero?
Como construir um intervalo de confiança para o efeito tratamento?
Importante
Inferência causal e previsão impõem requisitos diferentes aos dados, ainda que ambas utilizem regressão.
\[ Y_i = \beta_0 + \beta_1 X_i + u_i \]
\(Y\): variável dependente
\(X\): variável independente (regressor)
\(\beta_0 + \beta_1 X_i\): função de regressão populacional
\(\beta_0\): intercepto populacional
\(\beta_1\): inclinação populacional
\(u_i\): termo de erro populacional
Modelo:
\[ \text{TestScore}_i = \beta_0 + \beta_1 \ \text{STR}_i + u_i \]
Média condicional:
\[ E(\text{TestScore} \mid \text{STR}) = \beta_0 + \beta_1\,\text{STR} \]

Podemos estimar \(\beta_0\) e \(\beta_1\) a partir de uma amostra.
Escolher \(\beta_0\),\(\beta_1\) para ajustar melhor aos dados.


Melhor ajuste = minimizar erros de previsão ao quadrado.
\[ (\hat\beta_0,\hat\beta_1) \;=\; \arg\min_{b_0,b_1} \sum_{i=1}^n \left(Y_i - [b_0 + b_1 X_i]\right)^2 \]
A solução do problema acima define os estimadores de Mínimos Quadrados Ordinários (MQO).
\[ \hat\beta_1 \;=\; \frac{\sum_{i=1}^n (X_i - \bar X)(Y_i - \bar Y)}{\sum_{i=1}^n (X_i - \bar X)^2} =\frac{Cov(X,Y)}{Var(X)} \]
\[ \hat\beta_0 \;=\; \bar Y - \hat\beta_1 \bar X \]
Modelo de regressão linear: \(\hat Y_i \;=\; \hat\beta_0 + \hat\beta_1 X_i + \hat u_i\)
Os coeficientes \(\hat\beta_0\) e \(\hat\beta_1\) são estimativas pontuais dos parâmetros populacionais \(\beta_0\) e \(\beta_1\) a partir dos dados da amostra
\(\hat Y_i = \hat\beta_0 + \hat\beta_1 X_i\): valor previsto de \(Y_i\) com base em \(X_i\).
\(\hat u_i\): resíduo da regressão (estimador do erro \(u_i\)).
Dica
O erro de regressão captura todos os fatores omitidos no modelo. Em geral, esses fatores omitidos são outros fatores que influenciam \(Y\), além da variável \(X\).
\[\hat\beta_1 = \frac{\Delta E(\text{TestScore} \mid \text{STR})}{\Delta \text{STR}}=-2,28\]
Dica
\(\beta_0\) é o valor esperado de \(Y\) quando \(X = 0\). Em muitos modelos econômicos, \(X = 0\) não faz sentido prático, então \(\beta_0\) serve apenas para posicionar a reta de regressão.
\(Y_i = \hat Y_i + \hat u_i = \text{Predição de MQO} +\text{Resíduo de MQO}\)
\(\mathrm{Var}(Y_i) = \mathrm{Var}(\hat Y_i) + \mathrm{Var}(\hat u_i)\)
\(R^2 = \frac{\mathrm{Var}(\hat Y_i)}{\mathrm{Var}(Y_i)+\mathrm{Var}(u_i)}=\frac{\mathrm{Var}(\hat Y_i)}{\mathrm{Var}(Y_i)}=\frac{\sum_{i=1}^{n}(\hat Y_i - \bar Y)²}{\sum_{i=1}^{n}( Y_i - \bar Y)²} = \frac{ESS}{TSS}\)
ESS: Soma dos quadrados explicados
TSS: Soma dos quadrados totais
Importante
Não iremos focar nas medidas de ajuste neste curso. Essas medidas têm deixado de ser enfatizadas. O foco é nas hipóteses de identificação de causalidade!
SER: Standard Error of the Regression
Mede a dispersão dos resíduos em torno da reta.
\[ SER \;=\; \hat\sigma_u \;=\; \sqrt{\frac{1}{n-2}\sum_{i=1}^n \hat u_i^{\,2}} \]
Espere \(R^2\) baixo quando muitos fatores não observados afetam \(Y\).
O SER informa a magnitude típica do erro de previsão.
Importante
Não iremos focar nas medidas de ajuste neste curso. Essas medidas têm deixado de ser enfatizadas. O foco é nas hipóteses de identificação de causalidade!
\(\hat\beta_0\) e \(\hat\beta_1\) são variáveis aleatórias (por que?).
\(E[\hat\beta_0]=\beta_0\) e \(E[\hat\beta_1]=\beta_1\)
\(\hat\beta_0\) e \(\hat\beta_1\) são normalmente distribuídos em amostras grandes
\(\hat\beta_0 \sim N(\beta_0, \sigma_{\beta_0}^2)\) e \(\hat\beta_1 \sim N(\beta_1, \sigma_{\beta_1}^2)\)
O que determina \(\sigma_{\beta_0}^2\) e \(\sigma_{\beta_1}^2\)?
O número de observações em preto e azul são iguais
Todas observações vêm da mesma distribuição conjunta
Para qual dos dois grupos a reta de regressão é melhor estimada?
Aumentar dispersão de X diminui a \(var(\beta_1)\)

\[ var(u\mid X = x) \]
Homocedasticidade: \(var(u\mid X = x)\) é constante (não depende de \(X\))
Heterocedasticidade: \(var(u\mid X = x)\) varia com \(X\)


Quando devemos usar desvios-padrões sob homocedasticidade ou não robustos?
Dica
NUNCA! Os devios-padrão robustos são sempre mais adequados já que também são válidos sob a hipótese de homocedasticidade.
\[ H_0:\; \beta_k=\beta_{k,0} \qquad\text{vs.}\qquad H_1:\; \beta_k\neq\beta_{k,0} \]
Passos práticos para testar \(H_0\):
Estime \(\hat\beta_1\) e \(SE(\hat\beta_1)\).
Calcule a estatística \(t\)
Calcule o p-valor

\(SE(\hat\beta_1)\) é o estimador da variância de \(\hat\beta_1\) (\(\sigma_{\hat\beta_1}\))
Erro-padrão robusto (ajuste para heteroscedasticidade) - regressão simples:
\[SE(\hat\beta_1) = \sqrt\sigma_{\hat\beta_1}=\frac{1}{n}\times\frac{\frac{1}{n-2}\sum_{i=1}^n(X_i-\bar X)^2\hat u_i^2}{[\frac{1}{n}\sum_{i=1}^n(X_i-\bar X)^2]^2}\]
\[ t = \frac{\text{estimador}-\text{valor hipotético}}{\text{erro padrão do estimador}} \]
\(t\) tem distribuição normal padrão em grandes amostras
\(t \sim N(0,1)\)
Seja \(\hat{\beta}_1^{\text{ef}}\) a estimativa efetivamente calculada:
\[ \begin{aligned} \text{p-valor} &= \Pr{H_0}\!\left(\left|\hat{\beta}_1-\beta_{1,0}\right|>\left|\hat{\beta}_1^{\text{ef}}-\beta_{1,0}\right|\right) \\ &= \Pr_{H_0}\!\left(\left|\frac{\hat{\beta}_1-\beta_{1,0}}{SE\!\left(\hat{\beta}_1\right)}\right|>\left|\frac{\hat{\beta}_1^{\text{ef}}-\beta_{1,0}}{SE\!\left(\hat{\beta}_1\right)}\right|\right) \\ &= \Pr_{H_0}\!\left(|t|>\left|t^{\text{ef}}\right|\right) \\ &= \Pr_{H_0}\!\left(|Z|>\left|t^{\text{ef}}\right|\right) \\ &= 2\,\phi\!\left(-\,\left|t^{\text{ef}}\right|\right) \end{aligned} \]
Intervalo de Confiança de 95%: intervalo que possui 95% de probabilidade de conter o verdadeiro valor de \(\beta_k\).
Inclui todos os valores de \(\beta_k\) que não podemos rejeitar ao nível de significância de 5%.
\[ \hat\beta_k - 1,96 \times SE(\hat\beta_k) \leq \beta_k \leq \hat\beta_k + 1,96 \times SE(\hat\beta_k) \]
Aviso
Regra simples: sempre que o módulo da estimativa pontual for duas vezes maior que o desvio-padrão rejeita-se a hipótese nula.
Efeito causal do tamanho da sala?
Ou alguma outra coisa?
Quando uma das setas vermelhas está presentes, não é possível garantir que os coeficientes de MQO capturam o efeito causal.
Quando \(\beta_1\) pode ser interpretado como efeito causal médio de \(X\) sobre \(Y\)?
\(X\) precisa ser independente de outros fatores que afetam \(Y\)
\(X\) tem que ser independente do termo de erro \(u_i\)
\(\operatorname{corr}(X_i,u_i)=0\)
Isso acontece para dados experimentais!
Não será sempre verdadeiro para dados observacionais!
\[E[u_i\mid X_i]=0; \operatorname{corr}(X_i,u_i)=0\]
\((X_i,Y_i)\), \(i=1,\dots,n\), são independentes e identicamente distribuídos (i.i.d.).
Sem grandes outliers em \(X\) e/ou \(Y\).
Pontos extremos em \(X\) ou \(Y\) podem distorcer a reta.

O uso de celulares e computadores durante as aulas expositivas não é permitido!