Dados em Painel: efeitos fixos

IBM0288 - 2026.1

Prof. Raphael Gouvea

Para reflexão

Aula passada: OVB

O viés de variável omitida (OVB) ocorre quando:

A variável omitida é correlacionada com o regressor incluído.
A variável omitida afeta a variável dependente \(Y\).

Aula passada: solução?

O que fazer quando temos OVB?

Incluir bons controles
Evitar a inclusão de controles ruins

Problema resolvido?

E se a variável que está gerando viés não puder ser mensurada ou observada?

Só mais uma por favor…

O consumo de álcool está fortemente associado a acidentes de trânsito, tornando relevante entender como políticas públicas podem reduzir esse risco.
Impostos sobre bebidas alcoólicas podem afetar o consumo e, consequentemente, a incidência de acidentes fatais.
Leis contra dirigir embriagado (testes de bafômetro) buscam alterar o comportamento dos motoristas.
Avaliar o impacto dessas políticas ajuda a orientar decisões governamentais mais eficazes para salvar vidas.

🤔 Pergunta Empírica

Qual o efeito de impostos sobre bebidas alcoólicas e leis que desincentivam dirigir embriagado sobre as mortes no trânsito?

Fatalidades no trânsito e álcool

Suponha que tenhamos a seguinte base de dados:

Unidades de observação: um ano em um estado dos EUA
- Estados americanos
- 7 anos, de 1982 a 1988

Variáveis:
- Taxa de fatalidade no trânsito (número de fatalidades por 10mil residentes)
- Imposto sobre uma caixa de cerveja
- Outras (idade mínima para tirar CNH, legislação sobre dirigir embriagado, etc)

O que acontece se utilizarmos regressão?

Para cada ano, poderíamos estimar a regressão: \[\text {FatalityRate}_i = \beta_0 + \beta_0 \text{BeerTax}_i + u_i\]

O que vocês acham dos resultados acima? É o que vocês esperavam?

OVB: Nível de renda?

OVB: Áreas urbanas vs rurais?

OVB:cultura-educação sobre álcool e direção?

Conseguem pensar algo mais que possa gerar viés?

O que mais poderia ser feito com os dados disponíveis?

Relembrando: estrutura de dados

Em econometria, os dados são organizados em três estruturas fundamentais

Corte Transversal (Cross-sectional): Observações de diferentes entidades (países, estados, indivíduos) em um único período de tempo.

Veja o código

# Construindo um data.frame de Corte Transversal
dados_corte_transversal <- data.frame(
  entidade = c("Distrito A", "Distrito B", "Distrito C", "Distrito D", "Distrito E"),
  nota_teste = c(650, 620, 680, 590, 710)
)

head(dados_corte_transversal)

    entidade nota_teste
1 Distrito A        650
2 Distrito B        620
3 Distrito C        680
4 Distrito D        590
5 Distrito E        710

Séries Temporais: Observações de uma única entidade ao longo de vários períodos de tempo.

Veja o código

# Construindo um data.frame de Séries Temporais
dados_serie_temporal <- data.frame(
  ano = 2010:2015,
  indice_macro = c(102.48, 101.79, 105.03, 112.64, 111.47, 109.13)
)

head(dados_serie_temporal)

   ano indice_macro
1 2010       102.48
2 2011       101.79
3 2012       105.03
4 2013       112.64
5 2014       111.47
6 2015       109.13

Aviso

Séries Temporais é conteúdo de Econometria II e não será tratado neste curso.

Dados em Painel ou Longitudinais: Múltiplas entidades, onde cada uma é observada em dois ou mais períodos de tempo.

Veja o código

dados_painel <- data.frame(
  pais = rep(c("Argentina", "Brasil"), each = 4),
  ano = rep(2010:2013, 2),
  indice_macro = c(82.25, 81.70, 85.12, 87.50, 102.48, 101.79, 105.03, 112.64)
)

head(dados_painel, n = 8)

       pais  ano indice_macro
1 Argentina 2010        82.25
2 Argentina 2011        81.70
3 Argentina 2012        85.12
4 Argentina 2013        87.50
5    Brasil 2010       102.48
6    Brasil 2011       101.79
7    Brasil 2012       105.03
8    Brasil 2013       112.64

Dados em painel: fatalidades de trânsito e álcool

Código R

# Pacotes
library(tidyverse)
library(AER)

# Dados
data("Fatalities", package = "AER")

# Mostrando o começo da base

head(select(Fatalities,1:9),21)

   state year spirits unemp   income   emppop   beertax baptist  mormon
1     al 1982    1.37  14.4 10544.15 50.69204 1.5393795 30.3557 0.32829
2     al 1983    1.36  13.7 10732.80 52.14703 1.7889907 30.3336 0.34341
3     al 1984    1.32  11.1 11108.79 54.16809 1.7142856 30.3115 0.35924
4     al 1985    1.28   8.9 11332.63 55.27114 1.6525424 30.2895 0.37579
5     al 1986    1.23   9.8 11661.51 56.51450 1.6099070 30.2674 0.39311
6     al 1987    1.18   7.8 11944.00 57.50988 1.5599999 30.2453 0.41123
7     al 1988    1.17   7.2 12368.62 56.83453 1.5014436 30.2233 0.43018
8     az 1982    1.97   9.9 12309.07 56.89330 0.2147971  3.9589 4.91910
9     az 1983    1.90   9.1 12693.81 57.55363 0.2064220  3.8901 4.83107
10    az 1984    2.14   5.0 13265.93 60.37902 0.2967033  3.8226 4.74461
11    az 1985    1.86   6.5 13726.70 58.64853 0.3813559  3.7562 4.65971
12    az 1986    1.78   6.9 14107.33 60.28018 0.3715170  3.6910 4.57632
13    az 1987    1.72   6.2 14241.00 60.21506 0.3600000  3.6269 4.49442
14    az 1988    1.68   6.3 14408.08 60.49767 0.3464870  3.5640 4.41399
15    ar 1982    1.19   9.8 10267.30 54.47586 0.6503580 22.9672 0.32829
16    ar 1983    1.20  10.1 10433.49 53.81479 0.6754587 23.0009 0.34341
17    ar 1984    1.22   8.9 10916.48 54.67128 0.5989011 23.0346 0.35924
18    ar 1985    1.12   8.7 11149.36 54.97712 0.5773305 23.0684 0.37579
19    ar 1986    0.92   8.7 11399.38 55.56186 0.5624355 23.1022 0.39311
20    ar 1987    1.01   8.1 11537.00 56.33089 0.5450000 23.1361 0.41123
21    ar 1988    0.99   7.7 11760.35 57.36695 0.5245429 23.1700 0.43018

\(n\) entidades, \(T\) períodos

\(i\): uma entidade qualquer
\(n\): número total de entidades
\(t\): um período de tempo qualquer
\(T\): número total de períodos
\(Y_{it}\): variável \(Y\) da entidade \(i\) no período \(t\)
\(i = 1, 2, \ldots n\) = lista de entidades
\(t = 1, 2, \ldots T\) = lista de períodos

Nota

Um painel pode ser desbalanceado ou balanceado. Um painel é desbalanceado quando nem todas entidades são observadas em todos os períodos.

Como painel pode nos ajudar?

A estrutura de dados em painel permite controlar por algumas variáveis omitidas mesmo quando não é possível incluí-las explicitamente na regressão:

Fatores que variam entre unidades mas não variam ao longo do tempo
Fatores que variam ao longo do tempo mas são comuns a todas as unidades

Dica

A regressão com efeitos fixos (1) é uma extensão da regressão múltipla que explora dados em painel para controlar variáveis que diferem entre entidades, mas permanecem constantes ao longo do tempo. Também podem ser incorporados à regressão os chamados efeitos fixos de tempo (2), que controlam variáveis não observadas que são constantes entre entidades, mas variam ao longo do tempo.

Modelo em diferenças (T=2)

Considere apenas o ano inicial (1982) e o final da amostra (1988).
Podemos estimar a regressão a partir das variações no período:

\[ \Delta \text{FatalityRate}_i = \beta_0 + \beta_1 \Delta \text{BeerTax}_i + u_i \]

em que: \(\Delta X_i = X_{i,1988} - X_{i,1982}\)

Este é o modelo de regressão em diferenças.
Ele controla implicitamente por todos os fatores que variam entre estados, mas são constantes ao longo do tempo.

Intuição do modelo de diferenças

Suponha que a taxa de fatalidade em 1982 e 1988 seja determinada por: \[\text{FatalityRate}_{i,1982} = \color{green}{\beta_{0,1982}} + \color{blue}{\beta_1 \, \text{BeerTax}_{i,1982}} + \color{red}{\beta_2 Z_i} + \color{brown}{u_{i,1982}}\]

\[ \text{FatalityRate}_{i,1988} = \color{green}{\beta_{0,1988}} + \color{blue}{\beta_1 \, \text{BeerTax}_{i,1988}} + \color{red}{\beta_2 Z_i}+ \color{brown}{u_{i,1988}} \]

Subtraindo a primeira equação da segunda: \[\begin{aligned} \Delta \text{FatalityRate}_i &= \color{green}{(\beta_{0,1988} - \beta_{0,1982})} + \color{blue}{\beta_1 \, \Delta \text{BeerTax}_i} + \color{brown}{(u_{i,1988} - u_{i,1982})} \\ &= \beta_0 + \beta_1 \, \Delta \text{BeerTax}_i + u_i\end{aligned}\]

O modelo em diferenças elimina o efeito de \(Z_i\), pois ele não varia no tempo!

Hipótese de identificação

Hipótese de identificação:

Qualquer mudança na taxa de fatalidade de 1982 a 1988 não pode ser causada por \(Z_i\), pois assumimos que \(Z_i\) não muda entre 1982 e 1988. Ou seja, por hipótese, \(E(u_{it} \mid \text{BeerTax}_{it}, Z_i) = 0\).

Modelo em diferenças (T=2)

Modelo de diferenças geral é dado por:

\[ \Delta Y_i = \beta_0+\beta_1 \Delta X_i+ \gamma_1W_{1i}+ ... \gamma_kW_{ki} + u_i \]

\(X_i\) é o regressor ou tratamento de interesse
\(W_{1i}, W_{2i}, ... W_{ki}\) são as variáveis de controle que variam no tempo
Inferência estatística seguem como na regressão usual.
A estimação da variância e desvio-padrão será tratada na próxima aula

Fatalidades de trânsito e álcool: o modelo de diferença

O modelo de efeitos fixos (T>2)

\[ Y_{it} = \color{red}{\alpha_i} + \beta_1 X_{it} + u_{it} \]

\(\alpha_i =\) efeito fixo de unidade (ou intercepto específico da unidade)
Pode ser usado com qualquer \(T > 2\)

Uma forma equivalente de representá-lo: \[ Y_{it} = \color{red}{\gamma_1 D1_i + \gamma_2 D2_i + \cdots + \gamma_n Dn_i} +\beta_1 X_{it}+ u_{it} \] onde:

\[D1_{i} = \begin{cases} 1, & \text{para } i=1, \\ 0, & \text{para } i \neq 1. \end{cases} \]

Derivação do modelo de efeito fixo

Qual a lógica por traz do modelo de efeito fixo?

Comece com o seguinte modelo de regressão: \[ Y_{it} = \color{blue}{\beta_0 + \beta_2 Z_i} + \beta_1 X_{it} + u_{it} \]

\(Z_i =\) é uma variável constante específica da unidade
Seja \(\color{red}{\alpha_i} = \color{blue}{\beta_0 + \beta_2 Z_i}\)

Logo: \[ Y_{it} = \color{red}{\alpha_i} + \beta_1 X_{it} + u_{it} \]

Intuição do modelo de efeito fixo

Consideremos apenas 3 estados para facilitar: CA, TX, MA.

Para cada estados, haverá uma reta de regressão:

\[ \begin{aligned} Y_{CA,t} &= \alpha_{CA} + \beta_1 X_{CA,t} \\ Y_{TX,t} &= \alpha_{TX} + \beta_1 X_{TX,t} \\ Y_{MA,t} &= \alpha_{MA} + \beta_1 X_{MA,t} \end{aligned} \]

Desvios da média (demean)

O modelo de efeito fixo: \[ \color{green}{Y_{it}} = \color{red}{\alpha_i} + \color{blue}{\beta_1}\color{green}{X_{it}} + \color{green}{u_{it}} \]
Se calcularmos a média ao longo do tempo \((\sum_{t=1}^{T}/T)\), temos: \[ \color{brown}{\bar{Y}_i} = \color{red}{\alpha_i} + \color{blue}{\beta_1} \color{brown}{\bar{X}_i} + \color{brown}{\bar{u}_i} \]
Subtraindo a primeira equação da segunda:\[ (\color{green}{Y_{it}} - \color{brown}{\bar{Y}_i}) =\color{blue}{\beta_1} (\color{green}{X_{it}} - \color{brown}{\bar{X}_i}) + (\color{green}{u_{it}} - \color{brown}{\bar {u}_i}) \]
Definindo \(\;\color{red}{\tilde{Y}_{it}} = \color{green}{Y_{it}} - \color{brown}{\bar{Y}_i}\) (e fazendo o mesmo para \(X\) e \(u\)):\[ \color{red}{\tilde{Y}_{it}} = \color{blue}{\beta_1} \color{red}{\tilde{X}_{it}} +\color{red}{\tilde{u}_{it}} \]

Desvios da média (cont.)

Resultados do slide anterior implicam que:

O coeficiente \(\beta_1\) estimado por efeito fixo pode ser obtido fazendo-se a regressão de “demeaned” \(Y\) em “demeaned \(X\), onde “demeaned” significa subtrair a média específica de cada unidade.
Ou seja, trabalhamos com as variáveis \(Y\) e \(X\) como desvios de suas médias específicas de cada unidade.

Estimação Efeitos Fixos

Três métodos de estimação:

Regressão MQO com n-1 dummies de unidade; ou
- Regressão MQO com n dummies de unidade, sem intercepto
Regressão MQO com desvios da média por entidade (“entity-demeaned”)
Especificação de diferenças, sem intercepto (funciona apenas para T = 2)

Estes três métodos produzem estimativas idênticas dos coeficientes de regressão e dos erros-padrão.

Já usamos a especificação de “diferenças” (1988 menos 1982) – mas funciona apenas para T = 2 anos.
Os métodos #1 e #2 funcionam para qualquer número de períodos (T).
O método #1 é prático apenas quando n não é muito grande.

Diferenças vs efeito fixo

Especificação do modelo em diferenças (1982-1988):

Especificação de efeito fixo:

Aplicação em finanças corporativas

Motivação: Como empresas decidem investir?

Quanto uma empresa investe depende de dois fatores principais:

Fluxo de caixa disponível – o dinheiro que a empresa pode usar sem recorrer a financiamento externo.
Oportunidades de investimento – projetos lucrativos que a empresa pode perseguir.

Observação: Mais caixa e mais oportunidades → mais investimento.

🤔 Pergunta Empírica

Qual é o efeito do fluxo de caixa e das oportunidades de investimento sobre o nível de investimento das empresas?