A média nula do termo de erro
A terceira hipótese nos diz que a média do termo de erro é igual a zero, ou seja:
Isso significa que em média o nosso modelo está certo, ou seja, que os valores em que o valor estimado supera o valor real são "anulados" pelos valores onde o valor estimado é inferior ao valor real.
Em uma visão mais profunda, essa hipótese traz um resultado muito importante, ela afirma que não há viés de especificação, algo que será trabalhado posteriormente, mas que em suma significa que não há variáveis relevantes omitidas no modelo.
Importante observar que essa hipótese tem um corolário, que nos diz que a média da variável dependente é igual a função de regressão populacional, tal que:
Ou seja, a Média do erro só é igual a zero se a média da variável dependente for linearmente relacionada a variável independente.
Para exemplificar, suponha o exemplo numérico:
X |
Y |
E(Y) |
Termo de erro (Y - E(Y)) |
2 |
4 |
4,18 |
-0,18 |
3 |
5,4 |
5,11 |
0,29 |
4 |
6 |
6,04 |
-0,04 |
5 |
6,9 |
6,97 |
-0,07 |
Média |
5,575 |
5,575 |
0,00 |
Observe como a média dos valores do termo de erro E(Y) - Y é igual a zero, pois os valores positivos ao somarem-se com os valores negativos deixam a média igual a zero.
A homocedasticidade do termo de erro
A hipótese da homocedasticidade do termo de erro diz respeito a variância do termo de erro. A hipótese em questão diz que a variância do erro é constante, ou seja, não varia conforme X varia.
A hipótese contrária é a da heterocedasticidade do termo de erro, que diz respeito a situação onde a variância varia conforme X varia.
Em linguagem matemática, a hipótese da homocedasticidade é dada por:
A ausência do subscrito sob o termo de variância implica constância. No caso de heterocedasticidade temos:
Visualmente, temos que uma situação onde há homocedasticidade é dada por:
Observe que o termo de erro para todos os valores fixados de X tem a mesma distribuição.
Já numa situação de heterocedasticidade isso não se observe, como pode ser observar pela seguinte visualização:
A questão da variação do termo de erro será extremamente importante no estudo da Econometria, portanto a quebra da condição de homocedasticidade terá consequências que serão observadas no futuro.
Ausência da auto-correlação do termo de erro
Essa hipótese supõe que não existe uma correlação sistemática entre os termos de erro, ou seja, tomando qualquer termo de erro temos que ele não é determinado por qualquer termo de erro anterior, ou seja:
Trata-se de uma suposição um pouco mais complicada de se compreender, a sua quebra implica na situação chamada de correlação serial, onde os termos de erro t são correlacionados aos termos de erro t-1, t-2, ..., t-n. Geralmente isso ocorre quando se trabalha com séries temporais.
O tamanho da amostra tem que ser maior que o número de variáveis
Essa proposição a primeira vista não parece tão relevante já que estamos trabalhando com apenas uma variável regressora, mas quando formos trabalhar com mais de duas variáveis é importante que o tamanho da amostra seja superior ao número de variáveis explicativas.
Ausência de outliers
Essa hipótese garante que não exista valores muito dispersos nem de X nem de Y, pois esses valores podem acabar causando distorções que tornam a análise ineficiente.
Em resumo, essas são as 7 preposições iniciais necessárias para se trabalhar com o Modelo de Regressão Linear Simples Clássico, e por conseguinte, para trabalhar com o Método dos Mínimos Quadrados Ordinários, que será trabalhado no próximo capítulo.
Ao longo do curso, vai ser observado que conforme se aprofunda na análise econométrica, vai sendo observando que muitas dessas hipóteses são quebradas, tornando necessário um certo tratamento por parte do analista.
Antes de concluir, vamos pincelar a consequência da quebra dessas hipóteses, sem aprofundar ainda.
A quebra da primeira hipótese, a da linearidade as vezes torna necessário o uso de métodos alternativos ao Método de Quadrados Ordinários.
Quanto a segunda hipótese, a dos regressores fixos, a sua quebra gera um problema onde tanto X quanto Y são estocásticas (aleatórias), resultando em um tratamento conhecido como Modelo de Regressão Linear Simples com Variáveis Estocásticas ou Modelo Neoclássico de Regressão Linear, que tem as propriedades bem próximas ao modelo clássico.
Quanto a terceira hipótese, a da média nula do termo de erro é quebrada se torna necessário um tratamento adicional ao método simples de análise, pois ele surge de uma situação chamada de viés de especificação, que ocorre quando o analista omite variáveis relevantes de dentro do modelo, ao fazer a análise empírica. Geralmente a ferramenta utilizada para contornar esse problema é o Método de Mínimos Quadrados Ordinários em Dois Estágios.
Quanto a quarta hipótese, a da homocedasticidade do termo de erro, ela é quebrada quando a regressão não é tão eficiente para todo o horizonte da amostra, ou seja, quando Y não prevê tão bem para todos os valores de X. Um exemplo disso é o consumo, pois a função de consumo C = C0 + cY explica bem como as famílias com até um certo nível de renda determinam a quantidade que irá consumir, mas não é tão eficiente para explicar como milionários determinam o quanto irão consumir, tendo então uma heterocedasticidade do consumo em relação a renda. Existem métodos como a sub-amostragem e manipulações algébricas que permitem contornar essa problemática.
Quanto a quinta hipótese, a quebra ocorre quando os termos de erro são correlacionados com os termos de erro anteriores, isso é muito comum quando se analisa séries temporais, onde valores passados costumam ser relevantes para determinar os valores futuros, como nas séries de PIB. Esse é o caso conhecido como correlação serial, a "solução" dessa questão exige um conhecimento de técnicas maciças de séries temporais.
Quanto a sexta hipótese, quando se trabalha com um grande número de variáveis, costuma ocorrer a problemática de ter mais variáveis que observações. Para solucionar esse problema geralmente são utilizados métodos de seleção de variáveis.
Quanto a sétima hipótese, a existência de outliers, geralmente derivada de problemas no momento de obter dados ou de erros humanos. Quando isso ocorre, os valores dos estimadores ficam distorcidos da realidade, para cima ou para baixo, geralmente para cima. Geralmente se faz uma analise sobre a viabilidade ou não de "aparar" esse outliers.
Bibliografia:
GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.
Comentários
Postar um comentário