As Hipóteses do Modelo de Regressão Linear Simples

    Analítica, Em Formação, Inovação, Comunicação, Big Data 

    No artigo anterior foi apresentado uma formulação matemática do Modelo de Regressão Linear Simples Clássico, onde foi definido a essência do modelo. Ao final do artigo, foi prometido que iríamos apresentar as hipóteses subjacentes a esse modelo, e a este fim se designa esse artigo.

    As hipóteses subjacentes ao Modelo de Regressão Linear Simples Clássico são as condições necessárias para que o modelo seja utilizável, ou seja, as restrições que aplicaremos para que os seus resultados sejam válidos e coerentes. No capítulo posterior, mostraremos como serão obtidos os resultados desse modelo através do Métodos dos Mínimos Quadrados Ordinários (MQO), partindo das hipóteses que aqui estabeleceremos.

    Em geral, são 7 hipóteses subjacentes a esse modelo, iremos discutir a razão da existência de cada um delas, assim como as consequências de sua quebra.

    Importante ressaltar que, diferentes livros textos podem apresentar essas hipóteses em diferentes ordens ou ressaltar uma ou outra hipótese sobre as demais. Nesse artigo utilizaremos como base o livro texto de Gujarati, listado na bibliografia.

    Vamos as hipóteses!

    Em resumo, as hipóteses são:

  1. A hipótese da linearidade entre as variáveis
  2. A hipótese da não-aleatoriedade dos regressores
  3. A média nula do termo de erro
  4. A homocedasticidade do termo de erro
  5. Ausência da auto-correlação do termo de erro
  6. O tamanho da amostra tem que ser maior que o número de variáveis
  7. Ausência de outliers 

    Agora, iremos explicar uma por uma:

A linearidade entre variáveis

    Essa é a hipótese mais simples, trata-se essencialmente da definição funcional da relação, que se trata de uma relação linear entre a variável dependente e os parâmetros, tal que:
 
    Já deliberamos sobre a natureza do termo linear no artigo anterior.

A hipótese da não-aleatoriedade dos regressores

    Essa hipótese exige uma certa atenção.
    Essa segunda hipótese nos diz que trabalharemos com valores não-aleatórios de X, ou seja, iremos trabalhar com valores fixo da variável regressora X. Importante se atentar a essa suposição porque ela já traz uma diferença entre duas familiar diferentes de modelos de regressão linear: (1) O Modelo Linear de Regressão com Regressores Fixos, que satisfaz essa hipótese; (2) O Modelo Linear de Regressão com Regressores Estocásticos, que quebra essa hipótese, supondo aleatoriedade da variável independente.
    Visualmente, temos que a hipótese de regressores fixos nos diz que:
    Ou seja, a variável de saída Y é aleatória, mas o mesmo não pode-se dizer de X, que será trabalhado com valores fixos (X1,X2,...,Xn). Isso é uma simplificação da realidade, de facto, pois nos experimentos naturais, geralmente temos tanto Y quando X sendo aleatórios. Para trabalhar nesse ambiente de ambas as variáveis sendo estocásticas, precisaremos ter hipóteses adicionais, que não se fazem necessárias agora, portanto, para fins didáticos manteremos a suposição de que as variáveis X são fixas.
    Um exemplo disso na realidade é o caso onde queiramos estudar a relação entre o nível de renda de um grupo de agentes e o seu gasto com saúde.
    Ao invés de trabalharmos com a hipótese de que a renda dos agentes é aleatória com uma média e desvio padrão, iremos fixar valores de renda, como R$1.000,00 e R$2.000,00, para analisar a característica da distribuição de gastos com saúde de cada nível de renda.
    Ou seja, ao invés de analisarmos a distribuição global de todos os níveis de renda, iremos analisar a distribuição do nível de renda para X1 = R$1.000,00 e X2 = R$2.000,00 e sucessivamente.

A média nula do termo de erro

     A terceira hipótese nos diz que a média do termo de erro é igual a zero, ou seja:
    Isso significa que em média o nosso modelo está certo, ou seja, que os valores em que o valor estimado supera o valor real são "anulados" pelos valores onde o valor estimado é inferior ao valor real.
    Em uma visão mais profunda, essa hipótese traz um resultado muito importante, ela afirma que não há viés de especificação, algo que será trabalhado posteriormente, mas que em suma significa que não há variáveis relevantes omitidas no modelo.
    Importante observar que essa hipótese tem um corolário, que nos diz que a média da variável dependente é igual a função de regressão populacional, tal que:
     
    Ou seja, a Média do erro só é igual a zero se a média da variável dependente for linearmente relacionada a variável independente.
    Para exemplificar, suponha o exemplo numérico:
 
X Y E(Y) Termo de erro (Y - E(Y))
2 4 4,18 -0,18
3 5,4 5,11 0,29
4 6 6,04 -0,04
5 6,9 6,97 -0,07
Média 5,575 5,575 0,00
 

    Observe como a média dos valores do termo de erro E(Y) - Y é igual a zero, pois os valores positivos ao somarem-se com os valores negativos deixam a média igual a zero. 

A homocedasticidade do termo de erro

    A hipótese da homocedasticidade do termo de erro diz respeito a variância do termo de erro. A hipótese em questão diz que a variância do erro é constante, ou seja, não varia conforme X varia.
    A hipótese contrária é a da heterocedasticidade do termo de erro, que diz respeito a situação onde a variância varia conforme X varia.
    Em linguagem matemática, a hipótese da homocedasticidade é dada por:
 
    A ausência do subscrito sob o termo de variância implica constância. No caso de heterocedasticidade temos:
    Visualmente, temos que uma situação onde há homocedasticidade é dada por:
 
    Observe que o termo de erro para todos os valores fixados de X tem a mesma distribuição.
    Já numa situação de heterocedasticidade isso não se observe, como pode ser observar pela seguinte visualização:

    A questão da variação do termo de erro será extremamente importante no estudo da Econometria, portanto a quebra da condição de homocedasticidade terá consequências que serão observadas no futuro.

Ausência da auto-correlação do termo de erro

    Essa hipótese supõe que não existe uma correlação sistemática entre os termos de erro, ou seja, tomando qualquer termo de erro temos que ele não é determinado por qualquer termo de erro anterior, ou seja:
    Trata-se de uma suposição um pouco mais complicada de se compreender, a sua quebra implica na situação chamada de correlação serial, onde os termos de erro t são correlacionados aos termos de erro t-1, t-2, ..., t-n. Geralmente isso ocorre quando se trabalha com séries temporais.

O tamanho da amostra tem que ser maior que o número de variáveis

    Essa proposição a primeira vista não parece tão relevante já que estamos trabalhando com apenas uma variável regressora, mas quando formos trabalhar com mais de duas variáveis é importante que o tamanho da amostra seja superior ao número de variáveis explicativas.

Ausência de outliers

    Essa hipótese garante que não exista valores muito dispersos nem de X nem de Y, pois esses valores podem acabar causando distorções que tornam a análise ineficiente.
 

    Em resumo, essas são as 7 preposições iniciais necessárias para se trabalhar com o Modelo de Regressão Linear Simples Clássico, e por conseguinte, para trabalhar com o Método dos Mínimos Quadrados Ordinários, que será trabalhado no próximo capítulo.

    Ao longo do curso, vai ser observado que conforme se aprofunda na análise econométrica, vai sendo observando que muitas dessas hipóteses são quebradas, tornando necessário um certo tratamento por parte do analista.

    Antes de concluir, vamos pincelar a consequência da quebra dessas hipóteses, sem aprofundar ainda.
    
    A quebra da primeira hipótese, a da linearidade as vezes torna necessário o uso de métodos alternativos ao Método de Quadrados Ordinários.
    Quanto a segunda hipótese, a dos regressores fixos, a sua quebra gera um problema onde tanto X quanto Y são estocásticas (aleatórias), resultando em um tratamento conhecido como Modelo de Regressão Linear Simples com Variáveis Estocásticas ou Modelo Neoclássico de Regressão Linear, que tem as propriedades bem próximas ao modelo clássico.
    Quanto a terceira hipótese, a da média nula do termo de erro é quebrada se torna necessário um tratamento adicional ao método simples de análise, pois ele surge de uma situação chamada de viés de especificação, que ocorre quando o analista omite variáveis relevantes de dentro do modelo, ao fazer a análise empírica. Geralmente a ferramenta utilizada para contornar esse problema é o Método de Mínimos Quadrados Ordinários em Dois Estágios.
    Quanto a quarta hipótese, a da homocedasticidade do termo de erro, ela é quebrada quando a regressão não é tão eficiente para todo o horizonte da amostra, ou seja, quando Y não prevê tão bem para todos os valores de X. Um exemplo disso é o consumo, pois a função de consumo C = C0 + cY explica bem como as famílias com até um certo nível de renda determinam a quantidade que irá consumir, mas não é tão eficiente para explicar como milionários determinam o quanto irão consumir, tendo então uma heterocedasticidade do consumo em relação a renda. Existem métodos como a sub-amostragem e manipulações algébricas que permitem contornar essa problemática.
    Quanto a quinta hipótese, a quebra ocorre quando os termos de erro são correlacionados com os termos de erro anteriores, isso é muito comum quando se analisa séries temporais, onde valores passados costumam ser relevantes para determinar os valores futuros, como nas séries de PIB. Esse é o caso conhecido como correlação serial, a "solução" dessa questão exige um conhecimento de técnicas maciças de séries temporais.
    Quanto a sexta hipótese, quando se trabalha com um grande número de variáveis, costuma ocorrer a problemática de ter mais variáveis que observações. Para solucionar esse problema geralmente são utilizados métodos de seleção de variáveis.
    Quanto a sétima hipótese, a existência de outliers, geralmente derivada de problemas no momento de obter dados ou de erros humanos. Quando isso ocorre, os valores dos estimadores ficam distorcidos da realidade, para cima ou para baixo, geralmente para cima. Geralmente se faz uma analise sobre a viabilidade ou não de "aparar" esse outliers.
 
 

Bibliografia:

GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.

Comentários