As propriedades distributivas dos estimadores de Mínimos Quadrados Ordinários

    

    No artigo anterior, derivamos e explicamos os estimadores de Mínimos Quadrados Ordinários, nesse artigo iremos discorrer sobre a suas propriedades estatísticas.

    Como vimos no artigo anterior, os estimadores de MQO, para uma regressão com uma variável independente e uma variável dependente são dados por:

 

    Discorremos anteriormente que para chegar nesse cálculo temos que achar os valores de beta que tornam a soma dos erros quadráticos mínimos. Dado isso, vale discorrer sobre as propriedades amostrais desses estimadores.

    Antes de tudo, vale destacar um ponto: os estimadores de MQO não são "fixos", mas variam, sendo função do conjunto amostral! Ao se observar pela primeira vez os estimadores de beta, dá a ilusão de valores fixos, mas a realidade é que eles são função da amostra, se aplicarmos os métodos de MQO em duas amostras diferentes não iremos obter os mesmos valores de beta, ainda que sejam provavelmente muito próximos. Como todo estimador, os estimadores de MQO estão sujeitos a variação amostral.

    A primeira propriedade relevante de um estimador é obviamente, a da média. Vamos relembrar que estamos falando de estimadores, uma das propriedades dos estimadores é que eles devem ser não enviesados, ou seja, que  o valor esperado do estimador seja igual ao parâmetro, tal que:

    Afirmar isso significa dizer que mesmo com as variações, o estimador "na média" está certo, ou seja, ele não sofre de viés. Isso será comprovado matematicamente ainda nesse artigo.

    Dada a noção de que um estimador não é enviesado, faz-se necessário compreender a sua precisão. Conforme se estuda em inferência, a precisão de um estimador é medida pelo seu desvio padrão, tal que, quanto menor for a dispersão (desvio padrão), maior será a sua precisão. Para tomar como exemplo, suponha dois estimadores para uma mesma variável, ambas com a média igual ao valor real do parâmetro, qual seria a mais confiável? Se a dispersão é o indicador de confiabilidade, então iremos preferir trabalhar com o estimador que tiver a menor dispersão. Chamando um estimador de Beta 2 (MQO) e comparando com um estimado Beta 2 qualquer, e plotando o histograma de distribuição dos dois estimadores, a situação que teriamos é:

    A linha traçada é a distribuição de um beta 2 qualquer, e como você observa, a sua curva de distribuição é muito mais "plana" do que o beta 2 da linha sólida, que é o beta 2 de MQO, cujos valores da média estão muito menos dispersos.

    Dada a importância de saber qual a dispersão de um estimador, para conhecer a sua precisão, vamos agora descobrir como calcular a dispersão dos estimadores de MQO. Mas antes de chegarmos a variância dos estimadores, precisamos deduzir a sua média, para demonstrar que ele primeiro é não enviesado.

ALERTA: Se você quer fugir do matematiquês e ir direto para os resultados, não tem problema, mas é importante para um bom economista compreender o porque de determinados resultados, portanto, segue sendo recomendada a dedução matemática. 


    Começando pela média do beta 2, temos inicialmente que:


     Que pode ser escrita como:

    Para se chegar a esse resultado, partimos de:

         

    Sabido disso, retomaremos o nosso estimador em termos de beta 2:

 

     Vamos transformar beta 2 em uma função explicita de Y, transformando os valores referentes a X em um peso K, através da seguinte manipulação algébrica:

    Tal que:

    Logo, obtemos:

    Nessa forma funcional, temos beta 2 estimado como uma função linear de Y, dado uma série de pesos K. Essa relação será importante quando formos tratar do teorema de Gauss-Markov, mas no que tange ao presente artigo, basta aceitar que beta 2 é função linear de Y. Podemos interpretar que beta 2 é uma média de Y ponderada pelos valores de K.

    Esses pesos K tem propriedades que são relevantes para a análise, a primeira é derivada daquelas hipóteses que tratamos no modelo de Regressão Linear Simples Clássico, a de que X é não-aleatória. Se K é função de X então K também é não-aleatória.

    A segunda propriedade é que a soma dos K é nula, isso surge pois:


     E como:

 

    Então:

 

     A terceira propriedade é que a soma quadrática dos K é igual ao inverso da soma dos desvios quadráticos de X, isso surge pois:

 A quarta e última propriedade é que:

Por outro lado:


E pela segunda propriedade, temos que:


 Logo:


    Temos então essas 4 propriedades, que podem ser resumidas por:

    Sabidas essas 4 propriedades, podemos deduzir a média e o desvio padrão de beta 2.

    Retomando a forma funcional de beta 2 que tratamos:

 

     Substituindo Y pela FRP:

    Distribuindo:

    Dado que os betas são constantes:

    Aplicando as propriedades vistas:


     Com isso temos:

 

     Aplicando a função esperança dos dois lados da igualdade:

    Dado que:

    Temos então:

 

     Para que o nosso estimador seja não enviesado é preciso que:

    Isso de fato ocorre pois como K é não aleatório, então ele é uma constante na função esperança, tal que temos:


    Como a soma dos erros é igual, então o segundo termo é zerado, tal que temos finalmente a prova de que beta é não enviesado, pois:

    Agora, vamos provar que o estimador beta 1 é não enviesado.

    Para isso, partiremos inicialmente de:


    Que é a definição de beta 1.

    Para trabalhar, iremos partir da definição da Função de Regressão Populacional, que é:

    Em forma de soma:

    Para obtermos a média de Y basta dividir tudo por n:

    Naturalmente:

 

    Substituindo essa relação na função que define o estimador de beta 1:

    Rearranjando:

    A partir disso, podemos encontrar a media do estimador beta 1, aplicando a função esperança dos dois lados da igualdade:

    Naturalmente:

    Logo temos que:

    Portanto, está provado que os dois estimadores de beta são não enviesados.

    Agora, iremos tratar da variância dos estimadores, começando pelo estimador de beta 2. Antes disso, vale relembrar que a variância de uma variável aleatória é dada por:

    No caso de beta 2:

    Como visto:

    Logo:

 

    Como vimos:

 

    Rearranjando:

 

    Tal que:

    Pela propriedade dos binômios, temos que:

     Para resolver isso, precisaremos de duas relações essenciais:

   

    Partindo delas:

    Importante observar que esse valor sigma quadrado que aparece na fórmula é o desvio padrão dos erros, no caso, um parâmetro, que conforme veremos na frente, pode ser estimado.

    Retomando, dado que:

    Então:

       Naturalmente:


     Dado que obtemos os resultados da variância e do desvio do beta 2, vamos repetir o mesmo processo para obter as variáveis de dispersão referentes ao beta 1.

    Partindo de: 


     Temos então:

    Sabido que:

     Temos então:

 

    Manipulando algebricamente:

    Aplicando o famoso produto notável (A-B)²= A² - 2AB + B²:

    Com essa fórmula em mente, vamos aplicar a propriedade da soma das esperanças:

    Calculando individualmente obtemos:

    O último termo requer uma atenção especial, observe:

   

    Se você se lembrar, temos que:

    E aqui está o segredo para descobrirmos a resposta, com uma breve manipulação temos:

    E se você se lembra bem do que foi trabalhado para descobrir a média de beta 2, o termo k é dado por:

    Portanto, nossa relação pode ser dada por:

    Substituindo na função anterior:

    Como:

   

     Temos portanto:


    Faremos uma pequena alteração:

    Com isso, tiraremos o n da função esperança, da seguinte maneira:

    Resolvendo os valores dentro da função esperança:

    Preste atenção ao índice do somatório! O domínio da ferramenta do operador somatório é essencial para aprender estatística. Caso você não tenha compreendido, revise. Mas a ideia é simples, quando i = j então:

    Logo, temos dois somatórios, um para quando o índice coincide e outro para quando não coincide.

    Tenha calma, estamos chegando ao fim!

    Para resolver esses somatórios partimos das seguintes propriedades:

    Com isso:

    Portanto, temos:

     Agora vem a parte que você se sente um palhaço, como o somatório dos desvios é igual a zero, então toda essa expressão zera!

    Trazendo de volta a memória:

 

     Podemos reescrever como:

 

        Sabendo que:

 

     Novamente aplicando a seguinte relação:

  

    Passamos a ter:

 

    Como:

 

    Passamos então a obter:


     Trazendo de volta a notação de desvio quadrático:

    Resolvendo:

    Então obtemos, finalmente:

 

    Por natureza:


     Agora sim você pode descansar, jovem gafanhoto, você derivou as propriedades distributivas dos estimadores de mínimos quadrados ordinários!

    Se você pulou o matematiquês e quer saber o resultado, aqui está:

    Sobre esses resultados, vale fazer algumas observações.

    Primeiro, é óbvio que as medidas de dispersão dos estimadores são função dos valores amostrais.

    Segundo e mais importante, você deve ter observado que existe um elemento comum a essas quatro medidas: um termo de variância σ², de onde esse termo vem?

    Esse termo de termo de variância σ² nada mais é do que a variância do termo de erro e, que como vimos no artigo sobre as hipóteses do Modelo de Regressão Linear Simples Clássica, se trata de um valor constante (homocedástico). Observe que:

    Entretanto, temos um problema (repetido): esse valor não pode observado, necessitando da utilização de um estimador, de novo. Para fins didáticos, vamos novamente representar as propriedades distributivas do estimador que vamos trabalhar (media e desvio padrão). Assim como na questão dos estimadores de MQO, recomendamos que você acompanhe a dedução, mas caso você não tenha interesse e queira pular o matemátiquês, sinta-se livre para isto. 

    A primeira propriedade de um estimador é a sua média, partindo do pressuposto de que um estimador deve ser não enviesado, esperamos que a média de um estimador seja igual ao seu parâmetro. Nesse ponto é importante diferenciarmos a variância do termo de erro e, do seu estimador, a variância dos resíduos ê.

    A fórmula dos resíduos ê, pode ser derivada da FRA:

    Relembrando a FRP:

    Pela fórmula dos desvios, que é obtida subtraindo pela média de Y dada por:

    Obtemos por fim:

    Em suma:

 

     Também aplicaremos a fórmula dos desvios na FRA para obter:

 

    Substituindo o desvio médio de Y pelo valor obtido na FRP:

 

    Pondo os desvios de X em evidência:

     

    Elevando tudo ao quadrado, para podermos trabalhar com o somatório (repare que se trata do produto notável (A-B)² = A² - 2AB + B²):

    Aplicando o somatório:

    Tirando a esperança: 

     Dado que:

    Como vimos:

    Tal que:

    Agora vamos tirar a a esperança do segundo termo:

    Partindo de:

    Passamos a ter:

    Dado que:

    Passamos a ter:

 

    Pela identidade apresentada anteriormente ao desenvolver os pesos k:

    Passamos a ter:

    Agora vamos desenvolver o terceiro termo:

    Com isso, temos:

    Para provar que o estimador da variância dos termo termo de erro é não enviesado:

    Como:

    Temos então:

 

      Fica então provado que temos um estimador para a variância dos termos de erro, e que esse estimador é não enviesado. Sabendo disso, podemos (finalmente) calcular os valores de dispersão dos parâmetros estimados de MQO, que são:


      Uma observação final sobre o estimador de σ² observe que que no denominador há um termo n- 2, que é chamado de graus de liberdade  que representa a quantidade de termos que são independentes de beta 1 e beta 2  na hora de calcular a soma dos erros quadráticos, isso será visto com mais destaque na hora de calcular as somas da regressão (SQE, SQR e SQT). 

    O numerador do estimador de σ², como veremos mais tarde, é chamado de Soma dos Quadrados dos Resíduos.

    Agora que já podemos calcular os valores de dispersão dos betas estimados, vamos fazer considerações finais sobre a natureza desses estimadores.

    Sobre o estimador da variância de beta 2, dado por:


     Como fica claro, a variância de beta 2 varia positivamente com a variância dos resíduos, tal que quanto maior a variância de Y, maior a variância do estimador beta 2. Por outro lado, quanto maior a variação de X, menor a variância do estimador beta 2. Há ainda um ponto que algumas pessoas costumam não observar: quanto maior o valor de n, menor a variância da beta 2, isso vem da ideia dos já mencionados graus de liberdade  n - 2, que, conforme aumenta o valor de n, a variância de Y é reduzida.

    Ao se estudar a teoria da estimação, há um ponto relevante: a consistência de um estimador, que nada mais é do que a maneira que um estimador reage ao tamanho da amostra, pois um estimador pode ser eficiente apenas para um tamanho determinado de amostra, e ineficiente conforme essa o tamanho dessa amostra tende para valores muito grandes ou pequenos. Quando um estimador reage de maneira satisfatória ao aumento indefinido do tamanho da amostra, dizemos que ele é consistente, ou que ele atende as propriedades assintóticas (ou de grandes números). Em termos de estatística, um estimador é consistente se a sua variância tende a zero, com o aumento do tamanho da amostra, no caso de beta 2, onde temos:

 

    Se dividirmos o denominador e o numerador por n, sem alterar o seu valor:


     Tendendo n ao infinito:

    Dado que:

 

    Logo:

 

    Ficando claro que beta 2 é consistente.

    Agora vamos discorrer sobre o estimador de beta 1 dado por:

    Assim como o beta 2, a variância do estimador de beta 1 aumenta com o aumento da variância dos erros e diminui com o aumento do tamanho da amostra. Para demonstrar que beta 1 é consistente, segue a demonstração das propriedades assintóticas:

    Resumindo tudo o que foi tratado nesse artigo, temos a seguinte tabela de resumo:


     Por fim, vale chamar atenção para um aspecto: os estimadores de beta são correlacionados entre si. Para observar isso, basta analisar a covariância entre os dois, que é dada por:

    O significado desse resultado não é tão importante por enquanto, mas é relevante guardar essa relação, pois será fundamental para entender o problema da multicolinearidade no futuro. Mas antecipando, como você pode ver, essa relação dependerá do valor da média de X, se essa for positiva, a covariância é negativa, caso contrário, ela é positiva. 

    Antes de encerrar, vamos por tudo em prática?

    Retomando o exemplo do artigo anterior:


    Como vimos no artigo anterior, a FRA dessa relação é dada por:

    Vamos calcular as medidas de dispersão, mas antes disso, vamos calcular os resíduos, que são os valores observados de Y e o valor previsto atráves da FRA, tal que:

    Como visto, a soma dos erros quadráticos é 60.808.

    Partindo disso, podemos calcular a variância dos resíduos:

 

    Com isso, podemos calcular as medidas de variação dos estimadores de MQO, mas para isso, precisamos dos valores expressos na tabela demonstrada no artigo anterior:

     Além disso, precisaremos da soma quadrática de x, que é igual a 59.036. tendo esses valores, podemos dizer que:

    Extra:

    Pode respirar, amigo, o artigo acaba por aqui, quanta coisa não? Mas tenha em mente que tudo isso será extremamente relevante no desenrolar da matéria! Principalmente no que tange a questão da heterocedasticidade e a execução de testes de hipóteses para testar a significância dos nossos modelos.

    No próximo artigo iremos demonstrar o teorema de Gauss-Markov e discorrer sobre a sua relevância.

Bibliografia:

GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.
 
 

Comentários