O Método dos Mínimos Quadrados Ordinários


Mercado De Ações, Gráficos, Negociação, Gamestop, Amc

    Nas últimas publicações tratamos de formalizar o Modelo de Regressão Linear Clássico e de apresentar as suas hipóteses, na publicação de hoje iremos trabalhar com ele na prática, estudando o seu método principal.

    Como pincelamos anteriormente, o modelo de regressão linear clássico tem como objetivo estudar a relação entre duas variáveis, analisando como a média da variável explicada é afetada pela média da variável explicativa, visando encontrar correlação entre ambas. Também mostramos que como se trata da um modelo linear simples essa relação é dada por:


    Como falamos anteriormente, o ponto principal dos modelo de regressão é estimar os parâmetros beta 1 e beta 2. Na formulação de estimação então, temos:

    Essa estimação será feita através de duas técnicas: o Método de Mínimos Quadrados Ordinários (MQO) e o Método de Máxima Verossimilhança (MV).

    Nesse artigo, iremos apresentar dos mínimos quadrados ordinários.

ALERTA: Para deduzir a modelagem dos mínimos quadrados é preciso ter conhecimento em cálculo numérico, mais especificamente em derivação parcial, geralmente tratado em cursos de Cálculo II.

Hipóteses 

    No artigo anterior apresentamos as hipóteses que o Modelo de Regressão Linear Clássico utiliza. Essas hipóteses serão adotadas aqui para que os valores dos estimadores de MQO sejam válidos e consistentes. Vamos relembrar as hipóteses?
 
  1. Há uma relação de linearidade nos parâmetros
  2. A média do termo de erro é nula (E(e) = 0 se E(Y) = BX)
  3. Os regressores são fixos (não-estocásticos)
  4. A homocedasticidade do termo de erro (variância fixa)
  5. A ausência da auto-correlação entre erros
  6. A amostra é maior que o número de variáveis (no caso, há pelo menos 3 observações de Y e X)
  7. Não há outliers 

    Para relembrar as propriedade dessas hipóteses, leia o artigo anterior.

  O Método dos Mínimos Quadrados Ordinários

     Bem, antes de tudo, vamos relembrar o instrumental utilizado pela análise de regressão: a estimação parâmetros.
    A estimação de parâmetros é um campo estudado em cursos de estatística 2 (para entender a lógica da estimação ler Estatística Básica de Bussab e Morettin) que estuda o que são estimadores e quais suas propriedades. Para fins de didática, vale definir o que é um parâmetro e o que é um estimador.
    A diferença entre parâmetro e estimador deriva de outra diferença, a entre população e a amostra. Uma população é o total de dados de uma determinada variável, por exemplo, a população do território brasileiro é uma população (dã?) composta por todos aqueles que vivem no território brasileiro, a amostra por sua vez é apenas um pedaço da população que o analista tem a disposição para estudo, como por exemplo, 100 mil brasileiros, que não são toda a população do Brasil, mas sim uma amostra.
    A grande questão é que, a partir da análise de população é possível estimar os parâmetros dessa população, como a média, o desvio padrão, a variância e etc.
    Acontece que na maioria das vezes, o pesquisador não tem a sua disposição toda a base de dados populacional, sendo limitado a apenas uma amostra dessa população. O grande desafio da inferência estatística reside em tentar descobrir o valor dos parâmetros a partir de estimadores. A ideia é que os estimadores são poderosas ferramentas para tentar descobrir o valor real de uma determinada variável como a média populacional ou o desvio padrão.
    Para exemplificar, segue um quadro:
 
     
    Os estimadores tem propriedades importantes com quais é possível avaliar a sua qualidade, já que existem vários estimadores possível para várias variáveis. Essas propriedades serão relembradas ao se analisar se os estimadores de MQO satisfazem ou não essas condições.
     
    Mas por que relembrar isso? Bom, se você leu o artigo sobre a natureza da análise de regressão você observou que há uma diferença entre a Função de Regressão Populacional e a Função de Regressão Amostral, e você observou que a Função de Regressão Amostral é uma tentativa de estimar a verdadeira Função de Regressão Populacional, certo? Aqui tá a charada, o método dos mínimos quadrados ordinários é uma tentativa de estimar os parâmetros da Função de Regressão Amostral de tal maneira que sejam o mais próximo possível dos valores reais dos parâmetros contidos na Função de Regressão Populacional.
    Foquemos agora no termo "o mais próximo possível", o que pode ser pensado como o "melhor". O fato é que existem inúmeros valores possíveis para os estimadores mas existem valores que são melhores do que outros, sabendo disso, o ponto principal agora é encontrar os melhores valores.
 
    Para pensar em termos de "melhor" ou "pior" é preciso ter algum parâmetro para julgamento.
 
    Agora pensemos juntos, o que torna um modelo de previsão melhor ou pior? A sua capacidade de previsão, ou pensando de outra maneira, os erros que ele comete, quanto menor forem esses erros, melhor o modelo é. Em econometria os erros (no caso chamaremos de resíduos) são dados pela distância entre o valor estimado (FRA) e o valor real (FRP), tal que, o erro é dado por:
 
    Se prepare, pois esse é o momento que o cálculo diferencial entre em cena, ou talvez ainda não? Vamos com calma.
    Bom, vamos primeiro a lógica, temos uma situação onde precisamos obter o menor valor possível de uma determinada variável, o erro. Se você já estudou cálculo diferencial sabe que é o cálculo que oferece a ferramenta capaz de encontrar valores ótimos para funções, através do processo de otimização. Sabendo disso, temos uma informação importantíssima para encontrar os valores ótimos para os parâmetros: os valores de MQO ótimos são aqueles que minimizam o erro.
    Para isso, temos que ter em mente duas coisas, primeiro: se você observar, a equação trabalhada acima tem índices, o que aponta que para cada observação i temos diferentes valores de X, de Y, de Y estimado e de resíduo e, para fins de MQO estaremos trabalhando com a soma desses valores, ou seja, o total de erros de todas as observações do modelo. Segundo, temos um fato que impossibilita que usemos a soma dos valores do resíduo e como parâmetro de otimização, a questão de que a média dos erros é igual a zero (ver hipótese 2), ou seja:
    O problema é que se a média do erro é sempre zero, então é impossível discernir qual modelo é pior ou melhor. Entretanto, há uma maneira de contornar isso, elevando essa soma ao quadrado de tal maneira que os valores positivos e negativos parem de se anular na soma. 
    Feitas as considerações, podendo enfim definir com precisão a lógica do nosso método, temos agora que o MQO irá encontrar os valores ótimos para os parâmetros da Função de Regressão Amostral com base na soma dos quadrados dos erros, tentando minimizar a distância entre os valores estimados e os valores reais de Y, dai o nome de Mínimos Quadrados.
    Pondo em linguagem matemática, temos:
 
    Agora, vamos aos cálculos.
    
    Se você já estudou cálculo 2 sabe que se trata de uma situação de otimização através de derivação parcial, e nessas situações há um processo a ser seguido. Esse processo consiste em duas etapas, primeiro obter o vetor gradiente que é dado pela derivação da variável dependente em função de todas as variáveis especificadas, ou seja:
   
    No nosso caso, o vetor gradiente da função de soma dos erros quadráticos é dado por:
 
    A segunda etapa consiste em igualar o vetor gradiente a zero, de tal maneira que gere o seguinte sistema:
    Então, vamos ao primeiro passo, montar o vetor gradiente:

    Primeiro vamos derivar a função de soma dos erros em função do termo de intercepto (beta 1).
    Partindo de:
    Isso ocorre graças a regra da cadeia, que faz que para obtermos a derivada com respeito a beta multiplicando a derivada da função da soma de erros quadráticos em função da soma dos erros com a derivada da função de soma dos erros em função de beta 1.
    O resultado naturalmente é:


    Agora vamos derivar com respeito a beta 2, segundo a mesma regra da cadeia, temos que:

    Que é dado por:

    Temos então o vetor gradiente da função de soma de erros quadráticos, que é dada por:
    Podemos ir então para o passo 2, que é igualar o vetor gradiente a zero, no caso:
    Agora iremos igualar as duas equações a zero, começando pela primeira:

 
    Agora fazendo o mesmo com a equação 2:
 
 
 
    Substituindo o valor de beta 1 em beta 2:
 
    Temos então os dois resultados para os estimadores de Mínimos Quadrados Ordinários: 

    Esses dois valores de beta são aqueles que tornam os erros quadráticos os menores possíveis, e para exemplificar isso, vamos fazer uma análise de um banco de dados simplificados (12 amostras) e demonstrar na prática. Usaremos o Microsoft Excel para fins de melhor visualização. 
    
    O exemplo será o seguinte, considere que um comerciante resolveu analisar por 12 meses qual a relação entre o preço do quilo do pão carioca e a quantidade de pães vendidos, visando estimar uma função de demanda e analisar o comportamento do padrão de consumo dos seus clientes.
    Ao analisar essa relação o comerciante obteve a seguinte tabela:
    A primeira coisa a enxergar é o gráfico de dispersão, que plota a relação entre a o preço do pão e a quantidade de pães vendidos, no caso temos:
 
    Como enxergamos, conforme o preço do pão aumenta, em média a quantidade de pães vendidos cai, o nosso trabalho é estimar o grau dessa relação, partindo de um modelo dado por:
 
    Podemos chegar aos valores de beta 1 e beta 2 a partir do método dos mínimos quadrados ordinários. Primeiro iremos calcular o coeficiente de inclinação, o beta 2. Por que calcular primeiro o beta 2? Pelo fato de que o beta 2 não precisa do beta 1 para ser calculado, entretanto, o beta 1 precisa do beta 2 para ser calculado.
    Enfim, temos o beta 2 dado por:

     Vamos voltar ao Excel e calcular primeiro o desvio médio de x e y, depois calcular o desvio cruzado entre x e y e depois o desvio quadrático de x, assim obteremos o valor de beta 2.
    Em suma, temos:
    Então:
    Naturalmente, para beta 1:
 
    Agora temos um modelo dado por:
     
    Tendo esse modelo em mão, vamos estudar ele e depois vamos entender a sua "qualidade" e comparar com outros modelos com outros parâmetros.
 
    Vamos a interpretação, o primeiro ponto a se entender é que esse modelo é um modelo de previsão, ou seja, ele tenta com base em um valor de X, no caso, o preço dos pães, determinar qual será a previsão de venda dos pães. Como você pode ver, ela tem um coeficiente de angulação negativo, o que implica que conforme o preço dos pães sobre, a quantidade de pães vendidos caiem, e vice-versa.
    O coeficiente linear nem sempre tem significado prático, aqui isso fica claro. Se você "forçar" você pode interpretar que quando o preço dos pães é zero então a demanda por pães é 3.514, o que não é lá muito realista.
    O coeficiente angular por sua vez simboliza a magnitude do impacto que uma variação marginal do preço do pão tem na demanda por pão. A ideia é que se o preço do pão subir em 1 real, a demanda por pães em em cerca de 320 pães, tal que uma elevação de 10 centavos no pão é capaz de reduzir em 32 a demanda por pão.
    Uma maneira simples de entender esse modelo que acabamos de definir é plotando ele sobre o gráfico de dispersão, relevando como essa função se ajusta aos dados:

 
    Como se pode ver, a Função de Regressão se Ajusta aos dados.
    Agora, vamos falar sobre a qualidade do modelo, como visto, o modelo de MQO fornece os melhores estimadores de beta, pois oferece os estimadores com a menor soma dos erros quadráticos, e para visualizar isso, vamos demonstrar por indução, supondo o mesmo modelo com intercepto igual a 3.514,23, mas vamos variar os estimadores de beta 2, e ver como cada um desses modelos fornece diferentes somas de erros quadráticos.
    O modelo então é dado por:
    E obtemos os seguintes valores:
 
    Nas colunas 3 temos os erros de todas as variáveis, esse erro é o valor real Y subtraído do valor condicional E(Y|Beta). Como você pode ver, quanto mais próximo do valor beta MQO menor é a soma dos erros, especificada na última linha, se plotarmos isso visualmente, veremos que a função de Soma dos Erros Quadráticos é uma parábola virada com o ponto mínimo sendo o ponto beta MQO:

 
    Embora haja essa prova dedutiva, a qualidade do MQO não se resume a isso, nos próximos artigos vamos demonstrar as propriedades dos estimadores de mínimos quadrados ordinários que fazem desse método tão poderoso. 
    
 Bibliografia:

GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.

Comentários