Nos artigos anteriores, apresentamos o Modelo de Regressão Linear Simples Clássico, e ensinamos como utilizar o Métodos dos Mínimos Quadrados Ordinários para estimar os parâmetros da Função de Regressão Amostral, assim como demonstramos e deduzimos suas propriedades.
Nesse artigo, o foco será na apresentação de uma métrica de ajustamento do modelo, iremos demonstrar como se calcula essa medida e a sua justificação prática/teórica.
O termo ajustamento diz respeito a maneira como a linha de regressão (FRP) se ajusta aos dados observáveis (X,Y). Quanto mais ajustado um modelo é, mais ele se ajusta aos dados observados. Para mensurar o ajustamento foi desenvolvido um coeficiente conhecido como r². Mais antes, vale discorrer um pouco mais sobre a questão do ajustamento.
O ajustamento tem uma função importantíssima na análise de regressão, pois permite ao observador compreender o quanto de Y é determinado pelas variações de X, isso ficará mais claro mais a frente, mas o que você precisa entender é que quanto maior for o ajustamento de Y a X, maior será a fração das variações de Y explicado pelas variações de X.
No livro Econometria Básica, o autor Gujarati se utiliza de um instrumental interessante para demonstrar essa relação, utilizando o Diagrama de Venn.
O diagrama de Venn é um instrumental gráfico que nos permite analisar a relação entre dois conjuntos de valores.
Suponha que um círculo represente toda a variação da variável X e outro represente toda a variação da variável Y tal que:
Parte da variação de Y e de X são relacionadas, e o grau dessa relação é mensurada pelo coeficiente de determinação r². No primeiro caso, temos uma situação onde não há nenhuma relação entre os dois, tal que r² = 0, esse caso é dado por:
Há casos onde essa relação é maior que zero, nessa situação há uma intersecção entre os conjuntos X e Y que representa a variação de Y que é explicada por X, visualmente dado por:
Quanto maior a intersecção entre X e Y maior a fatia da variação Y que é explicado pela variação de X.
O caso extremo é o ponto de determinação total, onde toda a variação de Y é determinada pela variação de X, nesse caso temos r² = 1, visualmente:
Como fica claro, o coeficiente r² é importatissimo, e ele tem a característica de ser um valor percentual limitado por 0 e 1, sendo que raramente apresenta esses valores.
Para demonstrar as propriedades desse coeficiente, vamos deduzi-lo.
Partiremos inicialmente de uma relação simples dada por:
Trata-se do fato de que os valores observados de Y são dados pelos valores estimados de Y mais um termo de resíduos.
Tomando os desvios médios:
Elevando ao quadrado:
Aplicando o somatório:
Como:
Então:
Guarde essa relação, ela é extremamente importante, trata-se das "3 somas" da regressão.
O termo da esquerda é o chamado Soma Total dos Quadrados (STQ) que representa a variação entre os valores observados de Y e a sua média.
O primeiro termo da direita é chamado de Soma dos Quadrados Explicados (SQE) representa o desvio dos valores estimados de Y em relação a sua média, ele é extremamente importante, pois ele representa as variações de Y que são explicados por X, visualmente, ele é a distância entre a curva de regressão e a média de Y, como veremos adiante.
A sua formulação matemática alternativa é dada por:
Como:
Então:
O segundo termo do lado direito é chamado de Soma dos Quadrados dos Resíduos (SQR) e representa a parte da variação de Y que não é determinada por X, sendo dado visualmente pela distância entre os valores de Y observados e a curva de regressão.
Utilizando uma ilustração de Gujarati para demonstrar como essas "3 somas" se relacionam visualmente:
Temos então:
Uma boa interpretação é necessária para melhor compreender os próximos passos, a idéia síntese é que as variações dos valores de Y observados em torno da sua média (SQT) se deve a dois fatores: (1) os fatores levados em conta na análise de regressão (SQR) e (2) distúrbios aleatórios não contidos na regressão (SQE). Para exemplificar, suponha que vocês está montando um modelo para explicar a nota de um aluno com base na quantidade de horas-aula assistidas de uma determinada disciplina. Você observará que boa parte da nota é determinada pela quantidade de horas-aula que ele assistiu, mas esse não é o único fator que ira determinar o seu desempenho. Haverá fatores implícitos ocultos da regressão, como a quantidade de horas dormidas, habilidade inapta ou fatores morais.
A partir do que foi discutido, podemos calcular r².
Podemos definir r² como a porcentagem das variações dos valores observados em torno da média que são determinadas pela regressão, e isso e nada mais do que a razão entre SQE e SQT, tal que:
Por natureza:
Agora que já calculamos o valor de r², vamos estudar suas proprieades:
A primeira propriedade é a não-negatividade de r², que nos diz essencialmente que r² > 0. Isso surge do fato de que como as somas quadráticas são sempres maiores que zero então não faria sentido a razão entre elas ser negativa.
A segunda propriedade é a dos limites de r², que nos diz que 0 < r² < 1, que já foi pincelado. Como STQ > SQE então sempre a razão entre SQE e SQT será menor que 1.
Vale citar os casos extremos: como vimos no diagrama de Venn quando r² = 0 temos uma situação onde não há nenhuma intersecção, ou seja, não há nenhuma relação entre a variação de Y e a de X. O único cenário onde isso é possível é quando beta 2 = 0, nessa situação Y = beta 1, e a única previsão para Y é o seu valor médio.
O outro caso extremo é o de regressão "perfeita" onde r² = 1, nesse caso Y = X de tal maneira que a relação entre os dois será essencialmente determinística.
Essas são suas principais propriedades.
Uma característica do r² é que existem várias maneiras de calcular o seu valor, sendo que cada uma se adapta a um determinado contexto.
Segue abaixo algumas das maneiras de calcular r²:
Essas duas se destacam por sua facilidade de se calcular, por trabalhar com valores observados.
Resumindo, o r² é um coeficiente de determinação muito útil pois nos permite compreender o quanto % da variação de Y em torno da média é devido a regressão ou a fatores não tratados no modelo.
Para melhor fixar, vamos trazer um exemplo.
Relembrando o exemplo trabalhado nos últimos artigos:
Para obter o valor de r² nesse modelo basta obtermos as os valores de Soma, que podem ser dados por:
A quarta coluna é referente ao SQR, a quinta ao SQE e a sexta ao SQT.
O r² sendo dado por:
Isso significa que o preço do pão explica 62,83% da variação da quantidade consumida de pão.
No próximo artigo iremos estudar um tópico correlato, o coeficiente de correlação amostral r.
GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.
Comentários
Postar um comentário