O Coeficiente de determinação r²

 

    Nos artigos anteriores, apresentamos o Modelo de Regressão Linear Simples Clássico, e ensinamos como utilizar o Métodos dos Mínimos Quadrados Ordinários para estimar os parâmetros da Função de Regressão Amostral, assim como demonstramos e deduzimos suas propriedades.

    Nesse artigo, o foco será na apresentação de uma métrica de ajustamento do modelo, iremos demonstrar como se calcula essa medida e a sua justificação prática/teórica.

    O termo ajustamento diz respeito a maneira como a linha de regressão (FRP) se ajusta aos dados observáveis (X,Y). Quanto mais ajustado um modelo é, mais ele se ajusta aos dados observados. Para mensurar o ajustamento foi desenvolvido um coeficiente conhecido como r². Mais antes, vale discorrer um pouco mais sobre a questão do ajustamento.

    O ajustamento tem uma função importantíssima na análise de regressão, pois permite ao observador compreender o quanto de Y é determinado pelas variações de X, isso ficará mais claro mais a frente, mas o que você precisa entender é que quanto maior for o ajustamento de Y a X, maior será a fração das variações de Y explicado pelas variações de X.

    No livro Econometria Básica, o autor Gujarati se utiliza de um instrumental interessante para demonstrar essa relação, utilizando o Diagrama de Venn.

    O diagrama de Venn é um instrumental gráfico que nos permite analisar a relação entre dois conjuntos de valores.

    Suponha que um círculo represente toda a variação da variável X e outro represente toda a variação da variável Y tal que:

   

    Parte da variação de Y e de X são relacionadas, e o grau dessa relação é mensurada pelo coeficiente de determinação r². No primeiro caso, temos uma situação onde não há nenhuma relação entre os dois, tal que r² = 0, esse caso é dado por:

 

    Há casos onde essa relação é maior que zero, nessa situação há uma intersecção entre os conjuntos X e Y que representa a variação de Y que é explicada por X, visualmente dado por:

 

    Quanto maior a intersecção entre X e Y maior a fatia da variação Y que é explicado pela variação de X.

    O caso extremo é o ponto de determinação total, onde toda a variação de Y é determinada pela variação de X, nesse caso temos r² = 1, visualmente:

    Como fica claro, o coeficiente r² é importatissimo, e ele tem a característica de ser um valor percentual limitado por 0 e 1, sendo que raramente apresenta esses valores.

    Para demonstrar as propriedades desse coeficiente, vamos deduzi-lo.

    Partiremos inicialmente de uma relação simples dada por:


     Trata-se do fato de que os valores observados de Y são dados pelos valores estimados de Y mais um termo de resíduos.

    Tomando os desvios médios:


     Elevando ao quadrado:


     Aplicando o somatório:


     Como:

 

     Então:

 

    Guarde essa relação, ela é extremamente importante, trata-se das "3 somas" da regressão.

    O termo da esquerda é o chamado Soma Total dos Quadrados (STQ) que representa a variação entre os valores observados de Y e a sua média.

    O primeiro termo da direita é chamado de Soma dos Quadrados Explicados (SQE) representa o desvio dos valores estimados de Y em relação a sua média, ele é extremamente importante, pois ele representa as variações de Y que são explicados por X, visualmente, ele é a distância entre a curva de regressão e a média de Y, como veremos adiante.

    A sua formulação matemática alternativa é dada por:

    Como:


    Então:

 

    O segundo termo do lado direito é chamado de Soma dos Quadrados dos Resíduos (SQR) e representa a parte da variação de Y que não é determinada por X, sendo dado visualmente pela distância entre os valores de Y observados e a curva de regressão.

    Utilizando uma ilustração de Gujarati para demonstrar como essas "3 somas" se relacionam visualmente:

    Temos então:

    Uma boa interpretação é necessária para melhor compreender os próximos passos, a idéia síntese é que as variações dos valores de Y observados em torno da sua média (SQT) se deve a dois fatores: (1) os fatores levados em conta na análise de regressão (SQR) e (2) distúrbios aleatórios não contidos na regressão (SQE). Para exemplificar, suponha que vocês está montando um modelo para explicar a nota de um aluno com base na quantidade de horas-aula assistidas de uma determinada disciplina. Você observará que boa parte da nota é determinada pela quantidade de horas-aula que ele assistiu, mas esse não é o único fator que ira determinar o seu desempenho. Haverá fatores implícitos ocultos da regressão, como a quantidade de horas dormidas, habilidade inapta ou fatores morais. 

    A partir do que foi discutido, podemos calcular r².

    Podemos definir r² como a porcentagem das variações dos valores observados em torno da média que são determinadas pela regressão, e isso e nada mais do que a razão entre SQE e SQT, tal que:

 

     Por natureza:


    Agora que já calculamos o valor de r², vamos estudar suas proprieades:

    A primeira propriedade é a não-negatividade de r², que nos diz essencialmente que r² > 0. Isso surge do fato de que como as somas quadráticas são sempres maiores que zero então não faria sentido a razão entre elas ser negativa.

    A segunda propriedade é a dos limites de r², que nos diz que 0 < r² < 1, que já foi pincelado. Como STQ > SQE então sempre a razão entre SQE e SQT será menor que 1.

    Vale citar os casos extremos: como vimos no diagrama de Venn quando r² = 0 temos uma situação onde não há nenhuma intersecção, ou seja, não há nenhuma relação entre a variação de Y e a de X. O único cenário onde isso é possível é quando beta 2 = 0, nessa situação Y = beta 1, e a única previsão para Y é o seu valor médio.

    O outro caso extremo é o de regressão "perfeita" onde r² = 1, nesse caso Y = X de tal maneira que a relação entre os dois será essencialmente determinística.

    Essas são suas principais propriedades.

    Uma característica do r² é que existem várias maneiras de calcular o seu valor, sendo que cada uma se adapta a um determinado contexto.

    Segue abaixo algumas das maneiras de calcular r²:


 

    Essas duas se destacam por sua facilidade de se calcular, por trabalhar com valores observados.

    Resumindo, o r² é um coeficiente de determinação muito útil pois nos permite compreender o quanto % da variação de Y em torno da média é devido a regressão ou a fatores não tratados no modelo.


    Para melhor fixar, vamos trazer um exemplo.

    Relembrando o exemplo trabalhado nos últimos artigos:

     Para obter o valor de r² nesse modelo basta obtermos as os valores de Soma, que podem ser dados por:

 

    A quarta coluna é referente ao SQR, a quinta ao SQE e a sexta ao SQT.

    O r² sendo dado por:

    

    Isso significa que o preço do pão explica 62,83% da variação da quantidade consumida de pão.

    No próximo artigo iremos estudar um tópico correlato, o coeficiente de correlação amostral r.

     

Bibliografia:

GUJARATI, Damodar N; PORTER, Dawn C. Basic Econometrics. 5ª Edição. New York. The McGraw-Hill, 2008.

Comentários