본문 바로가기
데이터사이언스

변수가 증가하면 증가할 수록 결정계수(R2)가 커지는 이유

by 미스터탁 2022. 12. 14.

회귀 모델에서 결정 계수는 다음의 식에 의해 계산이 됩니다.

 

해석을 하자면, 총 Y의 분산 중에 회귀 직선으로 설명 가능한 분산의 비율을 의미합니다. 다시 말해, 우리가 만드는 회귀 모델은 Y의 분산을 얼마나 잘 설명하느냐에 초점이 맞춰져 있습니다. 이를 그림으로 표현 하면 다음과 같습니다. 여기서 연두색 부분이 독립변수로 설명 가능한 Y의 분산을 의미하는데, 당연히 변수가 추가되면, 원래 있던 자리 말고 다른 곳에 원이 위치하게 될겁니다. 이는, Y의 분산을 변수를 추가함으로써 조금 더 설명이 가능하다라는 것을 의미합니다. 

(분산은 제곱합의 형태이고, 아무리 쓸모 없는 변수여도 SSR은 0이상의 값을 가지게 됩니다)

 

결국, 독립 변수가 추가되면 추가 될수록 SSR은 증가 하고 SSE는 감소합니다. 여기서 SST는 Y의 총 분산을 의미하기 때문에 독립변수와는 상관없이 고정입니다.  그렇기 때문에, 자연스레 결정계수는 커지게 됩니다. 자연스레, MSR/MSE인 F통계량 값도 커지게되고, 모델의 전체 유의성을 판단하는 p-value또한 감소하게 됩니다. 즉, 결정 계수의 맹점은 어떠한 종류든 상관없이 쓸모 없는 독립변수라도 추가하면 추가할 수록 결정 계수가 커진다라는 것입니다.  그렇기 때문에, 현실에서는 R2를 고려하지 않고 Adjusted R2를 많이 고려를 합니다.

 

반응형

댓글