어떠한 프로그램이든 선형 회귀 모을 돌리면 다음과 같은 표를 얻을 수 있습니다. 여기서 p-value는 회귀 계수의 t통계량에 의해 나온 값으로 '유의미하다' 라는 정도로만 간단하게 해석을 할 수 있습니다. 하지만, 조금 더 정확하게 해석을 하려면 가설 검정의 개념을 도입 해야 합니다.
일반적으로, 통계학에서 귀무가설은 '기각하고 싶은 가설'로 세웁니다. 통계적으로 귀무가설은 기각하기 쉬운 편이기 때문입니다. 실험을 하는 목적에 대해 생각을 해보면 쉽게 받아 들일 수 있습니다. 흡연량에 따른 폐암 발생 유무를 조사하고자 할 때, 실험 결과를 받기 전에 어느정도 흡연이 폐암 발생에 영향을 끼칠 것이라고 생각할 수 있습니다. 그러므로, 귀무가설은 흡연과 폐암의 발생 유무는 상관없다. 이렇게 세울수 있겠죠. 대립가설 같은 경우에는 흡연과 폐암의 발생 유무는 관계가 있다로 세울수 있을 것입니다.
회귀 계수의 대한 가설 검정도 마찬가지 입니다. 최소한의 의미를 가지려면 회귀 계수는 0이 아니면 됩니다. 그래서 다음과 같이 귀무가설과 대립가설을 세울 수 있습니다.
모 평균 점 추정치에 대한 가설 검정이므로 t분포를 사용하고 t 통계량은 다음과 같은 식으로 구할 수 있습니다.
그래서 맨 첫 그림에서 Coefficient/Std.error = 0.2/0.02 = 9.92 = t-statistics가 되는 것입니다. 해당 t통계량 값과 유의 수준 0.02에 해당 하는 t분포의 t값을 비교해서 기각유무를 결정할수 있고, 해당 t통계량 값에 따른 유의 확률을 구할 수 있습니다.
t통계량이 2.5정도만 넘으면 p-value는 유의한 수준으로 나옵니다. 하지만, 이게 이 변수가 엄청나게 큰 영향을 끼친다라고 해석을 해서는 안됩니다. 가설검정은 앞서 언급한 바와 같이, 기각하기가 매우 쉽습니다. 과대한 해석 보다는 있는 그대로의 해석을 필요로 합니다. 유의 수준 0.05하에 회귀계수가 0이라는 귀무가설을 받아들일 만한 근거가 없다. 즉, 대립가설을 채택한다. 이 정도로 해석하는것이 좋습니다. 즉 통계적으론 회귀 계수가 0이 아니라는 것을 보일 수 있는거지, 엄청나게 좋은 변수다 이런 결론을 가져오지는 못한다는 것입니다.
'데이터사이언스' 카테고리의 다른 글
변수가 증가하면 증가할 수록 결정계수(R2)가 커지는 이유 (0) | 2022.12.14 |
---|---|
테스트 데이터에서 회귀 모델의 결정계수가(R2) 음수가 나오는 이유 (0) | 2022.12.14 |
선형 회귀의 결정 계수 (R2) (1) | 2022.12.14 |
회귀 계수의 의미 (해석 방법) (0) | 2022.12.14 |
선형 회귀 계수 추정 방법 (1) | 2022.12.14 |
댓글