본문 바로가기

분류 전체보기150

반응형
회귀 계수에 대한 가설 검정 어떠한 프로그램이든 선형 회귀 모을 돌리면 다음과 같은 표를 얻을 수 있습니다. 여기서 p-value는 회귀 계수의 t통계량에 의해 나온 값으로 '유의미하다' 라는 정도로만 간단하게 해석을 할 수 있습니다. 하지만, 조금 더 정확하게 해석을 하려면 가설 검정의 개념을 도입 해야 합니다. 일반적으로, 통계학에서 귀무가설은 '기각하고 싶은 가설'로 세웁니다. 통계적으로 귀무가설은 기각하기 쉬운 편이기 때문입니다. 실험을 하는 목적에 대해 생각을 해보면 쉽게 받아 들일 수 있습니다. 흡연량에 따른 폐암 발생 유무를 조사하고자 할 때, 실험 결과를 받기 전에 어느정도 흡연이 폐암 발생에 영향을 끼칠 것이라고 생각할 수 있습니다. 그러므로, 귀무가설은 흡연과 폐암의 발생 유무는 상관없다. 이렇게 세울수 있겠죠. .. 2022. 12. 14.
변수가 증가하면 증가할 수록 결정계수(R2)가 커지는 이유 회귀 모델에서 결정 계수는 다음의 식에 의해 계산이 됩니다. 해석을 하자면, 총 Y의 분산 중에 회귀 직선으로 설명 가능한 분산의 비율을 의미합니다. 다시 말해, 우리가 만드는 회귀 모델은 Y의 분산을 얼마나 잘 설명하느냐에 초점이 맞춰져 있습니다. 이를 그림으로 표현 하면 다음과 같습니다. 여기서 연두색 부분이 독립변수로 설명 가능한 Y의 분산을 의미하는데, 당연히 변수가 추가되면, 원래 있던 자리 말고 다른 곳에 원이 위치하게 될겁니다. 이는, Y의 분산을 변수를 추가함으로써 조금 더 설명이 가능하다라는 것을 의미합니다. (분산은 제곱합의 형태이고, 아무리 쓸모 없는 변수여도 SSR은 0이상의 값을 가지게 됩니다) 결국, 독립 변수가 추가되면 추가 될수록 SSR은 증가 하고 SSE는 감소합니다. 여기.. 2022. 12. 14.
테스트 데이터에서 회귀 모델의 결정계수가(R2) 음수가 나오는 이유 회귀 모델의 결정계수(R2)는 회귀 모델의 성능 지표로서 사용이 가능하며, 다음과 같이 쓸 수 있습니다. R2의 범위는 0부터 1사이라는 것을 수식만 봐도 알 수 있는데, 테스트 데이터에서 R2를 뽑아보면 음수가 나오는 경우도 있고 1을 넘는 경우도 있습니다. 사실 이는 매우 당연한 현상입니다. R2의 식이 유도 되는 과정을 다시 보면, 아래 식 처럼 쓸 수 있는데, 형광으로 칠 해진 부분이 0 이되어 SST = SSR + SSE가 성립하게 되는 것입니다. 그런데 잔차의 합이 0이 되는 이유는 SSE를 B0로 미분 했을 때 유도 됩니다. 다시 말해, R2는 잔차의 합이 0이 되도록 하는 과정을 이용해 유도된 식입니다. 중요한 것은 '학습 데이터'내에서 입니다. 학습데이터 내에서 SSE가 최소가 되도록 회.. 2022. 12. 14.
선형 회귀의 결정 계수 (R2) 선형 회귀 모델의 경우에는 SSE를 최소화 하는 방향으로 회귀 계수를 추정하였습니다. 그렇다면, 당연히 SSE가 작으면 작을수록 좋다라고 이야기 할 수 있습니다. 하지만 SSE의 범위는 0 ~ 무한대 이기 때문에 상대적으로만 비교가 가능합니다. 이를 보완하기 위한 지표가 결정 계수 (R2)입니다. 아래 그림을 보시면 실제 값에서 Y의 평균을 뺀 값은 (실제값 - 예측값) 과 ( 예측값 - y의 평균값) 을 더한 것 과 같다라는 것을 알 수 있습니다. 이를 각각 제곱하여 합하면 맨 아래 식이 도출 됩니다. 각각, SST, SSE, 그리고 SSR로 표기합니다. 사실 일반적으론 위 식이 도출되지는 않습니다만, 아래와 같이 식을 정리 할 수 있는데 여기서 잔차의 합이 0이 되면서 마지막 항이 사라지게 됩니다. .. 2022. 12. 14.
회귀 계수의 의미 (해석 방법) LSE방법을 이용하여 회귀계수를 추정하여 다음과 같이 식이 나왔다라고 가정해봅시다. 그렇다면, 보통 아래 그림과 같이 회귀계수와 Standard error, t-statistics, p-value의 결과 값을 얻을 수 있습니다. 현재 회귀 계수의 추정치는 0.203으로 나와있는데 해석하는 방법은 매우 간단합니다. X가 1단위 증가할 때 Y는 0.203단위 증가한다. 라고 해석을 하면됩니다. 그리고 회귀 계수의 p-value는 매우 유의미하다. 이렇게 해석을 할 수 있겠죠. Standard error를 통해 t통계량을 구할 수 있고, t통계량 값에 의해 p-value가 계산 되어 집니다. t통계량이 크거나 또는 엄청 작을 때(음수값) p-value는 낮아지겠죠? 만약 변수가 여러개인 다중 회귀 모델을 적합.. 2022. 12. 14.
선형 회귀 계수 추정 방법 아래 여러 직선에서 가장 좋은 직선은 데이터의 가운데를 지나가는 직선이라고 할 수 있습니다. 이를 다시 표현하면, 직선을 그었을때 추정치와 실제값의 차이가 가장 작아지는 직선을 의미합니다. 실제 값에서 추정 값을 뺀값을 우리는 잔차 (Residual)이라고 하고, 아래와 같이 ei 또는 ri로 표현하는데 i는 observation number입니다. 즉 i번째 데이터의 잔차를 의미하는 것이죠. 결국에, 이 잔차가 최소가 되도록 직선을 긋는것이 목표가 됩니다. 정확히 이야기하면, 우리는 아래와 같이 잔차의 제곱합(Sum of squares error, SSE)이 최소가 되는 직선의 방정식을 구합니다. 그 이유는, 사실 잔차의 합이 0이 되는 해는 무수히 많기 때문입니다. 아래 그림을 보시면 세직선에 대한 .. 2022. 12. 14.
선형 회귀 분석 이란 (Linear regression) 머신러닝은 크게 지도학습 (Supervised learning)과 비지도학습 (Unsupervised learning)으로 나눌 수 있습니다. 그리고 지도학습 내에서는 회귀 모델과 분류 모델로 나눌수 있죠. 각각 예측하고자 하는 y의 형태가 연속형일때와 이산형일때 학습하는 모형을 의미합니다. 여기서 우리는 회귀 모델에 대해 다루고자 합니다. 회귀 모델도 크게 두가지로 나눌 수가 있죠. 선형 회귀 모델과 비선형 회귀 모델로 나눌 수 있습니다. 아래 그림과 같이 선형이라는 말은 X가 증가 할때 (또는 감소할때) Y도 함께 증가하는 (감소하는) 특성을 의미합니다. 여기서 중요한 점은 선형 데이터에 대해서만 선형 회귀 분석을 사용하여야 한다는 것입니다. 즉, 데이터에 따라 적절한 모델을 선택하여야 한다는 것인데.. 2022. 12. 14.
Why samples and statistics are important in machine learning and AI In the past two to three years, a lot of education courses related to data science (DS) or artificial intelligence (AI) has been increasing. These curriculums appeal the advantages of each course to the people who want to study DS and AI. It has various advantages such as being linked to employment, conducting hands-on lectures, or helping to make portfolios. Obviously, these courses can definit.. 2022. 12. 12.