본문 바로가기
데이터사이언스

선형 회귀 분석 이란 (Linear regression)

by 미스터탁 2022. 12. 14.

머신러닝은 크게 지도학습 (Supervised learning)과 비지도학습 (Unsupervised learning)으로 나눌 수 있습니다. 그리고 지도학습 내에서는 회귀 모델과 분류 모델로 나눌수 있죠. 각각 예측하고자 하는 y의 형태가 연속형일때와 이산형일때 학습하는 모형을 의미합니다.

 

여기서 우리는 회귀 모델에 대해 다루고자 합니다. 회귀 모델도 크게 두가지로 나눌 수가 있죠. 선형 회귀 모델과 비선형 회귀 모델로 나눌 수 있습니다. 아래 그림과 같이 선형이라는 말은 X가 증가 할때 (또는 감소할때) Y도 함께 증가하는 (감소하는) 특성을 의미합니다. 여기서 중요한 점은 선형 데이터에 대해서만 선형 회귀 분석을 사용하여야 한다는 것입니다. 즉, 데이터에 따라 적절한 모델을 선택하여야 한다는 것인데, 비선형회귀 모델이 더 잘 나오는 것은 그 데이터가 비선형적인 문제를 가지고 있기 때문입니다. 데이터가 선형적인 관계를 가지고 있다면, 선형회귀가 더 잘 나올 확률이 높습니다.

 

 

선형 회귀 모델에서 변수가 하나인 경우를 선형 회귀 모델 (Simple Linear Regression)이라고 합니다. 다음과 같은 식을 이용해서 Y를 예측하는 모형을 만들 수 있겠죠. 우리는 아래와 같은 직선의 방정식을 이용해서 모델을 만들고자 하는 것입니다. 여기서 B0는 직선의 절편, B1은 기울기 (회귀 계수), epsilon은 오차를 의미합니다. 여기서 이 오차는 백색 잡음(white noise)라고도 하며, 절대 알 수 없는 오차이기도 합니다.

 

아래 그림의 검은 점은 전체데이터, 빨간 원은 우리가 가지고 있는 학습데이터라고 했을때, 우리는 학습데이터 만을 이용해서 직선의 방정식(모형)을 만들고 전체 검은색 데이터를 설명할수 있도록 하는것이 목표입니다. 검은 실선은 전체 데이터를 설명하는 직선이 될 것이고, 빨간 실선은 학습 데이터로 만든 직선이 될 것입니다. 여기서 보시면, 검은 실선과도 실제 데이터간에는 오차가 존재합니다. 즉, 아무리 전체 데이터로 모델을 완벽히 만들려 할지라도, 설명할수 없는 오차가 존재 한다라는 것이죠. 그래서 이 백색 잡음은 절대 알 수 없는 오차이기도 합니다.

 

우리는 빨간색 데이터를 이용해서 직선의 방정식을 만들고, B0와 B1을 추정을 해야합니다. 그래서 우리는 각각의 추정치 위에 ^ 를 붙입니다. 모자와 비슷하게 생겨서 hat이라고 읽습니다. 

그리고 선형 회귀 모델에서는 다음과 같은 가정이 있습니다. 이 가정을 만족하지 못하면 만든 회귀 모델이 잘 만들어졌다고 할 수 없습니다.

 

 

자 우리가 알고 싶은 식과 추정 해야하는 식은 다음과 같습니다. 그렇다면 어떻게 추정할 수 있을까요?

추정치에 따라서 우리는 다양한 직선을 그을 수 있을 것입니다. 아래 그림과 같이 여러 직선을 그엇다라고 가정해 보죠. 여기서 가장 이상적인 직선은 무엇일까요? 어떻게 구해야 하는지는 모르겠지만, 가운데 쯔음을 지나는 직선이 좋은 직선이라는 것을 알 수 있습니다. 이는 사실 직선을 그었을때 예측치와 실제값의 차이 (오차)가 가장 작아지는 직선일 것입니다. 

즉 우리는, 회귀 모델의 오차가 최소화 되는 회귀 모델을 만드는 것이 목적인 것입니다. 

반응형

댓글