DataScience 분야에서 Tree기반 모델이 좋은 이유 (딥러닝이 잘 쓰이지 않는 이유)

최근 10년간은 딥러닝의 부흥기라고 감히 말할 수 있습니다. 그만큼, 딥러닝의 엄청난 발전이 있었죠. 그럼에도 불구하고 kaggle 대회와 국내 data science 대회에서 boosting 계열 알고리즘 (tree 기반 알고리즘이 거의 항상 우승합니다. 그 이유가 무엇일까요?)

앞서 우리는 CNN의 graphical representation learning에 다루었습니다. CNN이 해주는 역할은 이미지의 region feature를 잘 뽑아주기 위한 것이지. 완전히 다른 모델이 아니다 라는 것 입니다.

https://bluediary8.tistory.com/87

딥러닝(Deep Learning)의 정의, 기존의 머신 러닝(Machine Learning) 과의 차이점

이번 포스팅에서는 딥러닝(Deep Learning)에 대한 정의와 기존의 머신 러닝(Machine Learning) 과의 차이점 그리고 전통적인 data Science 문제에서 딥러닝이 잘 쓰이지 않는 이유에 대해 다루어 보도록 하겠

bluediary8.tistory.com

그럼 여기서, 일반적인 data science문제를 생각해 봅시다. 독립변수가 흡연량, 키, 몸무게 등 신체정보가 있고, 종속변수가 폐암 여부라고 해보죠. 여기서 독립변수 흡연량, 키, 몸무게 등 신체정보에 graphical feature가 존재 할까요? 직관적으로 봐도 graphical 한 feature가 존재 하지 않습니다. 즉, 딥러닝은 graphical feature를 위한 모델인데 graphical feature가 없는 문제에 대해서는 잘 맞는다라는 것을 보장하지 못하는 것이죠.

여기서 우리가 알아야 할 개념은 '선형성' 입니다. 어떠한 사람들이 폐암에 걸릴 확률이 높을까요? 담배를 많이 피면 많이필수록 폐암에 걸릴 확률이 높겠죠? 즉 일반적인 data science문제에서 우리가 가져가는 독립변수들은 종속변수들과 선형성이 있다라는 가정을 많이 합니다. 더불어, Tree기반 모델들의 분류 알고리즘을 생각해보면, 흡연량이 몇 이상이면 폐암에 걸리는 확률이 얼마다. 이런식으로 분류가 가능하죠. 즉 직관적으로 봤을 때에도, 일반적인 data science 문제에서 tree기반 모델들이 많이 쓰일수 밖에 없는 것이죠.

더불어, 기존의 머신러닝 모델들은 기본적으로 독립변수들이 서로 독립이라고 가정을 하고, 딥러닝은 input feature들의 연속성(image의 pixel값과 같이)을 가정합니다. 결국, 우리가 사용하는 feature의 특징에 따라서 우리가 사용해야할 모델들이 달라 지는 것입니다. '이미지'하면 무조건 CNN, 데이터 분석은 Xgboost!!"라는 말은 거의 맞는 말이긴 하지만, 그 이유에 대해서 이와 같이 생각해볼 필요가 있습니다.

'데이터사이언스' 카테고리의 다른 글

선형 회귀 분석 이란 (Linear regression) (0)	2022.12.14
부동산 데이터 분석 - '집값이 싼데는 다 이유가 있다'. (1)	2022.12.11
인공지능 생성 모델 DALLE 사용하기 (0)	2022.12.09
반도체 제조 데이터의 특성과 문제에 관하여 (0)	2022.12.01
머신러닝의 정의와 구분 (지도학습, 비지도 학습, 강화학습) (0)	2020.06.26

딥러닝과 머신러닝 이야기

DataScience 분야에서 Tree기반 모델이 좋은 이유 (딥러닝이 잘 쓰이지 않는 이유)