본문 바로가기

데이터사이언스28

반응형
머신러닝과 데이터분석에서 중요한 실험 설계1 저번 글에서 DS/AI를 위해서는 데이터가 무엇보다 중요하며, 신뢰도를 확보하기 위해서는 적절한 실험 설계가 동반되어야 한다고 강조하였다. 일반적으로 실험 설계를 하는 방법은 아래 그림과 같이, 우리가 가지고 있는 데이터를 학습/검증/테스트 데이터로 랜덤하게 (5:3:2 또는 4:3:3의 비율로) 나누고 실험하는 것이다. 그러나 이는 데이터가 매우 많고 이상적인 상황인 경우에 해당하는 이야기이며, 데이터가 많지 않은 경우에는 학습/테스트만 (7:3, 8:2, 9:1의 비율로) 나누기도 한다. 결국 모델에 영향을 끼치는 것은 데이터의 수이기 때문에, 학습 데이터를 많이 늘리면 늘릴수록 모델의 성능은 자연스럽게 높아진다. 우리가 학습, 테스트의 데이터를 9:1의 비율로 나누었다고 가정을 해보자. 우리는 10.. 2022. 9. 7.
머신러닝과 AI에서 표본과 통계학이 중요한 이유 최근 2-3년간 데이터 사이언스 또는 인공지능 관련 교육이 우후죽순 늘어나고 있다. 이러한 교육 과정들은 각 과정들의 장점을 어필하고 있다. 취업과 연계된다는 점이나 실습위주의 강의를 진행하거나 포트폴리오 까지 제작을 도와주는 과정 등 다양한 장점을 지니고 있다. 분명 이 과정들은 DS 또는 AI를 공부하는데 분명히 도움이 될 수 있다. 코딩실력과 머신러닝 알고리즘 등도 물론 중요하지만, 많은 사람들이 실수하는 부분과 깊게 생각치 못하는 부분을 잠시 짚고 넘어가보고자 한다. 우리가 데이터 분석을 할때에 모델을 만드는 이유를 생각해보자. 우리가 가지고 있는 데이터를 가지고 모델을 만드는 것은 새로운 데이터 또는 우리가 가지고 있지 않은 데이터를 예측하기 위함이다. 사실, 우리가 전체 데이터(모집단, pop.. 2022. 9. 6.
머신러닝의 정의와 구분 (지도학습, 비지도 학습, 강화학습) 머신러닝의 정의와 그리고 머신러닝의 분류로 볼수 있는 지도학습, 비지도 학습, 강화학습의 개념과 차이점에 대해서 알아보도록 하겠습니다. 머신 러닝의 정의 머신 러닝의 정의 머신 러닝의 정의 : 4-5년 전만해도 머신 러닝 (Machine Learning)을 인공지능과 비슷한 개념으로서 많이 사용해 왔습니다. 인공지능이라고 해 봤자, 무언가 분류하거나 예측하는 것 이상 할 수 가 없었기 때문이죠. 하지만, 4-5년전부터 딥러닝 (특히, GAN과 강화학습)이 발전하면서 머신 러닝과 인공지능을 분류해서 부르기 시작하였습니다. 머신 러닝의 '정의'에 대해서 이야기 할 때에는 인공지능의 정의와 같다라고 보시면 될 것 같습니다. 다만, 사용하는 분야가 조금 다르다라고 보시면 될 것 같습니다. 최근에 부르는 머신 러.. 2020. 6. 26.
DataScience 분야에서 Tree기반 모델이 좋은 이유 (딥러닝이 잘 쓰이지 않는 이유) DataScience 분야에서 Tree기반 모델이 좋은 이유 (딥러닝이 잘 쓰이지 않는 이유) 최근 10년간은 딥러닝의 부흥기라고 감히 말할 수 있습니다. 그만큼, 딥러닝의 엄청난 발전이 있었죠. 그럼에도 불구하고 kaggle 대회와 국내 data science 대회에서 boosting 계열 알고리즘 (tree 기반 알고리즘이 거의 항상 우승합니다. 그 이유가 무엇일까요?) 앞서 우리는 CNN의 graphical representation learning에 다루었습니다. CNN이 해주는 역할은 이미지의 region feature를 잘 뽑아주기 위한 것이지. 완전히 다른 모델이 아니다 라는 것 입니다. https://bluediary8.tistory.com/87 딥러닝(Deep Learning)의 정의, .. 2020. 6. 24.