본문 바로가기

분류 전체보기150

반응형
인공지능 모델의 해석력과 모델의 성능에 관하여 기본적으로 우리가 데이터를 활용하여 여러 머신러닝을 적합시키고 실험설계를 하고 결과를 내는 이유는 예측모델의 성능을 높이는 것에 있다. 물론, clustering, PCA등 unsupervised learning의 기법들을 활용할 때에도 있지만, 우리는 대부분 supervised learning에 초점을 두고 많이 공부한다. Kaggle등과 같은 머신러닝 대회 플랫폼만 보더라도, 성능을 0.0001%라도 올리는 것에 치중되어 있다라는 것을 알 수 있다. 필자 또한, 어떻게 하면 성능을 높일 수 있을지에 대해 많이 고민 하였고, 현재도 많이 고민하고 있다. 그러나, 데이터 분석을 할 때에는 잊지 말아야 할 사실이 있다. 바로 모델의 해석력이다. 일반적으로 모델의 해석력과 성능은 반비례 관계를 가지고 있다... 2022. 9. 15.
머신러닝과 데이터분석에서 중요한 실험 설계2 저번 글에 이어서 이번 글에서도 실험 설계에 대한 중요성을 예를 들어 다시 한 번 강조하고자 한다. 예시 ) 반도체 계측 문제 (초보자를 위해 전문 용어 대신 쉽게 설명하도록 하겠다) 반도체를 비롯한 각종 제조 데이터에서는 다양한 데이터가 수집되고 이는 시간적 특성을 가지고 있을 확률이 높다. 우리가 반도체 두계를 예측하는 문제를 다룬다고 가정을 해보자. 반도체 상품은 각종 설비를 거치고 그 설비내에서 다양한 변수에 의해 측정 값이 수집된다. 그리고 몇개의 설비를 거친이후에 반도체 두께를 계측하게 되는데, 12개의 상품중에 1~2개만을 측정을 한다. 이 두계를 계측을 하는건 반도체 품질 관리에 많은 영향을 끼치는데, 문제는 12개의 상품중에 1~2개만을 예측하기 때문에 나머지 10개정도는 계측을 하지 않.. 2022. 9. 8.
머신러닝과 데이터분석에서 중요한 실험 설계1 저번 글에서 DS/AI를 위해서는 데이터가 무엇보다 중요하며, 신뢰도를 확보하기 위해서는 적절한 실험 설계가 동반되어야 한다고 강조하였다. 일반적으로 실험 설계를 하는 방법은 아래 그림과 같이, 우리가 가지고 있는 데이터를 학습/검증/테스트 데이터로 랜덤하게 (5:3:2 또는 4:3:3의 비율로) 나누고 실험하는 것이다. 그러나 이는 데이터가 매우 많고 이상적인 상황인 경우에 해당하는 이야기이며, 데이터가 많지 않은 경우에는 학습/테스트만 (7:3, 8:2, 9:1의 비율로) 나누기도 한다. 결국 모델에 영향을 끼치는 것은 데이터의 수이기 때문에, 학습 데이터를 많이 늘리면 늘릴수록 모델의 성능은 자연스럽게 높아진다. 우리가 학습, 테스트의 데이터를 9:1의 비율로 나누었다고 가정을 해보자. 우리는 10.. 2022. 9. 7.
머신러닝과 AI에서 표본과 통계학이 중요한 이유 최근 2-3년간 데이터 사이언스 또는 인공지능 관련 교육이 우후죽순 늘어나고 있다. 이러한 교육 과정들은 각 과정들의 장점을 어필하고 있다. 취업과 연계된다는 점이나 실습위주의 강의를 진행하거나 포트폴리오 까지 제작을 도와주는 과정 등 다양한 장점을 지니고 있다. 분명 이 과정들은 DS 또는 AI를 공부하는데 분명히 도움이 될 수 있다. 코딩실력과 머신러닝 알고리즘 등도 물론 중요하지만, 많은 사람들이 실수하는 부분과 깊게 생각치 못하는 부분을 잠시 짚고 넘어가보고자 한다. 우리가 데이터 분석을 할때에 모델을 만드는 이유를 생각해보자. 우리가 가지고 있는 데이터를 가지고 모델을 만드는 것은 새로운 데이터 또는 우리가 가지고 있지 않은 데이터를 예측하기 위함이다. 사실, 우리가 전체 데이터(모집단, pop.. 2022. 9. 6.
R프로그래밍 - 분류문제에서의 성능지표 (accuracy/precision/recall/F-measure) 머신러닝에서 y값이 특정 클래스 값을 가질때 우리는 분류 모델(classification model)을 적합시킵니다. 분류 모델에서 사용하는 여러가지 성능지표에 대해 알아 보겠습니다. 가장 기본적으로 사용하는게 정확도(accuracy)입니다. 정확도는 사실 구체적으로 설명할 필요도 없이 직관적이고 간단한 지표이죠. R에서는 아래 코드처럼 간단하게 구할수 있습니다. 실제값과 예측값이 같은 수를 전체 관측치 수로 나누어주면 되겠죠. observed 2022. 5. 23.
R프로그래밍 - 회귀분석에서의 성능 지표 MSE, MAE, MAPE 머신러닝에서 y값이 실수 인 경우, 우리는 회귀 모형(linear regression)을 적합시킵니다. 이 때, 우리가 만든 회귀 모형의 성능 지표를 측정할 필요가 있습니다. 그래야, 어떠한 모델이 성능이 더 좋은지 판단하고 의사결정을 내릴 수 있기 때문입니다. 대표적인 회귀 모델의 성능지표로는 mean squared error(MSE)가 있습니다. 수식은 아래와 같습니다. 즉, 실제값에서 예측값을 뺀 오차에 제곱을 해서 평균을 낸 지표입니다. 이 값이 낮으면 낮을 수록 좋은 모델이라는 뜻이겠죠. 그러나 MSE의 경우에는 상대적인 비교만 가능해서 이 값이 얼마나 낮고 높은지 알 수가 없습니다. 예를 들어, A문제를 풀고자 할때 a의 모델이 MSE가 20,000이 나왔다라고 했을때, 이 값이 높은 것인지 .. 2022. 5. 22.
J1 Visa 발급 후기 (비대면 비자 발급 프로그램/여권 이름 철자 변경) 여권을 어머니께서 어렸을때 만들어 줬는데.. 커서 보니 스펠링이 이상하다.. 2016년경 여권을 재발급 할 때, 바꿔 달라고 했으나 발음상 유사하다고 거절당했다. J1 Visa를 받을 때, CV등 논문등을 학교로 보내는데 내 영어 이름과 여권 상의 이름의 스펠링이 달라서 다시 한번 알아봤다. 결론적으로 최근에 법이 바뀌어서 성인이 되기 전에 여권을 만든 경우에는 딱 한번 바꿀수 있는 기회가 있다. 그렇지 않고, 나와 같이 특별한 사유가 있는 경우에는 논문과 여러 서류를 가지고 외교부 심사를 받아야 한다고 한다. 그렇게 해서 스펠링을 변경해서 여권을 재발급 받았다. (꼭, 여권 사진과 기존 여권을 들고 가야 한다.) 다른 Visa와 마찬가지로 J1 Visa 신청도 이것저것 복잡한게 많았다. DS160신청하.. 2022. 5. 21.
[강화학습 논문 리뷰] Surprise Minimizing Reinforcement Learning(SMiRL) 이번에 포스팅할 논문은 Surprise Minimizing Reinforcement Learning(SMiRL)로서 2021년 International Conference on Learning Representations(ICLR)에 구두 발표(Oral)로 Accept된 논문을 통해 제안되었습니다. 인공지능 최고의 Conference에서 Oral 발표로 논문이라는 것은 그만큼 논문의 학술적인 가치가 매우 높다라는 뜻입니다. 이전에 포스팅에서 일반적으로 강화학습의 Exploration을 위한 장치로서 Curiosity를 이용하고 그중 RND가 Baseline으로서 많이 사용된다고 서술하였습니다. 본 논문의 저자들은 Curiosity와 같은 Exploration Method를 Novelty-Seeking M.. 2021. 3. 12.