본문 바로가기

전체 글150

반응형
머신러닝과 데이터분석에서 중요한 실험 설계1 저번 글에서 DS/AI를 위해서는 데이터가 무엇보다 중요하며, 신뢰도를 확보하기 위해서는 적절한 실험 설계가 동반되어야 한다고 강조하였다. 일반적으로 실험 설계를 하는 방법은 아래 그림과 같이, 우리가 가지고 있는 데이터를 학습/검증/테스트 데이터로 랜덤하게 (5:3:2 또는 4:3:3의 비율로) 나누고 실험하는 것이다. 그러나 이는 데이터가 매우 많고 이상적인 상황인 경우에 해당하는 이야기이며, 데이터가 많지 않은 경우에는 학습/테스트만 (7:3, 8:2, 9:1의 비율로) 나누기도 한다. 결국 모델에 영향을 끼치는 것은 데이터의 수이기 때문에, 학습 데이터를 많이 늘리면 늘릴수록 모델의 성능은 자연스럽게 높아진다. 우리가 학습, 테스트의 데이터를 9:1의 비율로 나누었다고 가정을 해보자. 우리는 10.. 2022. 9. 7.
머신러닝과 AI에서 표본과 통계학이 중요한 이유 최근 2-3년간 데이터 사이언스 또는 인공지능 관련 교육이 우후죽순 늘어나고 있다. 이러한 교육 과정들은 각 과정들의 장점을 어필하고 있다. 취업과 연계된다는 점이나 실습위주의 강의를 진행하거나 포트폴리오 까지 제작을 도와주는 과정 등 다양한 장점을 지니고 있다. 분명 이 과정들은 DS 또는 AI를 공부하는데 분명히 도움이 될 수 있다. 코딩실력과 머신러닝 알고리즘 등도 물론 중요하지만, 많은 사람들이 실수하는 부분과 깊게 생각치 못하는 부분을 잠시 짚고 넘어가보고자 한다. 우리가 데이터 분석을 할때에 모델을 만드는 이유를 생각해보자. 우리가 가지고 있는 데이터를 가지고 모델을 만드는 것은 새로운 데이터 또는 우리가 가지고 있지 않은 데이터를 예측하기 위함이다. 사실, 우리가 전체 데이터(모집단, pop.. 2022. 9. 6.
R프로그래밍 - 분류문제에서의 성능지표 (accuracy/precision/recall/F-measure) 머신러닝에서 y값이 특정 클래스 값을 가질때 우리는 분류 모델(classification model)을 적합시킵니다. 분류 모델에서 사용하는 여러가지 성능지표에 대해 알아 보겠습니다. 가장 기본적으로 사용하는게 정확도(accuracy)입니다. 정확도는 사실 구체적으로 설명할 필요도 없이 직관적이고 간단한 지표이죠. R에서는 아래 코드처럼 간단하게 구할수 있습니다. 실제값과 예측값이 같은 수를 전체 관측치 수로 나누어주면 되겠죠. observed 2022. 5. 23.
R프로그래밍 - 회귀분석에서의 성능 지표 MSE, MAE, MAPE 머신러닝에서 y값이 실수 인 경우, 우리는 회귀 모형(linear regression)을 적합시킵니다. 이 때, 우리가 만든 회귀 모형의 성능 지표를 측정할 필요가 있습니다. 그래야, 어떠한 모델이 성능이 더 좋은지 판단하고 의사결정을 내릴 수 있기 때문입니다. 대표적인 회귀 모델의 성능지표로는 mean squared error(MSE)가 있습니다. 수식은 아래와 같습니다. 즉, 실제값에서 예측값을 뺀 오차에 제곱을 해서 평균을 낸 지표입니다. 이 값이 낮으면 낮을 수록 좋은 모델이라는 뜻이겠죠. 그러나 MSE의 경우에는 상대적인 비교만 가능해서 이 값이 얼마나 낮고 높은지 알 수가 없습니다. 예를 들어, A문제를 풀고자 할때 a의 모델이 MSE가 20,000이 나왔다라고 했을때, 이 값이 높은 것인지 .. 2022. 5. 22.
J1 Visa 발급 후기 (비대면 비자 발급 프로그램/여권 이름 철자 변경) 여권을 어머니께서 어렸을때 만들어 줬는데.. 커서 보니 스펠링이 이상하다.. 2016년경 여권을 재발급 할 때, 바꿔 달라고 했으나 발음상 유사하다고 거절당했다. J1 Visa를 받을 때, CV등 논문등을 학교로 보내는데 내 영어 이름과 여권 상의 이름의 스펠링이 달라서 다시 한번 알아봤다. 결론적으로 최근에 법이 바뀌어서 성인이 되기 전에 여권을 만든 경우에는 딱 한번 바꿀수 있는 기회가 있다. 그렇지 않고, 나와 같이 특별한 사유가 있는 경우에는 논문과 여러 서류를 가지고 외교부 심사를 받아야 한다고 한다. 그렇게 해서 스펠링을 변경해서 여권을 재발급 받았다. (꼭, 여권 사진과 기존 여권을 들고 가야 한다.) 다른 Visa와 마찬가지로 J1 Visa 신청도 이것저것 복잡한게 많았다. DS160신청하.. 2022. 5. 21.
[강화학습 논문 리뷰] Surprise Minimizing Reinforcement Learning(SMiRL) 이번에 포스팅할 논문은 Surprise Minimizing Reinforcement Learning(SMiRL)로서 2021년 International Conference on Learning Representations(ICLR)에 구두 발표(Oral)로 Accept된 논문을 통해 제안되었습니다. 인공지능 최고의 Conference에서 Oral 발표로 논문이라는 것은 그만큼 논문의 학술적인 가치가 매우 높다라는 뜻입니다. 이전에 포스팅에서 일반적으로 강화학습의 Exploration을 위한 장치로서 Curiosity를 이용하고 그중 RND가 Baseline으로서 많이 사용된다고 서술하였습니다. 본 논문의 저자들은 Curiosity와 같은 Exploration Method를 Novelty-Seeking M.. 2021. 3. 12.