본문 바로가기

전체 글150

반응형
선형 회귀 분석 이란 (Linear regression) 머신러닝은 크게 지도학습 (Supervised learning)과 비지도학습 (Unsupervised learning)으로 나눌 수 있습니다. 그리고 지도학습 내에서는 회귀 모델과 분류 모델로 나눌수 있죠. 각각 예측하고자 하는 y의 형태가 연속형일때와 이산형일때 학습하는 모형을 의미합니다. 여기서 우리는 회귀 모델에 대해 다루고자 합니다. 회귀 모델도 크게 두가지로 나눌 수가 있죠. 선형 회귀 모델과 비선형 회귀 모델로 나눌 수 있습니다. 아래 그림과 같이 선형이라는 말은 X가 증가 할때 (또는 감소할때) Y도 함께 증가하는 (감소하는) 특성을 의미합니다. 여기서 중요한 점은 선형 데이터에 대해서만 선형 회귀 분석을 사용하여야 한다는 것입니다. 즉, 데이터에 따라 적절한 모델을 선택하여야 한다는 것인데.. 2022. 12. 14.
Why samples and statistics are important in machine learning and AI In the past two to three years, a lot of education courses related to data science (DS) or artificial intelligence (AI) has been increasing. These curriculums appeal the advantages of each course to the people who want to study DS and AI. It has various advantages such as being linked to employment, conducting hands-on lectures, or helping to make portfolios. Obviously, these courses can definit.. 2022. 12. 12.
고등학생/대학생이 인공지능/데이터사이언스 공부하는 방법 고등학생 이 글을 읽는 사람이 만약 고등학생이고, 대학교 또한 데이터사이언스 전공으로 가기를 원한다면 머신러닝, 인공지능 기초 수준의 강의만 수강하기를 바란다. 학부생 수준에게도 머신러닝과 딥러닝의 깊은 수학적인 이해를 요구하지 않는다. 하물며, 고등학생에게는 이러한 이론적인 지식을 요구할 리는 없다. 데이터의 기본적인 이해와 각종 모델들의 컨셉과 장단점 정도 숙지하고 있다면 고등학생 수준에선 매우 잘 알고 있다고 할 수 있다. 당연히 정시를 통해 입학을 원한다면, 수능 공부가 우선순위가 되어야 할 것이고, 입학사정관제를 통해 입학을 원한다면 대외활동이나 개인적인 공부를 통해 DS/AI쪽에 흥미와 적성이 있다라는 것을 증명해야 할 것이다. 학생이 어느정도 실력이 된다면 매우 간단한 수준의 프로젝트를 통해.. 2022. 12. 12.
데이터사이언스 인공지능에 필요한 능력 데이터 사이언티스트 / 인공지능을 전공하기 위해서 또는 취업을 하기 위해서는 최소한 크게 두가지 능력을 필요로 한다. 1. 수리적/통계학적 능력 2. 컴퓨팅 능력 (프로그래밍 능력) 머신러닝 알고리즘을 이해하고 새로운 모델이나 방법론을 개발 하기 위해서는 수학적인 능력을 필요로 한다. 사실, 데이터를 불러 들이고, 머신 러닝 모델을 학습시키고 새로운 데이터에 대해 예측 값을 구하는 일은 수학적인 능력을 필요로 하지 않는다. 심지어는, 프로그래밍 능력도 필요 없다. 그럼에도 불구하고 수학적인 능력을 필요로 하는 이유는 무엇일까? 데이터 사이언티스트의 역할은 '데이터를 불러들이고, 머신러닝 모델을 적합'시키는 것에서 끝나지 않는다. 우리가 다루어야 하는 많은 데이터들은 굉장히 많은 문제를 가지고 있고, 그 .. 2022. 12. 12.
[R] LASSO, Ridge 적합하기 LASSO와 Ridge는 회귀 계수 축소법으로서, 일반적으로는 다중 선형 회귀 보다는 좋은 성능을 보인다. 간략하게 Ridge와 LASSO의 cost function을 보고 R코드를 첨부하도록 하겠다. 다중 선형 회귀 풀고자하는 문제는 다음과 같다. 여기서, 회귀 계수 축소법은 Penalty항을 추가한다. Ridge의 cost function은 다음과 같다. lambda는 hyper-paramter이고 SSE를 최소화 하면서 회귀계수의 제곱의 합을 함께 최소화 시킨다. Ridge는 analytic한 solution을 가지고 있어, 다음과 같이 해를 구할 수 있다. 더불어 Ridge를 통해 추출된 회귀계수들은 labmda가 커짐에 따라 0에 수렴하지만 완전히 0이 되지는 않는다라는 특징이 있다. 반면 LA.. 2022. 12. 11.
부동산 데이터 분석 - '집값이 싼데는 다 이유가 있다'. * 본 프로젝트는 개인 프로젝트이며, 흥미 위주로 봐주시면 감사하겠습니다. "집 값이 싼데는 다 이유가 있다" 부동산에 대해 많은 사람들이 하는 이야기입니다. 그렇다면, AI/머신러닝 모델을 잘 구축한다면 왜 싼지 또는 왜 비싼지 높은 정확도로 설명 가능 할 것입니다. 만약, 잘 적합된 모델이 잘 설명하지 못한다면, 가성비가 좋은(또는 나쁜) 매물이거나 허위 매물로 의심할 수 있다는 가정하에 분석을 시작하였습니다. 직방 데이터(기본매물정보, 텍스트)를 수집하여 모델 구축 및 Shap value를 활용한 매물 분석을 수행하였습니다. 과연 머신러닝 모델이 집값이 싼(또는 비싼) 이유를 설명 할 수 있을까요? 이를 확인하기 위해 일부 지역의 데이터를 수집하고 간단한 모델링 과정을 거쳐 확인해 보았습니다. 분석.. 2022. 12. 11.