본문 바로가기

분류 전체보기150

반응형
고등학생/대학생이 인공지능/데이터사이언스 공부하는 방법 고등학생 이 글을 읽는 사람이 만약 고등학생이고, 대학교 또한 데이터사이언스 전공으로 가기를 원한다면 머신러닝, 인공지능 기초 수준의 강의만 수강하기를 바란다. 학부생 수준에게도 머신러닝과 딥러닝의 깊은 수학적인 이해를 요구하지 않는다. 하물며, 고등학생에게는 이러한 이론적인 지식을 요구할 리는 없다. 데이터의 기본적인 이해와 각종 모델들의 컨셉과 장단점 정도 숙지하고 있다면 고등학생 수준에선 매우 잘 알고 있다고 할 수 있다. 당연히 정시를 통해 입학을 원한다면, 수능 공부가 우선순위가 되어야 할 것이고, 입학사정관제를 통해 입학을 원한다면 대외활동이나 개인적인 공부를 통해 DS/AI쪽에 흥미와 적성이 있다라는 것을 증명해야 할 것이다. 학생이 어느정도 실력이 된다면 매우 간단한 수준의 프로젝트를 통해.. 2022. 12. 12.
데이터사이언스 인공지능에 필요한 능력 데이터 사이언티스트 / 인공지능을 전공하기 위해서 또는 취업을 하기 위해서는 최소한 크게 두가지 능력을 필요로 한다. 1. 수리적/통계학적 능력 2. 컴퓨팅 능력 (프로그래밍 능력) 머신러닝 알고리즘을 이해하고 새로운 모델이나 방법론을 개발 하기 위해서는 수학적인 능력을 필요로 한다. 사실, 데이터를 불러 들이고, 머신 러닝 모델을 학습시키고 새로운 데이터에 대해 예측 값을 구하는 일은 수학적인 능력을 필요로 하지 않는다. 심지어는, 프로그래밍 능력도 필요 없다. 그럼에도 불구하고 수학적인 능력을 필요로 하는 이유는 무엇일까? 데이터 사이언티스트의 역할은 '데이터를 불러들이고, 머신러닝 모델을 적합'시키는 것에서 끝나지 않는다. 우리가 다루어야 하는 많은 데이터들은 굉장히 많은 문제를 가지고 있고, 그 .. 2022. 12. 12.
[R] LASSO, Ridge 적합하기 LASSO와 Ridge는 회귀 계수 축소법으로서, 일반적으로는 다중 선형 회귀 보다는 좋은 성능을 보인다. 간략하게 Ridge와 LASSO의 cost function을 보고 R코드를 첨부하도록 하겠다. 다중 선형 회귀 풀고자하는 문제는 다음과 같다. 여기서, 회귀 계수 축소법은 Penalty항을 추가한다. Ridge의 cost function은 다음과 같다. lambda는 hyper-paramter이고 SSE를 최소화 하면서 회귀계수의 제곱의 합을 함께 최소화 시킨다. Ridge는 analytic한 solution을 가지고 있어, 다음과 같이 해를 구할 수 있다. 더불어 Ridge를 통해 추출된 회귀계수들은 labmda가 커짐에 따라 0에 수렴하지만 완전히 0이 되지는 않는다라는 특징이 있다. 반면 LA.. 2022. 12. 11.
부동산 데이터 분석 - '집값이 싼데는 다 이유가 있다'. * 본 프로젝트는 개인 프로젝트이며, 흥미 위주로 봐주시면 감사하겠습니다. "집 값이 싼데는 다 이유가 있다" 부동산에 대해 많은 사람들이 하는 이야기입니다. 그렇다면, AI/머신러닝 모델을 잘 구축한다면 왜 싼지 또는 왜 비싼지 높은 정확도로 설명 가능 할 것입니다. 만약, 잘 적합된 모델이 잘 설명하지 못한다면, 가성비가 좋은(또는 나쁜) 매물이거나 허위 매물로 의심할 수 있다는 가정하에 분석을 시작하였습니다. 직방 데이터(기본매물정보, 텍스트)를 수집하여 모델 구축 및 Shap value를 활용한 매물 분석을 수행하였습니다. 과연 머신러닝 모델이 집값이 싼(또는 비싼) 이유를 설명 할 수 있을까요? 이를 확인하기 위해 일부 지역의 데이터를 수집하고 간단한 모델링 과정을 거쳐 확인해 보았습니다. 분석.. 2022. 12. 11.
Python vs R 무엇을 배워야 할까? 내가 어떤 직업을 갖고자 하는지가 매우 중요하다. AI/데이터 사이언스 분야에서도 다양한 직업이 존재한다. 아래 글을 참고하자. https://bluediary8.tistory.com/148 데이터 사이언티스트 (Data Scientist) 되기 위해서 / 인공지능 관련 직업 데이터 사이언티스트 (Data Scientist) 가 되기 위해서는 무엇을 전공해야 하고 무엇을 공부해야 할까? 어느정도 시간을 투자하고 얼마나 공부해야 데이터 사이언티스트로서 취업할 수 있을까? 문과 bluediary8.tistory.com 당연히 기업에서 요구하는 역할과 내가 원하는 직업에 따라 내가 중점적으로 배워야하는 언어는 달라질 것이다. Python과 R은 둘다 데이터 사이언스 쪽으로 특화된 언어라고 할 수 있다. 그래서.. 2022. 12. 11.
데이터사이언스/인공지능 대학원을 꼭 진학 해야 하는가? 우선 우리는 대학원이 무엇을 하는 곳인지 알아야한다. 필자는 대학원은 학부때 공부하던 것을 더 연장해서 본인의 연구역량을 기르는 곳이라고 생각한다. 즉, 연구를 하는 곳이라 생각한다. 석사나 박사 학위를 받으면, 취업에 있어서도 유리한점이 있지만, 대학원생의 기본 업무는 연구이다. 그렇지만, 대학원에 입학을 하게 된다고 하더라도 마냥 연구만을 할 수 있는 것은 아니다. 강의 자료 작성, 연구실 행정 업무 등 다양하게 할일이 존재 한다^^. 그렇다고, 연구를 잘 할 수 있는 것도 아니다. 내가 생각한 주제는 70억 인구 누군가 중 한명이 했을 확률이 높으니까. 필자의 개인 적인 견해로, 주입식 교육이 아닌 스스로 찾아보고 공부하고 새로운 것을 생각해 낼 수 있는 사람들은 석사와 박사과정을 밟는 것을 권장한.. 2022. 12. 11.
데이터 사이언티스트 (Data Scientist) 되기 위해서 / 인공지능 관련 직업 데이터 사이언티스트 (Data Scientist) 가 되기 위해서는 무엇을 전공해야 하고 무엇을 공부해야 할까? 어느정도 시간을 투자하고 얼마나 공부해야 데이터 사이언티스트로서 취업할 수 있을까? 문과생은 과연 데이터 사이언티스트가 될 수 있을까? 데이터 사이언스 그리고 인공지능에 대한 수요가 증가함에따라 관련 커리어에 관련해서 고민하는 사람들 또한 증가하고 있다. 우선 인공지능, 데이터사이언스 관련한 직업을 살펴보도록 하자. 이에 관련해서는 필자의 주관적인 견해가 들어가있다. 필자는 아래의 총 네가지 직업으로 나눌 수 있다고 생각한다. 데이터 사이언티스트 (Data Scientist) : 데이터를 활용하여 예측 모델 또는 인자 분석 등 관련 알고리즘을 개발하고, insight를 도출. 데이터 분석가 /.. 2022. 12. 10.
Undersampling과 Hybrid-resampling을 활용한 데이터 증강 지난 포스팅에서 Oversamplig method를 다루었는데, 이번 글에서는 간단하게 Undersampling method를 다루어 보도록 하겠다. https://bluediary8.tistory.com/143 머신러닝의 클래스 불균형(Class imbalanced) 문제2 - SMOTE 저번 포스팅에서, 클래스 불균형에 대한 이야기와 해결하기 위한 방법들의 종류에 대해서만 소개하였습니다. https://bluediary8.tistory.com/132 DS/AI를 공부하기 위해 알아두면 좋은 것 8 - 클래스 불균 bluediary8.tistory.com Oversampling은 소수 클래스의 데이터를 새롭게 생성해서, 학습하는 모델이 소수 클래스의 데이터를 무시하지 못하도록 하게 만드는 기법입니다. .. 2022. 12. 10.