본문 바로가기

데이터사이언스/인공지능을 처음공부하는 사람들을 위한 글15

반응형
고등학생/대학생이 인공지능/데이터사이언스 공부하는 방법 고등학생 이 글을 읽는 사람이 만약 고등학생이고, 대학교 또한 데이터사이언스 전공으로 가기를 원한다면 머신러닝, 인공지능 기초 수준의 강의만 수강하기를 바란다. 학부생 수준에게도 머신러닝과 딥러닝의 깊은 수학적인 이해를 요구하지 않는다. 하물며, 고등학생에게는 이러한 이론적인 지식을 요구할 리는 없다. 데이터의 기본적인 이해와 각종 모델들의 컨셉과 장단점 정도 숙지하고 있다면 고등학생 수준에선 매우 잘 알고 있다고 할 수 있다. 당연히 정시를 통해 입학을 원한다면, 수능 공부가 우선순위가 되어야 할 것이고, 입학사정관제를 통해 입학을 원한다면 대외활동이나 개인적인 공부를 통해 DS/AI쪽에 흥미와 적성이 있다라는 것을 증명해야 할 것이다. 학생이 어느정도 실력이 된다면 매우 간단한 수준의 프로젝트를 통해.. 2022. 12. 12.
데이터사이언스 인공지능에 필요한 능력 데이터 사이언티스트 / 인공지능을 전공하기 위해서 또는 취업을 하기 위해서는 최소한 크게 두가지 능력을 필요로 한다. 1. 수리적/통계학적 능력 2. 컴퓨팅 능력 (프로그래밍 능력) 머신러닝 알고리즘을 이해하고 새로운 모델이나 방법론을 개발 하기 위해서는 수학적인 능력을 필요로 한다. 사실, 데이터를 불러 들이고, 머신 러닝 모델을 학습시키고 새로운 데이터에 대해 예측 값을 구하는 일은 수학적인 능력을 필요로 하지 않는다. 심지어는, 프로그래밍 능력도 필요 없다. 그럼에도 불구하고 수학적인 능력을 필요로 하는 이유는 무엇일까? 데이터 사이언티스트의 역할은 '데이터를 불러들이고, 머신러닝 모델을 적합'시키는 것에서 끝나지 않는다. 우리가 다루어야 하는 많은 데이터들은 굉장히 많은 문제를 가지고 있고, 그 .. 2022. 12. 12.
Python vs R 무엇을 배워야 할까? 내가 어떤 직업을 갖고자 하는지가 매우 중요하다. AI/데이터 사이언스 분야에서도 다양한 직업이 존재한다. 아래 글을 참고하자. https://bluediary8.tistory.com/148 데이터 사이언티스트 (Data Scientist) 되기 위해서 / 인공지능 관련 직업 데이터 사이언티스트 (Data Scientist) 가 되기 위해서는 무엇을 전공해야 하고 무엇을 공부해야 할까? 어느정도 시간을 투자하고 얼마나 공부해야 데이터 사이언티스트로서 취업할 수 있을까? 문과 bluediary8.tistory.com 당연히 기업에서 요구하는 역할과 내가 원하는 직업에 따라 내가 중점적으로 배워야하는 언어는 달라질 것이다. Python과 R은 둘다 데이터 사이언스 쪽으로 특화된 언어라고 할 수 있다. 그래서.. 2022. 12. 11.
데이터사이언스/인공지능 대학원을 꼭 진학 해야 하는가? 우선 우리는 대학원이 무엇을 하는 곳인지 알아야한다. 필자는 대학원은 학부때 공부하던 것을 더 연장해서 본인의 연구역량을 기르는 곳이라고 생각한다. 즉, 연구를 하는 곳이라 생각한다. 석사나 박사 학위를 받으면, 취업에 있어서도 유리한점이 있지만, 대학원생의 기본 업무는 연구이다. 그렇지만, 대학원에 입학을 하게 된다고 하더라도 마냥 연구만을 할 수 있는 것은 아니다. 강의 자료 작성, 연구실 행정 업무 등 다양하게 할일이 존재 한다^^. 그렇다고, 연구를 잘 할 수 있는 것도 아니다. 내가 생각한 주제는 70억 인구 누군가 중 한명이 했을 확률이 높으니까. 필자의 개인 적인 견해로, 주입식 교육이 아닌 스스로 찾아보고 공부하고 새로운 것을 생각해 낼 수 있는 사람들은 석사와 박사과정을 밟는 것을 권장한.. 2022. 12. 11.
데이터 사이언티스트 (Data Scientist) 되기 위해서 / 인공지능 관련 직업 데이터 사이언티스트 (Data Scientist) 가 되기 위해서는 무엇을 전공해야 하고 무엇을 공부해야 할까? 어느정도 시간을 투자하고 얼마나 공부해야 데이터 사이언티스트로서 취업할 수 있을까? 문과생은 과연 데이터 사이언티스트가 될 수 있을까? 데이터 사이언스 그리고 인공지능에 대한 수요가 증가함에따라 관련 커리어에 관련해서 고민하는 사람들 또한 증가하고 있다. 우선 인공지능, 데이터사이언스 관련한 직업을 살펴보도록 하자. 이에 관련해서는 필자의 주관적인 견해가 들어가있다. 필자는 아래의 총 네가지 직업으로 나눌 수 있다고 생각한다. 데이터 사이언티스트 (Data Scientist) : 데이터를 활용하여 예측 모델 또는 인자 분석 등 관련 알고리즘을 개발하고, insight를 도출. 데이터 분석가 /.. 2022. 12. 10.
Undersampling과 Hybrid-resampling을 활용한 데이터 증강 지난 포스팅에서 Oversamplig method를 다루었는데, 이번 글에서는 간단하게 Undersampling method를 다루어 보도록 하겠다. https://bluediary8.tistory.com/143 머신러닝의 클래스 불균형(Class imbalanced) 문제2 - SMOTE 저번 포스팅에서, 클래스 불균형에 대한 이야기와 해결하기 위한 방법들의 종류에 대해서만 소개하였습니다. https://bluediary8.tistory.com/132 DS/AI를 공부하기 위해 알아두면 좋은 것 8 - 클래스 불균 bluediary8.tistory.com Oversampling은 소수 클래스의 데이터를 새롭게 생성해서, 학습하는 모델이 소수 클래스의 데이터를 무시하지 못하도록 하게 만드는 기법입니다. .. 2022. 12. 10.
SMOTE와 SMOTE 변형 기법들을 활용한 oversampling 저번 포스팅에서, 클래스 불균형에 대한 이야기와 해결하기 위한 방법들의 종류에 대해서만 소개하였습니다. https://bluediary8.tistory.com/132 DS/AI를 공부하기 위해 알아두면 좋은 것 8 - 클래스 불균형(Class imbalanced) 문제1 이진 분류(Binary classification)문제에서 학습되는 모델들은 일반적으로 확률 값을 출력합니다. 그리고 우리는 0.5를 기준으로 하여 1 또는 0으로 분류를 합니다. 즉, 일반적으로 우리는 데이터를 다 bluediary8.tistory.com 이번 포스팅에서는 클래스 불균형(Class imbalanced) 문제를 해결 하기 위한 여러 방법들 중 oversampling 방법에 대해 소개하겠습니다. Random over sam.. 2022. 12. 9.
머신러닝의 클래스 불균형(Class imbalanced) 문제1 이진 분류(Binary classification)문제에서 학습되는 모델들은 일반적으로 확률 값을 출력합니다. 그리고 우리는 0.5를 기준으로 하여 1 또는 0으로 분류를 합니다. 즉, 일반적으로 우리는 데이터를 다룰 때에 각 클래스의 비율이 5:5라고 가정을 합니다. 하지만, 현업에서 발생하고 우리가 다루어야 하는 데이터는 5:5의 비율을 충족하지 않습니다. 의료, 제조, 금융 데이터를 생각해보면 쉽게 받아들일 수 있습니다. 일반적으로 '정상'의 데이터는 '불량' 데이터에 비해 압도적으로 많을 가능성이 높습니다. 이러한 상태를 클래스 불균형 (Class imbalanced) 이라고 합니다. 클래스가 불균형하면 어떠한 문제가 생길까요? 학습하는 모델이 다수의 데이터에 과하게 적합이 됩니다. 우리가 알고 .. 2022. 12. 8.