데이터 사이언티스트 (Data Scientist) 가 되기 위해서는 무엇을 전공해야 하고 무엇을 공부해야 할까? 어느정도 시간을 투자하고 얼마나 공부해야 데이터 사이언티스트로서 취업할 수 있을까? 문과생은 과연 데이터 사이언티스트가 될 수 있을까? 데이터 사이언스 그리고 인공지능에 대한 수요가 증가함에따라 관련 커리어에 관련해서 고민하는 사람들 또한 증가하고 있다.
우선 인공지능, 데이터사이언스 관련한 직업을 살펴보도록 하자. 이에 관련해서는 필자의 주관적인 견해가 들어가있다. 필자는 아래의 총 네가지 직업으로 나눌 수 있다고 생각한다.
- 데이터 사이언티스트 (Data Scientist) : 데이터를 활용하여 예측 모델 또는 인자 분석 등 관련 알고리즘을 개발하고, insight를 도출.
- 데이터 분석가 / 데이터 애널리스트 (Data Analyst) : 데이터를 추출하고 가공하여 시각화 하며 insight를 도출
- AI researcher : 최신 AI 논문 및 관련 기법들을 연구하고 개발
- AI/ML engineer : 최신 AI 기법등을 적용하고 product 개발
비슷한 일을 하는 것 같지만, 하는 일은 사실 매우 다르고 그에 따라 필요한 역량도 다르다. 그렇다면, 각각의 역할을 갖기 위해서는 어떠한 공부를 해야하고 어떠한 역량을 길러야할까? 이를 아는 방법은 사실 매우 간단하다. Linkein, Wanted, JobPlanet 등 구직 사이트에 들어가, 구인 공고를 확인 해 보면 된다.
우선 데이터 사이언티스트 (Data Scientist) 구인 공고 부터 확인 해 보자. 구인공고는 WantedLab 에서 가져왔다.
TVING : Python, ML/DL, Kaggle 등 대회 수상
요기요: Python or R, SQL, ML/DL, Tensorflow or Pytorch.
Ai Tricks : Python, R, SQL, Tableau
Toss 뱅크 : Python, R, SQL, Tensorflow or Pytorch, Hadoop or Spark
카카오모빌리티 : ML/DL, Python, SQL, R, Tensorflow or Pytorch.
넷마블 : Tensorflow, Python, Tableau, SQL
배달의 민족 : Tensorflow, Python, SQL, DL/ML
대부분의 데이터사이언티스트의 구인공고에서는 공통적으로 Python, Tensorflow 또는 Pytorch, SQL역량을 요구하고 있다. 각 기업마다 사용하는 기술이나 백그라운드가 조금씩 다르기 때문에, 우대사항의 경우에는 제각각 이지만, 위 역량은 거의 공통적으로 요구하고 있다. 더불어서, 강한 ML/DL 백그라운드 또한 필요하다.
데이터 분석가를 보도록 하자
밀버스 : Tabeau, SQL
와디즈 : Python, Tableau, SQL
여기어때 : Python or R, SQL, Tabeau
넥슨 코리아 :ML프로그래밍 언어.
최근의 경향으로는 데이터 사이언티스트와 데이터 분석가를 같은 직업으로 취급하는 기업도 존재한다. 넥슨코리아의 데이터 분석가의 구인공고를 보면 위에서 본 데이터 사이언티스트에 더 가깝다라는 것을 알 수 있다. 그러나, 최근에는 데이터 분석가의 역량을 데이터 사이언티스트와는 구분 짓는 경향이 큰 것 같다. 데이터 분석가는 모델에 대한 개발 능력보다는 데이터를 자유자재로 추출하고 (SQL을 통해서) 시각화 하고 인사이트를 얻는 과정이 더 중요해 보인다.
AI/ML engineer 구인공고를 보자
CJ 올리브 네트웍스 : Tensorflow, Pytorch, 딥러닝 개발 및 실무 경험, 실제 서비스 개발 경험
야놀자 : Python, 실제 서비스 개발 경험
마키나락스 : 프로젝트 수행 경험/ 서비스 배포
AI/ML 엔지니어의 경우에는, 포지션 마다 요구하는게 각각 상이했다. 하지만, 앞서 본 두 직업과는 다르게 Python이나 R에 대한 언어보다는 개발에 조금 더 초점에 맞춰져 있다라는 것을 알 수 있다. 즉, 데이터를 분석한다기 보다는 모델을 실제로 서비스화하는 직업이라고 보는게 맞을 것이다.
마지막으로 AI researcher에 관한 포지션을 보자
앤트 : NLP모델, GCN, 딥러닝 프레임워크, AI학회, 석사 이상
날비컴퍼니 : Computer Vision 모델, GAN/VAE 모델, 석사 이상
뉴로클 : 딥러닝논문 구현, 딥러닝 프레임워크, AI학회, 석사 이상,
두잉랩: Computer Vision, 딥러닝 프레임워크, AI학회, 석사 이상,
AI/ML researcher같은 경우에는 거의 모든 기업에서 딥러닝(Computer Vision 또는 NLP) 모델 개발을 할 수 있는 사람으로 포지셔닝 하였다. 딥러닝 프레임워크와 Python은 기본적으로 다룰줄 알아야하며, 대부분 석사 이상 학위를 요구하며 우대사항으로는 AI 상위 학회에 출판 경험을 제시하였다. 그리고 연구원의 포지션의 경우에는 대부분 스타트업에서 구인을 하고있다.
각각의 포지션을 요구하는 기업들의 자격요건과 우대사항을 통해서 우리는 우리에 맞는 직업을 갖기 위해 어떠한 역량을 길러야하는지 파악 할 수 있다. 물론, 기업마다 조금씩은 상이하고, 각각의 포지션을 혼용해서 사용하고 있는 경우도 참고하자 .
- 데이터 사이언티스트 (Data Scientist) : Python 또는 R (Python이 거의 70%), SQL능력, ML/DL지식과 경험, 데이터사이언스대회 수상 경험 (Kaggle, Dacon)
- 데이터 분석가 / 데이터 애널리스트 (Data Analyst) : Python 또는 R (데이터 사이언티스트에 비해 숙련도는 덜 요구함), SQL능력, Tableau (데이터 시각화 능력), ML에 대한 기본 지식과 경험.
- AI/ML engineer : Python, 딥러닝 프레임 워크(Pytorch, Tensorflow), 서비스 개발 경험
- AI researcher : 석사 이상, 딥러닝에 대한 깊은 지식과 모델 개발 경험, AI학회 출판 경험(우대)
이를 통해서 우리는 관련 학과 또한 정리 해볼 수 있다.
- 데이터 사이언티스트 (Data Scientist) : 통계학과, 빅데이터경영학과, 산업공학과, 컴퓨터공학과, 수학과 등
- 데이터 분석가 / 데이터 애널리스트 (Data Analyst) : 통계학과, 빅데이터경영학과, 산업공학과, 컴퓨터공학과 등
- AI/ML engineer : 컴퓨터공학과, 수학과 등
- AI researcher : 산업공학과, 수학과, 컴퓨터공학과 (석사 이상) 등
통계학과라고 해서 AI 엔지니어가 되기 어려운 것은 아니고, 문과라고 해서 AI researcher가 될 수 없는 것은 아니다. 다만, 그나마 관련 있는 학과를 정리해보았다. 하지만, 현실적으로 보았을 때 비전공자가 AI 엔지니어나 AI researcher가 되는 것은 매우 어렵다. 그 만큼 깊은 지식과 프로그래밍 능력 등을 요구하기 때문이다. 비전공자이 빅데이터 관련 직종을 가지고 싶다면 가장 빠른 길은 데이터 분석가 일 것이라고 생각한다. 다른 포지션에 비해 비교적 공부해야하는 양이 적다. 그러나, 데이터 시각화를 잘 해야하며, (미적 감각을 필요로 한다) 인사이트를 얻는 능력이 매우 중요하다. 그렇다고 프로그래밍을 못해서는 안된다. Python이나 R을 어느정도 사용할줄 알고 ML에 대한 기본적인 지식과 경험을 요구 하기 때문이다.
AI관련 직업은 분명 미래가 밝은 것은 맞다. 현재 수요가 많은 것도 맞다. 중요한 것은 그 만큼 '공급'도 많다. '고급 공급'이 부족할 뿐이다. '고급 공급' 이 되기 위해서는 3-6개월 가지곤 택도 없다. 수년 이상 끊임 없이 노력해야 한다. 더불어, AI의 발전 속도가 빠른 만큼 우리 또한 그 만큼 공부해야 한다. 확실한 건, 필자를 포함하여 많은 사람들에게는 발전 하는 AI를 내가 발전하게 끔 이끌기는 커녕, 발전된 내용을 공부하는 것 조차 벅차다 라는 것이다.
'데이터사이언스 > 인공지능을 처음공부하는 사람들을 위한 글' 카테고리의 다른 글
Python vs R 무엇을 배워야 할까? (0) | 2022.12.11 |
---|---|
데이터사이언스/인공지능 대학원을 꼭 진학 해야 하는가? (1) | 2022.12.11 |
Undersampling과 Hybrid-resampling을 활용한 데이터 증강 (0) | 2022.12.10 |
SMOTE와 SMOTE 변형 기법들을 활용한 oversampling (0) | 2022.12.09 |
머신러닝의 클래스 불균형(Class imbalanced) 문제1 (0) | 2022.12.08 |
댓글