본문 바로가기

분류 전체보기150

반응형
[프린스턴 뉴저지 여행] 프린스턴 대학 / 주차하는 곳 세계 1위 대학 프린스턴 캠퍼스는 매우 아름답다. 사실 미국에서 가본 대학이 많지는 않지만, 프린스턴 대학 캠퍼스는 봄과 가을에 매우 아름답다. 뉴욕이나 뉴저지에서 프린스턴을 가는 방법은 크게 두가지인데, 차를 타고 가거나 기차를 이용하는 방법이다. 기차를 이용할 경우에는 아래 그림처럼 프린스턴역에 내리면 된다. 프린스턴역이 바로 프린스턴 대학 옆에 있기 때문에 걸어서도 충분히 관광이 가능하다. 우리는 항상 차를 끌고 가는데 Street parking이 매우 잘되어 있다. 아래 형광펜으로 칠해진 곳에 주차가 가능한데(당연히 유료) 항상 자리가 있어 이곳에 주차를 하곤 한다. 프린스턴 대학 앞 쪽에도 물론 Street parking이 가능하긴 하지만, 차들이 오고가는 와중에 빠르게 주차하지 못한다면 등에서.. 2022. 12. 9.
워싱턴 당일 치기 여행코스 뉴저지에서 워싱턴까지는 차로 약 세시간 정도 걸린다. 미국은 도시마다 매우 특색이 있는데, 워싱턴은 내가 가본 도시(사실 얼마 없다)중에 가장 깔끔한 도시 중 하나였다. 사실 2박이나 3박하면서 천천히 둘러보면 좋겠지만, 사악한 숙박비와 주차비를 아끼고자 당일치기로 다녀와봤다. (숙박비는 최소 250달러, 호텔 주차비 하루 최소 60달러이다.) 다음과 같은 코스로 아주 빡세게 다녀왔다. 8시 뉴저지 출발 - 11시 도착 - 백악관 둘러보기 - 식사 - 워싱턴 기념탑 - 링컨 기념관(들어가지는 않음) - 국립 자연사 박물관(오후 네시) - 오후 8시 집도착 지도로 동선을 보면 다음과 같다. 워싱턴 기념탑 공원 위쪽에 Street parking을 하고 백악관쪽으로 걸어서 백악관을 구경하고 쭉돌아서, Old .. 2022. 12. 9.
[워싱턴 맛집] Old Ebbitt Grill, 주차 할 수 있는 곳 주차는 공원 근처 Street Parking 한국인 입맛에 맞는 메뉴들 가격도 비싸지 않고(미국치고) 백악관 근처라 백악관 둘러보고 먹기 딱 좋은곳 예약 필수!! 워싱턴은 딱히 맛집이 많은 곳으로 소문난 곳은 아니다. 그래서 별 기대를 하지 않고 갔고 지인에게 추천을 받아 Old Ebbitt Grill 에 방문했다. 위치는 백악관 바로 근처여서 백악관을 둘러보고 바로 가기 딱 좋은 곳에 위치해있다. 처음에 어디다 주차를 해야하는지 몰라, 조금 힘들었으나 아래 그림에 형광펜으로 칠해진 곳에 Street parking이 가능하다. 당연히 유료이지만, 주차를 할 수 있다는것에 감사한 나라다. 참고로 워싱턴에서 호텔과 같은 곳에 주차를 하려면 매우 사악한 주차비를 내야하는데, 하루에 보통 65불이다...ㄷㄷㄷ... 2022. 12. 9.
머신러닝의 클래스 불균형(Class imbalanced) 문제1 이진 분류(Binary classification)문제에서 학습되는 모델들은 일반적으로 확률 값을 출력합니다. 그리고 우리는 0.5를 기준으로 하여 1 또는 0으로 분류를 합니다. 즉, 일반적으로 우리는 데이터를 다룰 때에 각 클래스의 비율이 5:5라고 가정을 합니다. 하지만, 현업에서 발생하고 우리가 다루어야 하는 데이터는 5:5의 비율을 충족하지 않습니다. 의료, 제조, 금융 데이터를 생각해보면 쉽게 받아들일 수 있습니다. 일반적으로 '정상'의 데이터는 '불량' 데이터에 비해 압도적으로 많을 가능성이 높습니다. 이러한 상태를 클래스 불균형 (Class imbalanced) 이라고 합니다. 클래스가 불균형하면 어떠한 문제가 생길까요? 학습하는 모델이 다수의 데이터에 과하게 적합이 됩니다. 우리가 알고 .. 2022. 12. 8.
반도체 제조 데이터의 특성과 문제에 관하여 우리가 처음 머신러닝이나 인공지능을 배울 때 다루는 데이터는 iris, titanic, boston house와 같이 매우 분석하기 좋고 이쁜(?) 데이터입니다. 하지만, 실제로 우리가 현업에서 다루는 데이터는 이보다 매우 복잡하고, 각 도메인마다 가지고 있는 데이터의 특성이 있습니다. 이번 포스팅에서는 제가 주로 다루는 반도체 제조 데이터의 특성에 대해 다루어 보고자 합니다. 반도체 제조 공정은 크게 8대 공정으로 이루어지는데요. 8대 공정에 대한 내용은 아래 포스팅을 참고 해 주시기 바랍니다. https://brunch.co.kr/@wyz/62 반도체 8대 공정, 10분만에 이해하기 안녕하세요, 경제유캐스트 윰기자입니다.오늘은 반도체 8대 공정에 대해서 준비했습니다. 반도체 관련 직종에 근무하시지 않.. 2022. 12. 1.
머신러닝과 인공지능의 풀리지 않은 문제 과적합(Overfitting) 데이터 사이언스 그리고 인공지능 분야에서 과적합(Overfitting)은 가장 큰 이슈라고 할 수 있다. 아직까지도 완벽하게 이를 완벽하게 해결 하기 위한 방법은 존재 하지 않는다. 다만, 최대한 과적합를 완화시키기 위한 여러 기법들이 있을 뿐이고, 이 또한 데이터의 특성에 따라 효과가 있을지는 미지수이다. 우선 과적합에 대해 다시 한번 정의를 하고 가자. 과적합이라 함은 학습 데이터를 학습한 모델이 학습 데이터에 대한 오차는 거의 가지지 않지만, 테스트 데이터 내에서는 높은 오차를 보이는 현상을 의미한다 (또한, 실제 데이터를 적절히 잘 설명하지 못하고 학습 데이터에 과하게 적합시키는 현상을 말한다). 학습 오차와 테스트 오차의 성능 차이가 어느 정도 이상이어야 과적합이 일어났다라고 기준을 정하기는 어.. 2022. 9. 28.
데이터 분석에 있어서 데이터 전처리의 중요성 우리가 현업에서 다루는 데이터는 잘 정제되어 있지 않을 확률이 높다. Raw 데이터로부터 우리는 모델링 할 수있게 끔 행렬 형태의 데이터로 가공할 필요가 있다. 그렇기 때문에, 데이터 사이언티스트들은 모델링하는 실력외에도 R과 Python을 활용하여 적절하게 데이터를 가공할 수 있는 능력을 필요로 한다. 게임 유저 이탈 예측 모델을 만든다 라고 가정해보자. 우리는 다음과 같은 데이터를 다루게 될 것이다. 우리는 보통 하나의 행이 하나의 관측치이며 하나의 열이 하나의 독립변수라고 생각을 하지만, 실제 우리가 다루는 데이터의 형태를 그렇지 않을 확률이 높다. 이 또한 매우 간단한 예제에 속한다. 우리는 이와 같은 데이터를 다음과 같은 형태로 가공할 필요가 있다. 하나의 행이 userid(관측치)이며 각 열들.. 2022. 9. 23.
모델의 선형성과 모델의 capacity에 관하여 우리가 머신러닝을 공부할 때 또는 통계학을 처음 공부할 때 배우는 모형은 바로 선형 회귀 모델(Linear regression model)이다. 그 중에서도 변수가 하나인 단순 선형 회귀 모델(Simple linear regression model)을 공부한다. 모델의 이름을 다시 한번 주의 깊게 보자 '선형' 회귀 모델이다. 즉, 아래 그림 처럼 독립 변수와 종속 변수 사이의 관계에 선형성이 있다라는 가정이 들어가 있다. 선형성이라 함은, X가 증가 할때 Y도 증가하는 특성을 의미한다. 이러한 관계에 있는 데이터들을 직선의 방정식으로 모델링 할 수 방법이 선형 회귀 모델인 것이다. 분명, 선형 회귀 모델은 다른 모델에 비해 설명력이 떨어진다고 느껴질 수 있다. 하지만, 그러한 문제들은 대부분 '비선형'.. 2022. 9. 22.