대학원 공부/통계

    [통계적학습] 차원축소, 주성분분석 (Dimensionality Reduction, PCA) 원리 알아보기

    [통계적학습] 차원축소, 주성분분석 (Dimensionality Reduction, PCA) 원리 알아보기

    이 포스팅은 부산대학교 통계적학습 강의를 듣고 복습차원으로 정리한 내용입니다. 박진선 교수님의 강의자료를 참고하였습니다. ✏️ 차원축소(Dimensionality Reduction) 차원 축소에는 Feature Selection, Feature Extraction이 있다. Feature Selection은 전진선택법, 후진선택법과 같이 전체 변수에서 특정 변수들을 선택하여 선택된 변수만 이용하여 모델을 형성하는 방법을 의미한다. Feature extraction은 모든 변수를 이용하지만, 이 변수들을 새로운 공간에 사영시켜 사용하기 때문에 차원을 줄일 수 있다. 차원축소를 통해, 차원의 저주에 갇히지 않게 함으로써 예측 성능을 높힐 수 있다. 이 중, 주성분 분석(PCA)은 unsupervised 데이터..

    [통계적학습] 트리기반 모델(Tree-Based Methods): 배깅, 랜덤포레스트, 부스팅 이해하기

    [통계적학습] 트리기반 모델(Tree-Based Methods): 배깅, 랜덤포레스트, 부스팅 이해하기

    이 포스팅은 부산대학교 통계적학습 강의를 듣고 복습차원에서 요약정리한 내용입니다. 트리기반 모델은 이름 그대로 나무 형태의 프로세스를 따라 모델을 형성하는 것이라고 유추해볼 수 있다. 예측 공간을 계층화(stratifying) 및 세분화(segmenting)하여 회귀와 분류를 수행한다. 어떤 데이터가 주어졌을 때, 이 데이터는 splitting rule에 따라 나누어진 예측공간에 속하게 되고 그 예측공간의 평균으로 예측값을 도출해낼 수 있다. 이러한 방법을 '의사결정나무' 모델이라고 한다. 이러한 트리기반 모델은 simple하고 해석이 쉽다는 장점이 있다. 하지만 다른 지도학습모델에 비하여 성능이 매우 떨어지는 단점이 있다. 이러한 단점을 극복하기 위해, 트리를 여러개 결합하여 성능을 향상시킨다. (물론..

    [통계적학습] 비선형 방법 (Polynomial Regression, Smoothing Splines) 이해하기

    [통계적학습] 비선형 방법 (Polynomial Regression, Smoothing Splines) 이해하기

    현실의 대부분의 데이터는 비선형의 형태를 띤다. 하지만 많은 선형 모델은 이 데이터의 선형성을 가정하게 된다. 선형을 가정하기 어려운 데이터에서는 어떤 방법을 사용하면 될까? 모델의 해석력과 성능은 잃지 않으며, 선형 가정을 완화하는 방법에 대해 공부해보자. Summary Polynomial Regression: 차원을 증가시켜 비선형의 회귀모형을 만드는 방법 Step Function: K개의 구간을 나눠, 각 구간별로 indicator function을 형성하는 방법 Regression Spline: K개의 구간을 나눠, 각 구간별로 비선형 회귀모형을 만들고 knots(경계)에서 각 모형이 부드럽게 이어질 수 있도록 제약조건을 주는 것 Smoothing Spline: 모델의 정확도와 적당한 smooth..