대학원 공부

    [데이터 전처리] Python 데이터 프레임 결측 값 처리(NaN, Null, None, NoT)- isna(), dropna()

    [데이터 전처리] Python 데이터 프레임 결측 값 처리(NaN, Null, None, NoT)- isna(), dropna()

    코테 준비하다가 까먹을까봐 정리하는 글! 파이썬에서 None, np.NaN, pd.NaT은 결측값을 의미한다. 이러한 결측 값을 확인하고 전처리하는 방법을 정리하고자 한다. 아래처럼 필요한 라이브러리를 호출해주고, 데이터프레임을 만든다.import pandas as pdstudents=pd.DataFrame({'이름':['장화','홍련','콩쥐','팥쥐','해님','달님'], '국어':[70,85,None,100, None, 85], '수학':[65,100,80, 95, None,70]}) 결측치가 있는 데이터가 준비되었다.🔍결측치 탐색isna() 또는 notna()isna()는 값이 결측치일 경우, True를 반환not..

    [머신러닝 원리] 10-2. PCA(Principal Component Analysis)의 원리 및 사용 예시

    [머신러닝 원리] 10-2. PCA(Principal Component Analysis)의 원리 및 사용 예시

    Converting Discrete Attributes to Numeric Attributes Nominal 한 속성을 numeric으로 변경해야하는 상황이 있다. knn은 feature간 거리를 계산해야하는데 nominal한 속성이 있으면 거리를 계산할 수 없다. 따라서 위와 같이 nominal한 변수의 class 수 만큼 binary 변수(0 또는 1)를 생성하고 각 클래스에 해당하면 1, 아니면 0으로 표현할 수 있다. 이를 원핫 인코딩이라 한다. 다른 방법으로는, 각 클래스별로 순서가 있다면 1,2,3,4...처럼 정수로 변환하는 방법이 있다. 예를 들면 집값을 예측하는 모델을 만들 때 동향, 서향, 남향, 북향이라는 클래스를 가진 변수는 남향, 동향, 서향, 북향 순으로 집값에 양의 영향을 미치..

    CNN 파라미터 개수 계산 (예제)

    CNN 파라미터 개수 계산 (예제)

    1. Convolution Layer1 입력 shape = (39, 31, 1) 입력 채널 = 1 필터 = (4, 4) 출력 채널 = 20 stride = 1 이 레이어의 학습 파라미터는 320개(4*4*20*1) RowSize = (shape[0]-shape[1])/stride+1 = (39-4) / 1 +1= 36 ColumnSize = (31-4)/1 +1 = 28 따라서 출력 데이터의 Shape는 (36, 28, 20)이 된다. 2 Max Pooling Layer1 입력 데이터의 Shape는 (36, 28, 20)이다. Max Pooling Layer에서 학습 파라미터는 없다. OutputRowSize = InputRowSize / PoolingSize=36/2=18 OutputColumnSize..

    [Anomaly detection] RBM을 이용한 이상 징후 탐지_KDDCUP 데이터셋 (볼츠만 머신, 제한된 볼츠만 머신)

    [Anomaly detection] RBM을 이용한 이상 징후 탐지_KDDCUP 데이터셋 (볼츠만 머신, 제한된 볼츠만 머신)

    신용카드 거래내역의 이상징후를 탐지하는 지난 포스팅에 이어, KDDCUP데이터셋의 이상징후를 탐지하는 분석을 해보자 (이전 포스팅에 RBM에 관한 설명이 있으니 먼저 읽는 것을 추천한다.) 2023.07.11 - [대학원 공부/anomaly detection] - [Anomaly detection] RBM을 이용한 이상 징후 탐지-신용카드 데이터셋 [Anomaly detection] RBM을 이용한 이상 징후 탐지-신용카드 데이터셋 RBM(제한된 볼츠만 머신)을 활용하여 신용카드 거래의 이상징후를 탐지해보자. RBM에 대한 자세한 설명은 아래 링크에서 확인할 수 있다. 이 포스팅을 정독하여 읽고 RBM에 대하여 확실히 이해하고 ozzzih.tistory.com KDDCUP데이터셋은 다양한 침입 공격을 나..

    [Anomaly detection] RBM을 이용한 이상 징후 탐지-신용카드 데이터셋

    [Anomaly detection] RBM을 이용한 이상 징후 탐지-신용카드 데이터셋

    RBM(제한된 볼츠만 머신)을 활용하여 신용카드 거래의 이상징후를 탐지해보자. RBM에 대한 자세한 설명은 아래 링크에서 확인할 수 있다. 이 포스팅을 정독하여 읽고 RBM에 대하여 확실히 이해하고 분석을 진행하도록 하자. https://velog.io/@chulhongsung/RBM Restricted Boltzmann Machines(RBM) 초기 인공 신경망 모형 중 하나인 RBM에 대해서 소개 velog.io RBM을 사용하여 입력 데이터의 확률분포를 만들 수 있고, 이를 통해 특정 샘플의 발생 확률을 확인할 수 있다. 확률이 적은 샘플이 나타났을 때 이를 이상 징후로 판단할 수 있게 된다. 우리는 이 원리를 사용하여 신용카드 거래의 이상징후를 탐지해 볼 것이다. 먼저 아래 링크에서 분석에 필요한..

    [통계적학습] 차원축소, 주성분분석 (Dimensionality Reduction, PCA) 원리 알아보기

    [통계적학습] 차원축소, 주성분분석 (Dimensionality Reduction, PCA) 원리 알아보기

    이 포스팅은 부산대학교 통계적학습 강의를 듣고 복습차원으로 정리한 내용입니다. 박진선 교수님의 강의자료를 참고하였습니다. ✏️ 차원축소(Dimensionality Reduction) 차원 축소에는 Feature Selection, Feature Extraction이 있다. Feature Selection은 전진선택법, 후진선택법과 같이 전체 변수에서 특정 변수들을 선택하여 선택된 변수만 이용하여 모델을 형성하는 방법을 의미한다. Feature extraction은 모든 변수를 이용하지만, 이 변수들을 새로운 공간에 사영시켜 사용하기 때문에 차원을 줄일 수 있다. 차원축소를 통해, 차원의 저주에 갇히지 않게 함으로써 예측 성능을 높힐 수 있다. 이 중, 주성분 분석(PCA)은 unsupervised 데이터..