반응형
SMALL
빅데이터분석기사 필기 2과목] II. 빅데이터 탐색
01. 데이터 전처리
- 데이터 전처리: 데이터 정제 - 결측값 처리 - 이상값 처리 - 분석 변수 처리
- 데이터 정제(Cleansing)
- 결측값&이상값 처리를 통해 데이터 신뢰도를 높이는 작업
- 오류 데이터값을 정확한 데이터로 수정/삭제하는 과정
- 오류 원인 분석 - 정제 대상 선정 - 정제 방법 결정
- 데이터 오류 원인: 결측값(Missing Value)/ 노이즈(Noise)/ 이상값(Outlier)
결측값: 누락된 값 | 노이즈: 잘못 판단된 값 | 이상값: 범위에서 많이 벗어난 값 |
필수적인 데이터가 입력되지 않음 (ex) NA, NaN, NULL, inf, 999999 |
입력되지 않았는데 입력되었다고 판단됨 |
범위에서 많이 벗어난 아주 작은/큰 값 |
- 데이터 일관성 유지를 위한 정제기법: 변환(Transform)/ 파싱(Parsing)/ 보강(Enhancement)
변환 | 파싱 | 보강 |
다양한 형태로 표현된 값을 일관된 형태로 변환 |
정제 규칙을 적용하기 위한 유의미한 최소 단위로 분할 |
변환/ 파싱/ 수정/ 표준화 등을 통한 추가 정보를 반영하는 작업 |
- 데이터 정제 기술: ETL/ Map Reduce/ Spark/ Storm/ CEP/ Pig/ Flume
ETL | 맵리듀스 | 스파크/스톰 | CEP | 피그 | 플럼 |
추출-가공-저장 | (키-값) 배치처리 | 인 메모리 기반 | 실시간 처리 | 대용량 데이터 집합 | 로그 수집&처리 |
- 데이터 세분화(Data Segmentation):
데이터를 기준에 따라 나누고, 선택한 매개변수를 기반으로 유사한 데이터를 그룹화
계층적 방법: 군집 개수 정하지 않음 X | 비 계층적 방법: 군집 개수 정해 놓음 O | ||
응집분석법 | 분할분석법 | 인공신경망 모델 | K-평균 군집화 |
각 객체→합침 | 전체 집단→분리 | 통계학적 학습모델 | K개 군집의 중심좌표 업데이트 |
- 결측값 종류: 완전 무작위/ 무작위/ 비무작위 결측
완전 무작위 결측 | 무작위 결측 | 비 무작위 결측 |
결측값이 다른변수들과 아무 상관 없음 |
특정변수와 관련되어 일어남 그러나 변수 결과는 상관 없음 |
누락된 값=변수의 결과가 다른 변수와 상관 있음 |
원인 상관 X 결과 상관 X |
원인 상관 O 결과 상관 X |
원인 상관 O 결과 상관 O |
- 결측값 처리 절차: 결측값 식별 - 부호화 - 대체
- 결측값 처리 방법: 단순 대치법 - 완전 분석법/ 평균 대치법/ 단순 확률 대치법 & 다중 대치법
- 다중 대치법: 단순 대치법을 m번 → m개의 가상적 완전한 자료 생성 (적용방식: 대치 - 분석 - 결합)
완전 분석법 | 평균 대치법 | 단순 확률 대치법 | 확률값 부여→통계량으로 대치 |
불완전 자료는 완전 무시 | 평균값으로 대치 | 핫덱 (Hot-Deck) | 현재 진행 중인 연구 자료 |
완전하게 관측된 자료만 사용 | 비 조건부: 평균값 | 콜드덱 (Cold-Deck) | 외부 출처/ 이전 연구 자료 |
조건부: 회귀분석 활용 | 혼합 방법 | 몇 가지 다른 방법 혼합 |
- 이상값 발생 원인:
데이터 입력 오류/ 측정 오류/ 실험 오류/ 고의적인 이상값(자기 보고식 측정)/ 표본추출 에러(샘플링 잘못 함) - 이상값 검출 방법: 개별 데이터 관찰/ 통곗값/ 시각화/ 머신러닝 기법/ 마할라노비스 거리/ LOF/ iForest
통곗값 | 시각화 | 머신러닝 기법 | 마할라노비스 기법 | LOF | iForest |
ESD (μ ± 3σ) 기하평균/ 사분위수 표준화점수 |
확률밀도함수 히스토그램 시계열차트 |
데이터 군집화 K-평균 알고리즘 |
- 데이터 분포 고려 - 평균 벗어난 정도 |
밀도 비교 | 의사결정나무 |
딕슨의 Q검정 그럽스 T검정 카이제곱 검정 |
- 모든 변수간 선형관계 만족 - 정규분포 따름 |
관측치 주변 밀도와 근접한 관측치 주변 밀도의 상대적 비교 |
모든 관측치를 고립시켜나가며 분할 횟수로 탐색 |
- 이상값 처리 방법: 삭제/ 대체법/ 변환/ 박스플롯 해석/ 분류하여 처리
삭제 : 절단/ 조정 | 대체법 : 상/하한값 | 변환 : 자연로그 | 박스플롯 해석 : 수염 | 분류하여 처리 |
- 양극단 값을 절단 - 기하평균 이용 - 극단값 조정 |
- 하한값보다 작으면 하한값 대체 - 상한값보다 크면 상한값 대체 |
자연로그 취함 - 오른쪽 꼬리 긴 분포 - 평균중심 대칭형태로 - 실젯값을 변형 |
수염(Whiskers) 밖 이상값으로 판단 사분위수 = Q3 - Q1 |
이상값 많은 경우 - 서로 다른 그룹 - 그룹별 통계모형 - 결과 결합 |
- 박스플롯 (Box-Plot): 하위경계/ 제1 사분위/ 제2 사분위=중위수/ 제3 사분위/ 상위경계/ 수염/ 이상값
사분위수 | 하위경계 | 제1 사분위 | 중위수 | 제3 사분위 | 상위경계 | 수염 | 이상값 |
IQR=Q3-Q1 중간 50% |
Q1 - 1.5×IQR |
Q1 = 하위 25% |
Q2 = 50% 위치 |
Q3 = 하위 75% |
Q3 + 1.5×IQR |
Q1~하위경계 Q3~상위경계 |
수염 바깥 데이터 |
- 변수 (Feature): 데이터 모델에서 예측에 사용되는 입력변수
- 독립변수: 종속변수에 영향 주는 변수 (의도적으로 변화시킴)
- 종속변수: 독립변수로부터 영향 받는 변수 (연구대상)
- 변수 선택 (Feature Selection): 종속변수와 가장 관련성 높은 독립변수만 선정하는 방법
- 변수 선택 기법: 필터/ 래퍼/ 임베디드 기법
< 필터 기법 > 통계적 특성으로부터 변수 선택 |
< 래퍼 기법 > 변수 일부만으로 모델링 반복 |
< 임베디드 기법 > 모델 자체에 변수 선택 포함 |
|||
정보 소득 | 가장 높은 속성선택 | RFE | SVM-재귀적제거 | 라쏘 LASSO | 절댓값합 최소화 L1 |
카이제곱 검정 | 관찰-기대빈도비교 | SFS | 그리디알고리즘 | 릿지 Lidge | 제곱합 최소화 L2 |
피셔 스코어 | 뉴턴의 방법 | 유전 알고리즘 | 전역 최적화기법 | 엘라스틱넷 | 라쏘-릿지 선형결합 |
상관 계수 | 두변수간통계적관계 | 단변량 선택 | 각 속성 개별검사 | SelectFromModel | 의사결정나무 기반 |
mRMR | 중복성 최소화 |
- 차원 축소 (Dimensionality Reduction): 정보를 최대한 유지하면서, 변수 개수를 최대한 줄이는 탐색적 분석기법
- 특성변수=독립변수만 사용하므로, 비지도 학습 머신러닝 기법
- 변수들 간 내재된 특성/관계를 분석하여, 새로운 결합변수만으로도 전체변수를 적절히 설명할 수 있어야 함
- 고차원 변수보다 변환된 저차원으로 학습할 경우, 머신러닝 알고리즘이 더 잘 작동됨
주성분분석 PCA | 특이값분해 SVD | 요인분석 | 독립성분분석 ICA | 다차원척도법 MDS |
변수들의 공분산행렬/ 상관행렬 이용함 (NxN 정방행렬) |
차원 행렬데이터에서 특이값 추출 (MxN 행렬) |
잠재적인 변수가 존재한다고 가정함 |
다변량 신호를 독립적 하부성분 분리 |
개체들 간의 유사성/비유사성 측정 |
선형연관성 없는 저차원공간으로 변환 (서로 직교하도록) |
데이터셋을 효과적으로 축약 |
잠재요인을 도출하여 데이터안의 구조해석 |
독립성분의 분포는 비정규 분포를 따름 |
점으로 표현하여 집단화를 시각적 표현 (저차원으로 사상) |
- 파생변수 (Derived Variable): 기존 변수에 특정 조건/함수 등을 사용하여 새롭게 재정의한 변수
- 파생변수 생성방법: 단위 변환/ 표현형식 변환/ 요약통계량 변환/ 변수 결합(수학적 결합)
- 변수 변환: 불필요한 변수 제거/ 반환/ 새로운 변수 생성 (단순 기능 변환/ 비닝/ 정규화/ 표준화)
단순 기능 변환 | 비닝 Binning | 정규화 | 표준화 |
치우친 변수를 변환 | 연속형데이터를 범주화 | 특정 구간으로 바꿈 | 0을 중심으로 양쪽 분포 |
우측 꼬리 길 때: 루트, 로그 좌측 꼬리 길 때: 제곱 |
비즈니스 도메인 지식이 필요함 |
최소-최대 정규화 Z-스코어 정규화 |
Z = (x - x_bar) / s |
- 불균형 데이터 처리: 타겟 데이터 매우 극소수인 경우, 정밀도 향상을 위함
- 처리 기법: 언더샘플링/ 오버샘플링/ 임곗값이동/ 앙상블기법
- 임곗값 이동: 데이터 많은 쪽으로 임곗값(귀무가설 기각여부를 결정하는 값)을 이동시킴
- 앙상블 기법: 서로 같은/다른 여러 모형들의 예측/분류 결과를 종합
< 언더 샘플링 > 다수 클래스 데이터를 일부만 선택하여 비율을 맞춤 |
< 오버 샘플링 > 소수 클래스 데이터를 복제/생성하여 비율을 맞춤 |
||
랜덤 언더 샘플링 | 무작위로 일부 선택 | 랜덤 오버 샘플링 | 무작위로 복제 |
토멕 링크 방법 | 경계선 가까이 존재하는 토멕 링크를 제거함 |
SMOTE | 가상의 직선 위에 데이터 추가 |
ENN | 소수 클래스 주위에 인접한 다수 클래스 데이터 제거 |
Borderline-SMOTE | 다수 클래스와 소수 클래스의 경계선에서 SMOTE 적용 |
CNN | 다수 클래스에 밀집된 데이터가 없을 때까지 제거 |
ADASYN | 모든 소수 클래스에서 다수 클래스의 관측비율 계산 → SMOTE 적용 |
OSS | 토멕 링크 + CNN |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST