반응형
SMALL
[빅데이터분석기사 필기 3과목] III. 빅데이터 모델링
02. 분석기법 적용 - [1] 분석기법
- 회귀분석: 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 변수들 사이의 인과관계를 밝히고 모형을 적합하여, 관심있는 변수를 예측/추론하기 위한 분석방법
회귀모형 가정 | 회귀모형 검증 | ||
선형성 | 독립변수-종속변수 관계 선형 | 통계적 유의미 | F-통계량, p-value |
독립성 | 잔차-독립변수 값 관계없음 | 회귀계수 유의미 | T-통계량, p-value, 신뢰구간 |
등분산성 | 오차들의 분산 일정 | 모형의 설명력 | 결정계수(R²) |
비상관성 | 오차들끼리 상관없음 | 모형이 데이터를 적합 | 잔차 그래프 |
정상성 | 오차항이 정규분포 이룸 | 데이터가 가정 만족 | 5개 가정 |
- 편차 vs. 오차 vs. 잔차
편차 Deviation | 오차 Error | 잔차 Residual |
평균과의 차이 = 관측값-평균값 차이 = 관측값이 평균에서 떨어져 있는 정도 |
모집단에서 실젯값과 회귀선의 차이 = 예측값이 정확하지 못한 정도 |
표본집단에서 관측값과 회귀선의 차이 = 추정된 값을 설명하지 못하고 남은 편차 |
- 회귀분석 유형: 단순/ 다중/ 다항/ 곡선/ 로지스틱/ 비선형
단순회귀 | 다중회귀 | 다항회귀 | 곡선회귀 | 로지스틱회귀 | 비선형회귀 |
독립변수 1개 직선 |
독립변수 K개 선형 (1차함수) |
관계가 1차함수 이상 |
독립변수 1개 곡선 |
종속변수 범주형(2진변수) |
회귀식 모양이 선형이 아님 |
- 단순선형/ 다중선형/ 로지스틱 회귀분석
- 선형회귀의 문제점: 0 이하 or 1 이상의 값을 예측값으로 줄 수 있으므로, 확률값으로 직접 해석할 수 없음
단순선형 회귀분석 | 다중선형 회귀분석 | 로지스틱 회귀분석 | |||
회귀식 | y=β₀+β₁Xi+ei | 회귀식 | y=β₀+β₁X₁+...+e | 승산(Odds) | p / (1-p) |
독립변수 | 1개 | 독립변수 | 여러 개 | 독립변수 | 범주형 |
종속변수 | 1개 | 종속변수 | 1개 | 회귀계수 β₁ > 0 | S자 모양 |
독립-종속관계 | 선형관계 | 통계적 유의성 | F통계량=MSR/MSE | β₁ < 0 | 역 S자 모양 |
오차항 | 독립적 N(0,σ²) | F-통계량↑ | p-value ↓ | R-모형적합 | glm() |
최소제곱법 | 최소의 오차제곱합 | 다중공선성 | 분산팽창요인 VIF | R-탐색적분석 | cdplot() |
결정계수 | R²=SSR/SST (0~1) | 변수선택방법 | 전진/후진/단계적 | R-변수선택 | step() |
용어 | 설명 |
최소제곱법 | 오차제곱합이 최소가 되는 회귀계수를 찾는다 (계수 = 식 앞에 곱해지는 상수) |
제곱합 | SST=전체제곱합/ SSE=오차제곱합/ SSR=회귀제곱합 |
결정계수 R² = SSR/SST |
- 전체 데이터를 회귀모형이 얼마나 잘 설명하고 있는지 보여주는 지표 - 독립변수가 종속변수 변동의 몇 %를 설명하는지 나타내는 지표 - 회귀선의 정확도를 평가함 |
수정된 결정계수 | 독립변수 개수가 많아지면 결정계수가 높아지는 단점을 보완 |
다중공선성 | 독립변수들 사이의 선형관계가 있는지 확인 → 변수제거/ 주성분회귀/ 능형회귀 |
- 의사결정나무 (Decision Tree)
- 데이터들이 가진 속성들로부터 분할기준 속성을 판별하고,
분할기준 속성에 따라서 트리형태로 모델링하는 분류 예측 모델
- 분류함수를 활용하여, 의사결정규칙으로 이루어진 나무모양을 그리는 기법
- 연속적으로 발생하는 의사결정문제를 직접적으로 시각화하여, 결정이 이루어지는 시점&결과파악을 쉽게 해줌 - 의사결정나무 종류/ 활용/ 장단점
종류 | 활용 | 장점 | 단점 |
분류 나무 (분류) | 세분화/ 분류 | 해석의 용이성 | 비연속성 |
회귀 나무 (예측) | 예측 | 상호작용 효과 해석 가능 | 비안정성 |
차원축소 및 변수선택 | 비모수적 모형 (가정필요X) | 선형성/ 주효과 결여 | |
교호작용 효과파악 | 유연성&정확도 높음 |
- 의사결정나무 구성요소: 부모마디/ 자식마디/ 뿌리마디/ 끝마디/ 중간마디/ 가지/ 깊이
부모 마디 | 자식 마디 | 뿌리 마디 | 끝 마디=잎 노드 | 중간 마디 | 가지 | 깊이 |
상위에 위치함 |
분리됨 2개이상 |
시작 마디 전체포함 |
자식 없음 | 부모,자식 둘다 있음 |
뿌리-끝까지 연결된 마디들 |
뿌리-끝까지 중간마디 개수 |
- 의사결정나무 분석과정: 성장 - 가지치기 - 타당성평가 - 해석&예측
성장 Growing | 가지치기 Pruning | 타당성 평가 | 해석 및 예측 |
- 적절한 분리규칙을 찾아 나무를 성장시키는 과정 - 정지규칙을 만족하면 중단 |
과대/과소적합 방지 위해 불필요한 가지를 제거 - 오류 크게할 위험 높음 - 부적절한 추론규칙 가짐 |
교차 타당성 등을 이용함 - 이익도표/ 위험도표 - 시험자료 등을 활용 |
- 구축된 모형을 해석 - 분류&예측에 활용 |
- 의사결정나무 성장: X들로 이루어진 입력공간을 재귀적으로 분할하는 과정
분리 기준 | 분류 규칙 | 정지 규칙 | 순수도 (Purity) |
- 자식마디들이 형성될 때, 입력변수 선택&범주 병합이 이루어질 기준 - 목표변수의 분포를 가장 잘 구별해주는 기준으로 분리 |
- 각 단계에서 최적분리기준에 의한 분할을 찾는 과정 반복! - 최적 분할은 불순도 감소량을 가장 크게 하는 분할 |
- 현재 마디가 끝 마디가 되도록 하는 규칙 - (ex1) 나무 깊이 지정 - (ex2) 끝마디 자료 최소개수 지정 |
목표변수의 특정범주에 개체들이 포함되어있는 정도 목표변수의 분포를 가장 잘 구별해주는 기준으로 분리하면 부모보다 자식에서 순수도↑ |
- 목표변수에 따른 분리 기준
이산형 목표변수에서 사용 | 연속형 목표변수에서 사용 | ||
카이제곱 통계량의 p-값 ↓ | 기댓값과 실젯값의 차이 | 분산분석의 F-통계량 ↑ | p-값 최소화 |
지니 지수 ↓ | 노드 불순도를 나타냄 | 분산의 감소량 ↑ | 예측오차 최소화 |
엔트로피 지수 ↓ | 열역학에서 무질서 정도 |
- 의사결정나무 알고리즘: CART/ C4.5 & C5.0/ CHAID/ QUEST
CART | C4.0 & C5.0 | CHAID | QUEST |
- 독립변수 이분화 반복 - 이진 트리형태로 분류 - 가장 널리 사용됨 |
- 목표변수는 반드시 범주형 - 범주 개수만큼 분리 - 가지치기에서 학습자료 사용 |
- 입력변수는 반드시 범주형 - 가지치기 X - 적당한 크기에서 성장 중지 |
- 편향문제 있는 CART 개선 - 변수선택 편향 없음 - 분리규칙을 2단계로 나눔 |
- 이산: 지니 지수 - 연속: 분산 감소량 |
- 기준: 엔트로피 지수 | - 카이제곱 통계량 - F-통계량 |
- 카이제곱 통계량 - F-통계량 |
- 분리: 이진 | - 분리: 다지 | - 분리: 다지 | - 분리: 이진 |
- 인공신경망 (ANN): 사람 두뇌의 신경세포인 뉴런의 전기신호 전달을 모방을 기계학습 모델
- 변수가 많은 경우/ 복잡한 비선형 관계인 경우에 유용한 모델/ 잡음에 민감 X - 활성화 함수/ 활성 함수: 입력신호의 총합을 출력신호로 변환하는 함수 (얼마나 출력할지 & 활성화 여부를 결정함)
<1세대> 퍼셉트론 등장 | <2세대> 다층 퍼셉트론 등장 | <3세대> 인공지능 부각 |
퍼셉트론 (Perceptron) - 최초의 인공신경망: 입력층+출력층 |
다층 퍼셉트론 (MLP) - 하나 이상의 은닉층 - 비선형적 분리 가능 |
인공지능 & 빅데이터 - CNN, RNN 등의 딥러닝 기술 - 빅데이터의 수집&분석 가능 |
순방향 신경망: 입력-은닉-출력 - 선형 분류 가능 |
역전파 알고리즘: 출력-은닉-입력 - 오차를 최소화시키도록 학습 진행 |
기울기 소실 해결: tanh, ReLU - Leaky ReLU, Softmax 등으로 발전 |
XOR 선형 분리 불가 문제 - 선형 분류만 가능한 퍼셉트론으로 XOR 연산을 할 수 없다! |
기울기 소실 (사라지는 경사) - 활성함수: 시그모이드 함수 - 편미분 반복하면 기울기가 0에 수렴 |
딥러닝 기술 발전 - CNN: 컨볼루션/ 합성곱 신경망 - RNN: 순환 신경망 |
- 퍼셉트론: 입력값 - 가중치 - 순 입력함수 - 활성함수 - 출력값/예측값 (-1 or 1)
퍼셉트론 구성 | 활성화 함수 종류 | ||
입력값 | 훈련 데이터 | 계단함수: 1 or 0 | 부호함수: +1 or -1 |
순 입력함수 | 입력값-가중치 곱하고 모두 합함 | 시그모이드 함수 | 기울기소실 원인 (0~1) |
활성함수 | 순 입력함수 값과 임계값 비교 | 하이퍼볼릭 탄젠트 함수 | 기울기소실 해결! |
출력값 | -1 또는 +1를 출력 | ReLU 함수 | 기울기소실 해결/ 뉴런 죽음 |
가중치 업데이트 | 예측값-실제값 다르면 업데이트 | Leaky ReLU | ReLU의 뉴런이 죽는문제 해결! |
- 서포트 벡터 머신 (SVM): 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는, 지도학습기반의 이진선형 분류모델
SVM 구성요소 | SVM 특징 | ||
초평면 Hyperplane | n차원 공간의 (n-1)차원 평면 | 최적의 분리 초평면 | 마진 최대화시키는 결정경계 |
결정 경계 | 데이터 분류의 기준 | 훈련시간↑ | 정확도↑ 과대적합 가능성↓ |
서포트 벡터 | 결정 경계와 가장 가까운 데이터들의 집합 |
변수 속성 | - 모든 속성을 활용O - 속성간 의존성 고려X |
마진 (여유공간) | 결정 경계-서포트 벡터간 거리 | 활용 | 사물/패턴/손글씨숫자 인식 |
슬랙변수 (여유변수) | 허용된 오차를 위한 변수 | 소프트 마진 SVM | 어느정도의 오분류를 허용O |
- 서포트 벡터 머신 적용기준: 선형 분리가 가능하면 +1과 -1로 분류/ 선형 분리 불가능하면 커널 트릭을 활용함
커널 트릭 Kernel Trick | 커널 함수 |
2차원에서 분류 불가능 → 3차원공간에 매핑하여 선형분류 | 저차원에서 함수계산만으로 원하는 풀이가 가능함 |
고차원공간으로 매핑하면서 증가하는 연산복잡성을 해결 | 가우시안 RBF커널/ 다항식 커널/ 시그모이드 커널 등 |
- 연관성 분석: 데이터 내부에 존재하는 항목간의 상호관계/ 종속관계를 찾아내는 분석기법 (장바구니 분석)
- 목적변수 없음/ 조건-반응으로 표현됨
- 향상도=1이면 서로 독립
향상도>1이면 양의 상관관계/ 향상도<1이면 음의 상관관계
지지도 Support | 신뢰도 Confidence | 향상도 Lift |
A, B를 동시 구매한 비율 | 조건부 확률: A구매 → B구매 | 거래간 연관성 정도 |
P(A⋂B) | P(A⋂B) / P(A) | P(A⋂B) / P(A)P(B) |
- 군집 분석 (Clustering Analysis):
여러 개의 관측값들로부터 유사성에만 기초하여,
n개의 군집으로 집단화하여 집단의 특성을 분석하는 다변량 분석기법 - 군집분석 종류: 계층적 군집/ 비 계층적 군집/ 혼합분포 군집/ 자기조직화지도 등
계층적 군집: 군집개수 정하지 않음 | 비 계층적 군집: 군집개수 K 미리 정함 |
병합적 방법: 작은 군집 → 병합해나감 | K-평균 군집: k개의 군집 묶음 → 군집평균 재계산 → 반복 |
분할적 방법: 큰 군집(전체) → 분리해나감 | 혼합분포 군집: 모수적 모형 기반 군집화 방법 |
계통도/ 덴드로그램: 결합되는 순서를 나타내는 트리형태 구조 | 자기 조직화 지도: 비지도 신경망 클러스터링 |
- 계층적 군집: 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성함
- 군집 간의 거리측정 방법: 개체간 유사성/거리 측정을 위한 방법들 - 최단/ 최장/ 중심/ 평균/ 와드연결법
최단 연결법 | 최장 연결법 | 중심 연결법 | 평균 연결법 | 와드 연결벌 |
최솟값으로 측정 | 최댓값으로 측정 | 두 군집 중심간 거리 | 모든항목의 거리평균 | 군집 내 오차제곱합 |
- 군집 간의 거리계산:
- 연속형변수 - 수학적거리: 유클리드/ 맨하튼/ 민코프스키
- 연속형변수 - 통계적거리: 표준화/ 마할라노비스
- 명목형변수 - 단순일치/ 자카드계수
- 순서형변수 - 순위상관계수
연속형 변수 거리 | 명목형 변수 거리 | ||
유클리드 거리 | 차이값들의 제곱합을 제곱근 | 단순일치 계수 | 일치하는 속성 / 전체 속성 |
맨하튼 거리 | 절댓값들의 합 | 자카드 계수 | 유사도 측정 (0~1) |
민코프스키 거리 | m차원 민코프스키 공간 | 순위상관 계수 | 순서형 자료/ 순위 매김 |
표준화 거리 | 측정단위를 표준화 | ||
마할라노비스 거리 | 표준화+상관성 동시에 고려 |
- K-평균 군집: 주어진 데이터를 K개의 군집으로 묶는 알고리즘 (K개 객체선택 - 할당 - 중심갱신 - 반복)
절차: 중심 갱신 반복 | 단점: 이상값에 민감 |
- 각 군집 내 자료들의 평균을 계산하여 중심을 갱신 - 중심 변화가 거의 없을 때 or 최대 반복 수까지 반복 |
- 보완방법1: 이상값 미리 제거 - 보완방법2: K-중앙값 군집화 |
- 혼합분포 군집:
데이터가 k개의 모수적 모형의 가중합으로 표현되는
모집단 모형에서 나왔다는 가정 하에, 모수&가중치를 추정
혼합분포 군집화 방법 | 혼합모형 = M개 분포의 가중합 | EM 알고리즘 (기댓값 최대화) |
추정된 k개의 모형(군집)들 중에서 어느 모형(군집)에서 나왔을 확률이 높은지에 따라서 군집을 분류한다 |
- 단일모형보다 복잡한 표현식 - 최대가능도 추정을 위해서 EM 알고리즘을 활용한다 |
E-step: 잠재변수 Z의 기댓값 계산 M-step: 기댓값 이용하여 파라미터 추정 E-M-E-M-... 반복! |
- 자기 조직화 지도 (SOM)
대뇌피질&시각피질의 학습과정을 기반으로 모델화한 비지도 신경망 클러스터링 기법
자기조직화지도 특징 | 입력층 Input Layer | 경쟁층 Competitive Layer |
경쟁학습 & 승자독식구조 | 입력벡터를 받는 층 | 2차원 m×m격자로 구성된 층 |
고차원데이터를 저차원뉴런으로 정렬 | 입력층-경쟁층의 뉴런들은 완전 연결 | 입력벡터 특성에 따라, 한 점으로 군집화 |
지도 형태로 형상화 | 지도: 입력층에서 학습→경쟁층에 정렬 | 경쟁학습으로 연결강도 재조정을 반복 |
입력변수의 위치관계를 그대로 보존 | 경쟁층에 승자 뉴런만 나타남 |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST