카테고리 없음

[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (1)

K-pop put master 2024. 2. 15. 05:18
반응형
SMALL

[빅데이터분석기사 필기 4과목] IV. 빅데이터 결과 해석
 
01. 분석 모형 평가 및 개선
 
 

  • 분석모형 평가기준: 일반화 가능성/ 효율성/ 예측과 분류의 정확성

 

일반화 가능성효율성예측과 분류의 정확성
데이터를 확장하여 적용할 수 있는가
(안정적인 결과를 제공하는가)
적은 입력변수가 필요할수록
효율성이 높은 것으로 평가함
정확성 측면에서 평가함

 
 

  • 모형 평가지표

 

회귀 모형 (예측 모형) 평가지표분류 모형 평가지표
- 실제값/ 예측값/ 평균값
- 오차제곱합 SSE
- 전체제곱합 SST
- 회귀제곱합 SSR
- 결정계수 R² = SSR / SST (and 수정된 결정계수)
- Mallow's Cp
- 혼동 행렬 Confusion Matrix
- 정확도/ 민감도/ 정밀도/ F1-score
- ROC Curve
- AUC (Area Under ROC)
- 이익 도표 Gain Chart

 
 

  • 회귀 모형 평가지표: 제곱합(SSE/ SST/ SSR)/ 결정계수/ 수정된 결정계수/ Mallow's Cp

 

제곱합 Sum of Square결정계수 R²수정된 결정계수 R²adjMallow's Cp
             SST = SSE + SSR

- SST: 실젯값-평균값의 차이
- SSE: 실젯값-예측값의 차이
- SSR: 예측값-평균값의 차이
         R² = SSR / SST (0~1)
- 회귀모형이 실젯값을 얼마나
  잘 나타내는지에 대한 비율
- 선형회귀의 성능 검증지표
- 독립변수 개수가 많은 경우,
  유의하지 않아도 증가함
                   R²adj < R²
- 결정계수의 단점을 보완함
- 적절하지 않은 독립변수를
  추가할수록, 패널티를 부과함
- 수정된 결정계수는 원래
  결정계수보다 항상 작다!
- 적절치 않은 독립변수 추가에
  대한 패널티를 부과한 통계량
- Cp값이 작을수록, 모형은
  실젯값을 잘 설명함
- p = 선택된 독립변수의 개수

 
 

  • 분류 모형 평가지표: 혼동 행렬/ ROC곡선/ AUC/ 이익 도표

 

혼동 행렬 ROC Curve & AUC 이익 도표
예측값과 실제값의 
일치빈도를 통해
모델 정확도 평가
X axis = FP rate
Y axis = TP rate
반비례 관계 (Trade-off)
- 이익: 목표범주에 속한 개체들이
  임의로 나눈 등급별로
  얼마나 분포하고 있는지 나타내는 값
- TP = Pos를 Pos로 예측 (맞음)
- FN = Pos를 Neg로 예측 (틀림..)
- TN = Neg를 Neg로 예측 (맞음)
- FP = Neg를 Pos로 예측 (틀림..)
- 곡선이 왼쪽꼭대기에 가까울수록
  모델의 분류 성능이 우수하다
- AUC = ROC 곡선 아래 면적 (0.5~1.0)
- AUC는 1에 가까울수록 정확도 높음
- 그래프를 분석하여 분류 성능 평가함
- 이익도표 = 이익곡선 = 리프트곡선을
  통해 분류 모델의 성능을 평가한다

 
 

  • 혼동 행렬을 이용한 분류 모형의 평가지표:

 
 

 
 
 

  • 분석 모형 진단: 오류/ 검증/ 시각화/ 진단

 

분석 모형의 오류분석 모형 검증분석 모형 시각화분석 모형 진단
일반화 오류 = 과대적합
- 데이터 특성 지나치게 반영
- 주변적 특성&잡음까지 묘사
홀드아웃 교차검증
- 겹치지 않도록 무작위 구분
- 학습집합: 모형 구축
- 시험집합: 성능 평가
정보 구조화
→ 정보 시각화
→ 정보 시각표현
분석모형의 
기본가정에 대한
진단이 필요함
학습 오류 = 과소 적합
- 주어진 데이터를 덜 반영
다중 교차검증
- 같은크기 k개로 무작위 나눔
 -학습집합: (k-1)개
- 시험집합: 1개
- 구조화: 수집 및 탐색/
  분류/ 배열 및 재배열
- 시각화: 시각/ 분포/ 관계/
  비교/ 공간 시각화
회귀모형: 잔차 산점도를 이용
- 선형성/ 독립성/ 등분산성
- 정상성(정규성)

 


 

  • 교차검증
    - 모델의 일반화 오차에 대해, 신뢰할만한 추정치를 구하기 위한 검증기법
    - 훈련 데이터, 평가 데이터를 기반으로 하는 검증기법
  • 교차검증 종류: 홀드아웃 교차검증/ 랜덤 서브샘플링/ K-Fold/ LOOCV/ LpOCV/ RLT/ 부트스트랩

 
 

 
 
 

  • 홀드 아웃 교차 검증: 비복원 추출 - 랜덤하게 학습/평가데이터로 나누어 검증 (5:5, 3:7, 2:1, ...)
  • 랜덤 서브샘플링: 모집단으로부터 조사대상이 되는 표본을 무작위로 추출하는 기법
  • K-Fold Cross Validation:
    데이터집합을 무작위/ 동일크기/ K개의 부분집합으로 나눔 - K개의 실험결과를 종합 - 최종성능 구함

 

홀드 아웃 교차 검증랜덤 서브샘플링K-Fold Cross Validation
비복원 추출
랜덤하게 나눔
데이터 손실 O
랜덤 추출
홀드아웃 반복
데이터 손실 X
랜덤 추출
동등 분할
데이터 손실 X
- 계산량/비용 적음
- 평가 데이터는 학습에 사용할 수
  없으므로 데이터 손실이 발생함
- 어떻게 나누느냐에 따라 결과 달라짐
- 측정/평가 비용 가장 적음↓
- 미래예측 시, 신뢰성 추정할 수 없음
- 모든 데이터를 학습/평가에 사용 가능
- K개 실험결과 종합하여 최종성능 구함
- K값 증가↑ 계산량/시간↑
- 학습 데이터: 분류기 만들 때 사용
- 검증 데이터: 매개변수 최적화
- 평가 데이터: 분류기 성능 평가
- 각 샘플들을 학습/평가에 얼마나
  사용할지 횟수 제한이 없음
- 특정 데이터만 학습할 가능성 O..
- 같은 크기의 부분집합 K개
- 학습 데이터: K-1 개
- 평가 데이터: 1 개

 
 

  • LOOCV (Leave-One-Out Cross Validation)/ LpOCV (Leave-p-Out Cross Validation)
  • RLT (Repeated Learning-Testing)/ Bootstrap

 

LOOCVLpOCVRLTBootstrap
- K-Fold와 같은 방법(K=N)
- 교차검증 N번 반복
- 가능한 많은 데이터 학습 가능
- p개 샘플을 테스트에 사용
- 교차검증 nCp번 반복
- nCp = n! / (n-p)!p!
- 비복원 추출
- 랜덤하게 나눔
- 에러/ 평균오류율 계산
- 단순랜덤 복원추출
- 복원추출이므로 중복 O
- 동일크기 표본 여러개 생성
- 계산량/시간/비용 가장비쌈↑
- 작은 크기에 데이터에 적합
- 계산시간 부담 매우 큼↑① 랜덤하게 학습/검증 분리
② 학습데이터로 훈련
③ 검증데이터로 오류 계산
- 특정 샘플이 학습데이터에
  포함될 확률=약 63.2%
- 선택되지 않을 확률=약 36.8%
- 전체 데이터: N개
- 학습 데이터: N-1 개
- 평가 데이터: 1개
- 전체 데이터: N개
- 학습 데이터: N-p 개
- 평가 데이터: p개
④ 2,3단계를 2회 더 반복
⑤ 평균오류율 E = ∑Ei / N
- 학습데이터에 한 번도
  포함되지 않은 데이터는
  평가(테스트)에 사용됨

 


 

  • 모집단/ 모수/ 표본/ 통계량

 

모집단 Population모수 Parameter표본 Sample통계량 Statistics
분석/관심 대상 전체모집단을 설명하는 어떤 값
모집단의 특성을 나타내는 값
모집단 일부
모집단 분석을 위해 추출함
표본의 특성을 나타내는 값

 
 

 
 
 

  • 모집단 평균에 대한 유의성 검정: Z-검정/ T-검정/ 분산분석 ANOVA
  • 모집단 분산에 대한 유의성 검정: 카이제곱검정/ F-검정

 

Z-검정T-검정분산분석 ANOVA카이제곱검정F-검정
검정통계량 분포를
귀무가설 하에서
정규분포로 근사할
수 있는 통계검정
검정통계량이
귀무가설 하에서
T-분포를 따르는
통계검정
- 2개 이상
  집단간 비교
- 일원: 독립변수 1개
- 이원: 독립변수 2개
- 관찰빈도-기대빈도
  유의하게 다른가
- 2개 집단간 동질성
- 카이제곱분포에 기초
- 두 표본의 분산
  유의하게 다른가
- F-분포에 기초
- 모분산을 알고 있음
- 추출된 표본이 같은
  모집단에 속하는가
- 모분산 모르는 경우
- 두 집단간 평균 비교
- 분산비교로 얻은
  F-분포를 이용함
- 모집단이 정규분포 따름
- 분산 알고 있는 경우
 - 두 모집단의 분산 간
   비율에 대해 검정
- F = s₁² / s₂² 

 
 

  • 적합도 검정 (Goodness of Fit Test): 표본집단의 분포가 주어진 특정 이론을 따르고 있는지 검정

  • 적합도 검정 기법
    - 가정된 확률이 정해진 경우 ⇒ 카이제곱 검정
    - 가정된 확률이 없는 경우 ⇒ 정규성검정: 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot

 

샤피로-윌크 검정 Shapiro-Wilk Test콜모고로프-스미르노프 검정 K-S TestQ-Q Plot
- H0: 표본은 정규분포를 따른다
- 데이터 개수가 적은 경우
- 데이터가 어떤 특정한 분포를 따르는가
- 비교기준을 정규분포 데이터로 둔다
- 데이터 개수가 많은 경우
- 그래프: 시각적으로 검정 & 보조용
- 대각선 참조선을 따라서 데이터값들이
  분포하면, 정규성 분포를 만족한다고 판단
R: shapiro.test()R: ks.test()기준 모호 & 결과해석 주관적

 


 

  • 과대 적합 & 일반화

 

과대 적합 Over-fitting일반화 Generalization
제한된 학습 데이터셋에 지나치게 특화되어,
새로운 데이터에 대한 오차가 매우 커지는 현상
- 테스트 데이터에 대해 높은 성능을 갖춤
- 정상 추정 O
- 모델 파라미터 개수가 많은 경우
- 학습 데이터 개수가 부족한 경우
- 과소 적합 X
- 과대 적합 X

 
 

  • 과대 적합 방지: 데이터 증강/ 모델복잡도 감소/ 가중치 규제/ 드롭아웃

 

데이터 증강모델의 복잡도 감소가중치 규제 적용드롭아웃 Dropout
- 학습데이터 양이 적은 경우
- 데이터를 변형하여 늘림
- 인공신경망의 복잡도 감소
- 은닉층의 개수 감소↓
- 모델의 수용력 낮춤↓
- 개별 가중치 값을 제한하여
  복잡한 모델을 간단하게 함
- L1규제 & L2규제
- 학습과정에서 신경망
  일부를 사용하지 않음
- 예측과정에서는 사용 X

 
 

  • 가중치 규제 적용

 

가중치 규제 개념가중치 규제 종류
비용함수하이퍼파라미터 λL1 규제 λ |w|L2 규제 (1/2) λw²
- 관측값-연산값 차이 도출
- 비용함수 최소화를 위해
  가중치들 값이 작아져야 함
- 규제 강도를 정함
- λ값 크면, 가중치 규제를
  위해 추가한 항들을 작게 유지
모든 가중치들의
절댓값 합
비용함수에 추가함
모든 가중치들의
제곱합
비용함수에 추가함

 
 

  • 드롭아웃 (Dropout): 학습과정에서 신경망 일부를 사용하지 않는 과대적합 방지 방법

 

드롭아웃 특징초기 드롭아웃 DNN공간적 드롭아웃 CNN시간적 드롭아웃 RNN
- 특정 뉴런/조합에 너무 의존
   적인 신경망이 되는 것 방지
- 매번 랜덤으로 뉴런 선택
- 앙상블과 같은 효과
- 학습과정 O 예측과정 X
- p의 확률로 노드들을 생략
(ex) 일반적으로 p = 0.5
         학습과정마다 랜덤으로
         절반의 뉴런을 사용X
- DNN 심층신경망에서 사용
- 특징맵 내의 노드 전체
  대해 드롭아웃 적용여부 결정
- CNN 합성곱신경망에서 사용
- 노드가 아니라,
   연결선 일부를 생략하는 방식
- RNN 순환신경망에서 사용

 
 

  • 매개변수/ 매개변수 최적화

 

매개변수 Parameter매개변수 최적화 Parameter Optimization
주어진 데이터로부터 학습을 통해,
모델 내부에서 결정되는 변수
- 손실함수: 학습모델의 출력값과 실제값의 차이 (오차)
- 모델의 학습 목적: 오차/손실함수 값을 최대한 작게 하도록 하는
   매개변수(가중치, 편향)을 찾는 것 ⇒ 매개변수 최적화
- 가중치 (Weight): 입력값마다 각기 다르게 곱해지는 수치
- 편향 (Bias): 가중합에 더해주는 상수
- 2차원 손실함수 그래프(X축:가중치, Y축:손실값)를 이용함
- 손실값 최소화 지점 = 그래프에서 기울기가 0인 지점
- 학습률이 적당해야 찾을 수 있음!

 
 

  • 매개변수 최적화 기법: 확률적 경사 하강법 →<단점 개선>→ 모멘텀/ AdaGrad/ Adam
  • SGD의 단점: 손실함수 그래프에서 지역극소점(Local)에 갇혀, 전역극소점(Global)을 찾지 못하는 경우가 발생함

 

확률적 경사 하강법 SGD 모멘텀 Momentum AdaGrad Adam
- 손실함수 기울기를 따라
  조금씩 아래로 내려감
- 손실함수 최소지점에 도달
- 학습 1회에 필요한 데이터를
  무작위로 선택함 (확률적)
- 모멘텀 = SGD + 속도
- 누적된 기울기 값에 의해
  빠르게 최적점으로 수렴
- 관성의 방향을 고려하여
  진동&폭을 줄이는 효과
- 진행할수록 학습률 감소↓
- 손실함수 처음 부분에선,
  기울기&학습률이 크다
- 최적적에 가까워지면,
  기울기&학습률이 크게 감소
- Adam = 모멘텀 + AdaGrad
- 탐색경로 또한 모멘텀과
   AdaGrad를 합친 양상
- 최적점 근처에서 느림
- 지그재그로 크게 변함
- SGD보다 지그재그 덜함
- 공이 그릇바닥을 구르듯!
- 지그재그 움직임이
  크게 줄어든다 (효율적 움직임)
- 모멘텀보다 좌우흔들림↓
- 공이 그릇바닥을 구르듯~

 
 

  • 분석 모형 융합 - 취합(Aggregation) & 부스팅(Boosting)

 

취합 방법론부스팅 방법론
다수결여러모형의 결과를 종합
직접투표/ 간접투표(가중치)
하나의 모형에서 시작하여,
각 약한 모형을 순차적으로 추가
배깅복원추출로 학습데이터 나눔
중복 허용 → 편향 가능성O
에이다 부스트- 정분류 샘플: 가중치 낮춤↓
- 오분류 샘플: 가중치 높임↑
페이스팅비복원추출 → 중복 허용 X그래디언트 부스트오분류 샘플의 에러를 최적화
랜덤 서브스페이스특성 샘플링  
랜덤 패치특성&학습데이터 둘다 샘플링  
랜덤 포레스트독립변수 차원을 랜덤하게
감소시킨 다음, 그중에서 선택
  

 
 

  • 최종 모형 선정: 최종모형 평가기준 선정 → 최종모형 분석결과 검토 → 알고리즘별로 결과 비교

 
 


 
참고 도서: 빅데이터분석기사 필기_수제비 2021
 
 

반응형
LIST