카테고리 없음
[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (1)
K-pop put master
2024. 2. 15. 05:18
반응형
SMALL
[빅데이터분석기사 필기 4과목] IV. 빅데이터 결과 해석
01. 분석 모형 평가 및 개선
- 분석모형 평가기준: 일반화 가능성/ 효율성/ 예측과 분류의 정확성
일반화 가능성 | 효율성 | 예측과 분류의 정확성 |
데이터를 확장하여 적용할 수 있는가 (안정적인 결과를 제공하는가) | 적은 입력변수가 필요할수록 효율성이 높은 것으로 평가함 | 정확성 측면에서 평가함 |
- 모형 평가지표
회귀 모형 (예측 모형) 평가지표 | 분류 모형 평가지표 |
- 실제값/ 예측값/ 평균값 - 오차제곱합 SSE - 전체제곱합 SST - 회귀제곱합 SSR - 결정계수 R² = SSR / SST (and 수정된 결정계수) - Mallow's Cp | - 혼동 행렬 Confusion Matrix - 정확도/ 민감도/ 정밀도/ F1-score - ROC Curve - AUC (Area Under ROC) - 이익 도표 Gain Chart |
- 회귀 모형 평가지표: 제곱합(SSE/ SST/ SSR)/ 결정계수/ 수정된 결정계수/ Mallow's Cp
제곱합 Sum of Square | 결정계수 R² | 수정된 결정계수 R²adj | Mallow's Cp |
SST = SSE + SSR - SST: 실젯값-평균값의 차이 - SSE: 실젯값-예측값의 차이 - SSR: 예측값-평균값의 차이 | R² = SSR / SST (0~1) - 회귀모형이 실젯값을 얼마나 잘 나타내는지에 대한 비율 - 선형회귀의 성능 검증지표 - 독립변수 개수가 많은 경우, 유의하지 않아도 증가함 | R²adj < R² - 결정계수의 단점을 보완함 - 적절하지 않은 독립변수를 추가할수록, 패널티를 부과함 - 수정된 결정계수는 원래 결정계수보다 항상 작다! | - 적절치 않은 독립변수 추가에 대한 패널티를 부과한 통계량 - Cp값이 작을수록, 모형은 실젯값을 잘 설명함 - p = 선택된 독립변수의 개수 |
- 분류 모형 평가지표: 혼동 행렬/ ROC곡선/ AUC/ 이익 도표
혼동 행렬 | ROC Curve & AUC | 이익 도표 |
예측값과 실제값의 일치빈도를 통해 모델 정확도 평가 |
X axis = FP rate Y axis = TP rate 반비례 관계 (Trade-off) |
- 이익: 목표범주에 속한 개체들이 임의로 나눈 등급별로 얼마나 분포하고 있는지 나타내는 값 |
- TP = Pos를 Pos로 예측 (맞음) - FN = Pos를 Neg로 예측 (틀림..) - TN = Neg를 Neg로 예측 (맞음) - FP = Neg를 Pos로 예측 (틀림..) |
- 곡선이 왼쪽꼭대기에 가까울수록 모델의 분류 성능이 우수하다 - AUC = ROC 곡선 아래 면적 (0.5~1.0) - AUC는 1에 가까울수록 정확도 높음 |
- 그래프를 분석하여 분류 성능 평가함 - 이익도표 = 이익곡선 = 리프트곡선을 통해 분류 모델의 성능을 평가한다 |
![]() |
![]() |
![]() |
- 혼동 행렬을 이용한 분류 모형의 평가지표:

- 분석 모형 진단: 오류/ 검증/ 시각화/ 진단
분석 모형의 오류 | 분석 모형 검증 | 분석 모형 시각화 | 분석 모형 진단 |
일반화 오류 = 과대적합 - 데이터 특성 지나치게 반영 - 주변적 특성&잡음까지 묘사 | 홀드아웃 교차검증 - 겹치지 않도록 무작위 구분 - 학습집합: 모형 구축 - 시험집합: 성능 평가 | 정보 구조화 → 정보 시각화 → 정보 시각표현 | 분석모형의 기본가정에 대한 진단이 필요함 |
학습 오류 = 과소 적합 - 주어진 데이터를 덜 반영 | 다중 교차검증 - 같은크기 k개로 무작위 나눔 -학습집합: (k-1)개 - 시험집합: 1개 | - 구조화: 수집 및 탐색/ 분류/ 배열 및 재배열 - 시각화: 시각/ 분포/ 관계/ 비교/ 공간 시각화 | 회귀모형: 잔차 산점도를 이용 - 선형성/ 독립성/ 등분산성 - 정상성(정규성) |
- 교차검증
- 모델의 일반화 오차에 대해, 신뢰할만한 추정치를 구하기 위한 검증기법
- 훈련 데이터, 평가 데이터를 기반으로 하는 검증기법 - 교차검증 종류: 홀드아웃 교차검증/ 랜덤 서브샘플링/ K-Fold/ LOOCV/ LpOCV/ RLT/ 부트스트랩

- 홀드 아웃 교차 검증: 비복원 추출 - 랜덤하게 학습/평가데이터로 나누어 검증 (5:5, 3:7, 2:1, ...)
- 랜덤 서브샘플링: 모집단으로부터 조사대상이 되는 표본을 무작위로 추출하는 기법
- K-Fold Cross Validation:
데이터집합을 무작위/ 동일크기/ K개의 부분집합으로 나눔 - K개의 실험결과를 종합 - 최종성능 구함
홀드 아웃 교차 검증 | 랜덤 서브샘플링 | K-Fold Cross Validation |
비복원 추출 랜덤하게 나눔 데이터 손실 O | 랜덤 추출 홀드아웃 반복 데이터 손실 X | 랜덤 추출 동등 분할 데이터 손실 X |
- 계산량/비용 적음 - 평가 데이터는 학습에 사용할 수 없으므로 데이터 손실이 발생함 - 어떻게 나누느냐에 따라 결과 달라짐 | - 측정/평가 비용 가장 적음↓ - 미래예측 시, 신뢰성 추정할 수 없음 | - 모든 데이터를 학습/평가에 사용 가능 - K개 실험결과 종합하여 최종성능 구함 - K값 증가↑ 계산량/시간↑ |
- 학습 데이터: 분류기 만들 때 사용 - 검증 데이터: 매개변수 최적화 - 평가 데이터: 분류기 성능 평가 | - 각 샘플들을 학습/평가에 얼마나 사용할지 횟수 제한이 없음 - 특정 데이터만 학습할 가능성 O.. | - 같은 크기의 부분집합 K개 - 학습 데이터: K-1 개 - 평가 데이터: 1 개 |
- LOOCV (Leave-One-Out Cross Validation)/ LpOCV (Leave-p-Out Cross Validation)
- RLT (Repeated Learning-Testing)/ Bootstrap
LOOCV | LpOCV | RLT | Bootstrap |
- K-Fold와 같은 방법(K=N) - 교차검증 N번 반복 - 가능한 많은 데이터 학습 가능 | - p개 샘플을 테스트에 사용 - 교차검증 nCp번 반복 - nCp = n! / (n-p)!p! | - 비복원 추출 - 랜덤하게 나눔 - 에러/ 평균오류율 계산 | - 단순랜덤 복원추출 - 복원추출이므로 중복 O - 동일크기 표본 여러개 생성 |
- 계산량/시간/비용 가장비쌈↑ - 작은 크기에 데이터에 적합 | - 계산시간 부담 매우 큼↑ | ① 랜덤하게 학습/검증 분리 ② 학습데이터로 훈련 ③ 검증데이터로 오류 계산 | - 특정 샘플이 학습데이터에 포함될 확률=약 63.2% - 선택되지 않을 확률=약 36.8% |
- 전체 데이터: N개 - 학습 데이터: N-1 개 - 평가 데이터: 1개 | - 전체 데이터: N개 - 학습 데이터: N-p 개 - 평가 데이터: p개 | ④ 2,3단계를 2회 더 반복 ⑤ 평균오류율 E = ∑Ei / N | - 학습데이터에 한 번도 포함되지 않은 데이터는 평가(테스트)에 사용됨 |
- 모집단/ 모수/ 표본/ 통계량
모집단 Population | 모수 Parameter | 표본 Sample | 통계량 Statistics |
분석/관심 대상 전체 | 모집단을 설명하는 어떤 값 모집단의 특성을 나타내는 값 | 모집단 일부 모집단 분석을 위해 추출함 | 표본의 특성을 나타내는 값 |

- 모집단 평균에 대한 유의성 검정: Z-검정/ T-검정/ 분산분석 ANOVA
- 모집단 분산에 대한 유의성 검정: 카이제곱검정/ F-검정
Z-검정 | T-검정 | 분산분석 ANOVA | 카이제곱검정 | F-검정 |
검정통계량 분포를 귀무가설 하에서 정규분포로 근사할 수 있는 통계검정 | 검정통계량이 귀무가설 하에서 T-분포를 따르는 통계검정 | - 2개 이상의 집단간 비교 - 일원: 독립변수 1개 - 이원: 독립변수 2개 | - 관찰빈도-기대빈도가 유의하게 다른가 - 2개 집단간 동질성 - 카이제곱분포에 기초 | - 두 표본의 분산이 유의하게 다른가 - F-분포에 기초 |
- 모분산을 알고 있음 - 추출된 표본이 같은 모집단에 속하는가 | - 모분산 모르는 경우 - 두 집단간 평균 비교 | - 분산비교로 얻은 F-분포를 이용함 | - 모집단이 정규분포 따름 - 분산 알고 있는 경우 | - 두 모집단의 분산 간 비율에 대해 검정 - F = s₁² / s₂² |
- 적합도 검정 (Goodness of Fit Test): 표본집단의 분포가 주어진 특정 이론을 따르고 있는지 검정
- 적합도 검정 기법
- 가정된 확률이 정해진 경우 ⇒ 카이제곱 검정
- 가정된 확률이 없는 경우 ⇒ 정규성검정: 샤피로-윌크 검정/ 콜모고로프-스미르노프 검정/ Q-Q Plot
샤피로-윌크 검정 Shapiro-Wilk Test | 콜모고로프-스미르노프 검정 K-S Test | Q-Q Plot |
- H0: 표본은 정규분포를 따른다 - 데이터 개수가 적은 경우 | - 데이터가 어떤 특정한 분포를 따르는가 - 비교기준을 정규분포 데이터로 둔다 - 데이터 개수가 많은 경우 | - 그래프: 시각적으로 검정 & 보조용 - 대각선 참조선을 따라서 데이터값들이 분포하면, 정규성 분포를 만족한다고 판단 |
R: shapiro.test() | R: ks.test() | 기준 모호 & 결과해석 주관적 |
- 과대 적합 & 일반화
과대 적합 Over-fitting | 일반화 Generalization |
제한된 학습 데이터셋에 지나치게 특화되어, 새로운 데이터에 대한 오차가 매우 커지는 현상 | - 테스트 데이터에 대해 높은 성능을 갖춤 - 정상 추정 O |
- 모델 파라미터 개수가 많은 경우 - 학습 데이터 개수가 부족한 경우 | - 과소 적합 X - 과대 적합 X |
- 과대 적합 방지: 데이터 증강/ 모델복잡도 감소/ 가중치 규제/ 드롭아웃
데이터 증강 | 모델의 복잡도 감소 | 가중치 규제 적용 | 드롭아웃 Dropout |
- 학습데이터 양이 적은 경우 - 데이터를 변형하여 늘림 | - 인공신경망의 복잡도 감소 - 은닉층의 개수 감소↓ - 모델의 수용력 낮춤↓ | - 개별 가중치 값을 제한하여 복잡한 모델을 간단하게 함 - L1규제 & L2규제 | - 학습과정에서 신경망 일부를 사용하지 않음 - 예측과정에서는 사용 X |
- 가중치 규제 적용
가중치 규제 개념 | 가중치 규제 종류 | ||
비용함수 | 하이퍼파라미터 λ | L1 규제 λ |w| | L2 규제 (1/2) λw² |
- 관측값-연산값 차이 도출 - 비용함수 최소화를 위해 가중치들 값이 작아져야 함 | - 규제 강도를 정함 - λ값 크면, 가중치 규제를 위해 추가한 항들을 작게 유지 | 모든 가중치들의 절댓값 합을 비용함수에 추가함 | 모든 가중치들의 제곱합을 비용함수에 추가함 |
- 드롭아웃 (Dropout): 학습과정에서 신경망 일부를 사용하지 않는 과대적합 방지 방법
드롭아웃 특징 | 초기 드롭아웃 DNN | 공간적 드롭아웃 CNN | 시간적 드롭아웃 RNN |
- 특정 뉴런/조합에 너무 의존 적인 신경망이 되는 것 방지 - 매번 랜덤으로 뉴런 선택 - 앙상블과 같은 효과 - 학습과정 O 예측과정 X | - p의 확률로 노드들을 생략 (ex) 일반적으로 p = 0.5 학습과정마다 랜덤으로 절반의 뉴런을 사용X - DNN 심층신경망에서 사용 | - 특징맵 내의 노드 전체에 대해 드롭아웃 적용여부 결정 - CNN 합성곱신경망에서 사용 | - 노드가 아니라, 연결선 일부를 생략하는 방식 - RNN 순환신경망에서 사용 |
- 매개변수/ 매개변수 최적화
매개변수 Parameter | 매개변수 최적화 Parameter Optimization |
주어진 데이터로부터 학습을 통해, 모델 내부에서 결정되는 변수 | - 손실함수: 학습모델의 출력값과 실제값의 차이 (오차) - 모델의 학습 목적: 오차/손실함수 값을 최대한 작게 하도록 하는 매개변수(가중치, 편향)을 찾는 것 ⇒ 매개변수 최적화 |
- 가중치 (Weight): 입력값마다 각기 다르게 곱해지는 수치 - 편향 (Bias): 가중합에 더해주는 상수 | - 2차원 손실함수 그래프(X축:가중치, Y축:손실값)를 이용함 - 손실값 최소화 지점 = 그래프에서 기울기가 0인 지점 - 학습률이 적당해야 찾을 수 있음! |
- 매개변수 최적화 기법: 확률적 경사 하강법 →<단점 개선>→ 모멘텀/ AdaGrad/ Adam
- SGD의 단점: 손실함수 그래프에서 지역극소점(Local)에 갇혀, 전역극소점(Global)을 찾지 못하는 경우가 발생함
확률적 경사 하강법 SGD | 모멘텀 Momentum | AdaGrad | Adam |
![]() |
![]() |
![]() |
![]() |
- 손실함수 기울기를 따라 조금씩 아래로 내려감 - 손실함수 최소지점에 도달 - 학습 1회에 필요한 데이터를 무작위로 선택함 (확률적) |
- 모멘텀 = SGD + 속도 - 누적된 기울기 값에 의해 빠르게 최적점으로 수렴 - 관성의 방향을 고려하여 진동&폭을 줄이는 효과 |
- 진행할수록 학습률 감소↓ - 손실함수 처음 부분에선, 기울기&학습률이 크다 - 최적적에 가까워지면, 기울기&학습률이 크게 감소 |
- Adam = 모멘텀 + AdaGrad - 탐색경로 또한 모멘텀과 AdaGrad를 합친 양상 |
- 최적점 근처에서 느림 - 지그재그로 크게 변함 |
- SGD보다 지그재그 덜함 - 공이 그릇바닥을 구르듯! |
- 지그재그 움직임이 크게 줄어든다 (효율적 움직임) |
- 모멘텀보다 좌우흔들림↓ - 공이 그릇바닥을 구르듯~ |
- 분석 모형 융합 - 취합(Aggregation) & 부스팅(Boosting)
취합 방법론 | 부스팅 방법론 | ||
다수결 | 여러모형의 결과를 종합 직접투표/ 간접투표(가중치) | 하나의 모형에서 시작하여, 각 약한 모형을 순차적으로 추가 | |
배깅 | 복원추출로 학습데이터 나눔 중복 허용 → 편향 가능성O | 에이다 부스트 | - 정분류 샘플: 가중치 낮춤↓ - 오분류 샘플: 가중치 높임↑ |
페이스팅 | 비복원추출 → 중복 허용 X | 그래디언트 부스트 | 오분류 샘플의 에러를 최적화 |
랜덤 서브스페이스 | 특성 샘플링 | ||
랜덤 패치 | 특성&학습데이터 둘다 샘플링 | ||
랜덤 포레스트 | 독립변수 차원을 랜덤하게 감소시킨 다음, 그중에서 선택 |
- 최종 모형 선정: 최종모형 평가기준 선정 → 최종모형 분석결과 검토 → 알고리즘별로 결과 비교
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST