카테고리 없음
[빅데이터분석기사 필기 요약] [빅분기 3과목 요약] III. 빅데이터 모델링 - 요약 (3)
K-pop put master
2024. 2. 14. 11:11
반응형
SMALL
빅데이터분석기사 필기 3과목] III. 빅데이터 모델링
02. 분석기법 적용 - [2] 고급 분석기법
- 범주형 자료분석:
종속변수가 1개&범주형인 데이터를 분석하여, 모형&독립변수의 유의성을 알아보는 분석방법
독립변수(X)가 범주형 | 독립변수(X)가 연속형 |
분할표분석/ 카이제곱검정/ 피셔정확검정 | 로지스틱회귀분석 |
- 분할표 분석 (Contingency Table): 행-독립/ 열-종속/ 주변합-마지막 행열에 총계
- 승산비: 특정 조건이 있을 때의 성공승산을, 다른 조건이 있을 때의 성공승산으로 나눈 값
상대위험도 (RR; Relative Risk) | 승산비(Odds Ratio) = 교차비 = 대응위험도 |
비교집단 위험률 대비, 관심집단 위험률 | 승산 = p / (1-p) = (특정 사건 발생 확률) / (발생하지 않을 확률) |
RR = { a / (a+b) } / { c / (c+d) } | 승산비 = (a / b) / (c / d) = ad / bc (교차비) |
RR=1이면 연관성없음/ RR<1이면 확률 낮음/ RR>1이면 확률 높음 | 승산비: 비교집단의 승산 대비, 관심있는 집단의 승산 |
- 카이제곱 분석=교차분석: 적합도 검정/ 독립성 검정/ 동질성 검정
- 카이제곱 값 = Σ (관측빈도 - 기대빈도)² / (기대빈도) = 편차 제곱값을 기대빈도로 나눈값들의 합
적합도 검정 특정 분포를 따르는가 |
독립성 검정 두 요인/변수가 서로 독립인가 |
동질성 검정 각 범주의 모집단이 동질한가 |
H0: 표본집단의 분포가 가정한 이론(특정 분포)과 동일 |
H0: 여러 범주를 가지는 요인1과 요인2는 서로 독립적 |
- 관측값들이 서로 동질한가 - 독립성 검정과 개념만 다르고, 계산 같음 |
자유도 = k-1 = 범주개수 - 1 | 자유도 = (k1-1) × (k2-1) | 자유도 = (k1-1) × (k2-1) |
(ex) 학년별 수강생 분포가 균일한가 | (ex) 성별과 선호브랜드는 관련 있는가 | (ex) 그룹1과 2의 선호브랜드는 동일한가 |
- 피셔 정확 검정: 분할표 문제로 카이제곱 검정의 정확도가 떨어지는 경우에 사용
- 표본 수가 적은 경우/ 분할표에서 셀에 치우치게 분포된 경우/ 기대빈도가 5 미만인 셀이 20% 넘는 경우
- 다차원 척도법 (MDS; MultiDimensionality Scaling)
개체들 사이의 유사성/비유사성을 측정,
2차원/3차원 공간상에 점으로 표현하여, 집단화를 시각적으로 표현하는 분석방법 - 주성분 분석 (PCA)
- 상관관계가 있는 고차원 자료의 변동을 최대한 보존하는 저차원 자료로 변환하는 차원축소 방법
- 고윳값(eigen-value)이 높은 순으로 정렬하여, 높은 고윳값을 가진 고유벡터만으로 데이터를 복원함
다차원척도법 MDS | 주성분분석 PCA |
유클리드 거리행렬: 개체들 간 거리를 나타냄 | 주성분으로 변수들 사이의 구조를 쉽게 이해하기는 어렵다! |
스트레스 값: 개체들 간 적합도 수준을 나타냄 - Stress value = 0 이면 완벽 - Stress value = 0.15 이상이면 나쁨 |
- 차원의 저주 방지 / 자료의 차원을 축약 - 주성분: 원래 변수들의 선형결합/ 전체 변동을 설명 - 누적 기여율이 85% 이상아면, 주성분 수로 결정! |
- 시계열 분석: 연도/분기/월별 등, 시계열로 관측되는 자료를 분석하여, 미래를 예측하기 위한 분석기법
시계열 분석 Time-series Analysis | 정상성 Stationary |
- X axis: 시간 / Y axis: 관측값 - 규칙적 & 불규칙한 특징을 가짐 - 시계열 분석을 위해서는 정상성을 만족해야 함 |
- 시점에 상관없이, 시계열의 특성이 일정하다! - 평균 일정O / 분산 시점의존X - 공분산 시차의존O 시점의존X |
- 시계열 모형: 자기회귀 모형(AR)/ 이동평균 모형(MA)/ 자기회귀 누적 이동평균 모형(ARIMA)
자기회귀 모형 | 이동평균 모형 | 자기회귀 누적 이동평균 모형 |
AR(p) | MA(q) | (ARIMA(p, d, q) |
자기자신의 과거 관측값이 영향을 줌 |
자기자신의 과거 오차항들이 영향을 줌 → 항상 정상성 만족 |
비정상 모형을 차분으로 정상화함 d=0 이면 정상성 만족 → ARMA(p, q) |
현시점의 자료가 p시점 전의 유한 개의 과거 자료로 설명될 수 있다 |
시간이 지날수록 관측치의 평균값이 지속적으로 증가/감소하는 시계열 모형 |
다음 지표를 예측하거나, 지표를 리뷰하여 트렌드를 분석 |
과거 관측값의 오차항이 미래 관측값에 영향을 준다 |
과거의 연속적인 오차항이 현재/미래 관측값에 영향을 준다 |
- p = 0 이면, IMA(d, q) 모형 - q = 0 이면, ARI(p, d) 모형 |
- 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리하여 분석하는 방법
추세 요인 (T) | 계절 요인 (S) | 순환 요인 (C) | 불규칙 요인 (I) |
어떤 특정한 형태를 취함 | 고정된 주기에 따라 변화 | 알려지지 않은 주기를 가짐 | 오차에 해당함 |
선형적/ 이차식/ 지수적 등 | 요일/ 월/ 분기마다 변화 | 명백한 이유 X | 추세/ 계절/ 순환 요인 X |
- 확률 (Probability)
- 비슷한 현상이 반복해서 일어날 경우, 어떤 사건이 발생할 가능성
- 같은 원인에서 특정 결과가 나타나는 비율
- 조건부 확률/ 전 확률의 정리/ 베이즈 정리
조건부 확률 | 전 확률의 정리 | 베이즈 정리 |
어떤 사건이 일어난다는 조건에서 (선행 조건 아래에서) 다른 사건이 일어날 확률 |
사건의 원인을 여러가지로 나눔 각 원인에 대한 조건부 확률과 원인확률의 곱에 의한 가중합으로 확률 구함 |
두 확률변수의 사전확률과 사후확률 사이의 관계를 설명하는 확률이론 |
A → B: P(B|A) = P(A⋂B) / P(A) B → A: P(A|B) = P(A⋂B) / P(B) |
P(A) = ∑ P(Bi) P(A|Bi) |
![]() |
- 딥러닝 (Deep Learning):
- 여러 비선형 변환기법의 조합을 통해, 높은 수준의 추상화를 시도하는 기계학습 알고리즘의 집합
- 기존의 기울기소실 해결/ GPU를 연산에 활용하면서 분석시간 단축됨/ 빅데이터와 SNS의 활용 증가 - 딥러닝 알고리즘: DNN, CNN, RNN, GAN 등
- 피처맵 (Feature Map): 이미지 추출 시 환경변화(왜곡, 변형 등)에 잘 적응하는 강인한 특징을 유도한 2차원 맵
- 서브샘플링 층 (Subsampling): 피처맵에 대해 공간적 해상도를 줄인 뉴런층 → 차원&문제복잡도 축소
DNN (Deep Neural Network) | CNN (Convolution Neural Network) | RNN (Recurrent Neural Network) |
- 은닉층을 심층구성 - 다수의 은닉층 |
- 시각적 이미지 분석 - 기존 영상처리의 필터기능 + 신경망 |
- 은닉층에서 재귀적인 신경망을 가짐 - 순차적인 데이터 분석에 적합(음성 등) |
입력층-가중치-은닉층-가중치-은닉층-... | 이미지에서 특징 추출→피처맵 구성 | SGD 등으로 가중치 업데이트 |
역전파 알고리즘:출력층-은닉층-입력층 | 피처맵→서브샘플링(풀링)→축소→반복 | 장기 의존성/ 기울기 소실 문제 발생 |
- 비정형 데이터 분석:
비정형 데이터 안에서 체계적인 통계적 규칙/패턴을 탐색하고,
의미있는 정보로 변환하여 기업의 의사결정에 적용하는 분석기법 - 비정형 데이터 분석기법: 텍스트 마이닝/ 감성분석/ 오피니언 마이닝/ 웹 마이닝/ 사회연결망 분석
텍스트 마이닝 | 감성 분석 | 오피니언 마이닝 | 웹 마이닝 | 사회연결망 분석 SNA |
자연어처리 방식으로 텍스트 데이터에서 정보를 추출함 |
텍스트로부터 어떤 주제에 대한 주관적 인상/감정 추출 |
사용자가 게재한 주관적 의견/감정을 나타내는 패턴을 분석 |
웹에서 발생하는 고객행위/특성 자동으로 추출/발견 |
그룹에 속한 사람들 간 네트워크 특성/구조를 파악/분석/시각화 |
텍스트수집-의미추출 -패턴분석-정보생성 |
측정 주체에 따라서 달라질 수 있음 |
특징추출-문장인식 -요약및전달 |
- 노드: 정보 단위 - 링크: 연결점 |
수집-분석-시각화 |
- 정보추출 - 문서요약 - 문서분류 (키워드) - 문서군집화 |
- 문장에서 긍정/부정 단어 발생 빈도 파악 - (ex) 제품 평판 분석 |
- 규칙/통계기반 - (ex) 실시간 여론 변화 특정 제품/서비스를 좋아/싫어하는 이유 |
- 웹 내용 마이닝 - 웹 사용 마이닝: 로그로 행위패턴 분석 - 웹 구조 마이닝 |
주요 속성들은 - 응집력 - 구조적 등위성 - 명성/ 범위/ 중계 |
- 앙상블 (Ensemble): 여러가지 동일한/상이한 모형들의 예측/분류 결과를 종합하여 최종적인 의사결정에 활용하는 기법
- 앙상블 특징: 신뢰성 상승/ 정확도 상승/ 이상값에 대한 대응력 상승/ 전제 분산 감소/ 원인분석에는 부적합
- 앙상블 기법: Sampling - 배깅/ 부스팅 & Variable - 랜덤포레스트
- 배깅: 부트스트랩 데이터 여러개 생성 - 모델링 - 결합
- 부트스트랩: 단순랜덤 복원추출/ 동일크기 표본을 여러개 생성하는 샘플링
- 배깅은 반복추출 방법을 사용하므로, 같은 데이터가 한 표본에 여러 번 추출 or 한 번도 추출되지 않을 수도 있다! - 부스팅: 오분류된 개체들에 가중치 적용 - 모델 생성 반복 - 약한 모델들을 결합
- 랜덤 포레스트: 배깅/부스팅보다 더 많은 무작위성 부여 - 약한 학습기들을 선형결합
배깅 Bagging | 부스팅 Boosting | 랜덤 포레스트 Random Forest |
분산 감소↓ 소량/단순 자료 유리 |
예측력 강화↑ 대량/복잡 자료 유리 |
배깅/부스팅보다 더 무작위성↑ 노이즈에 강인하게 해줌 |
① 다수의 부트스트랩 자료 생성 ② 각 자료마다 모델링 ③ 각 모델마다 도출된 결과 결합 ④ 최종 예측 모형 |
① 동일 가중치 분류기 생성 ② 가중치 변경하여 분류기 다시 생성 ③ 목표 정확도가 나올 때까지 반복 ④ 결합하여 최종 분류기 결정 |
① 다수의 부트스트랩 자료 생성 ② 분류기 훈련 후, 대표변수 샘플도출 ③ 대표변수 샘플을 트리의 잎노드로 분류 ④ 잎노드들의 선형결합으로 최종모델 |
![]() |
![]() |
![]() |
자료마다 독립수행 후 결합 - 연속형변수: 평균 - 범주형변수: 투표 (다수결) |
이전 분류기 결과에 따라 가중치 재조정 - 정분류 데이터: 낮은 가중치 - 오분류 데이터: 높은 가중치! |
- 배깅을 이용한 포레스트 구성 부트스트랩-조금씩 다른데이터로 훈련 - 임의노드 최적화 |
- 가지치기 (Pruning) X - 최대한 성장한 트리를 활용함 - 결측값 있는 경우 유리함 |
- 약한 모델(Weak Learner)들을 결합 - 오답을 정답으로 맞추기 위해 높게 부여 - 일반적으로 과대적합 없음 |
- 의사결정나무 단점-분산이 큰 점을 보완 - 변수 제거 없이 높은 예측력/정확도 - 단점: 이론적 설명/해석 어려움 |
주요알고리즘: MetaCost Algorithm |
주요알고리즘: AdaBoost Algorithm |
매개변수: 포레스트크기/ 최대허용깊이/ 임의성정도 |
- 랜덤 포레스트에서 "노드 분할함수": 각 트리의 노드마다 좌/우 자식노드로 분할하기 위해 가지고 있는 함수
- 분할함수는 매개변수에 따라 결정됨: 매개변수 θ = Φ, Ψ, τ
Φ 파이 | Ψ 프시/프사이 | τ 타우 |
필터 함수 특징 배깅: 벡터에서 몇개의 특징만 선택 |
분할함수의 기하학적 특성 |
매개변수 벡터로, 이진 테스트의 부등식에서 임곗값들을 가지고 있음 |
- 비모수 통계: 평균/분산과 같은 모집단에 분포에 대한 모수성을 가정하지 않고, 분석하는 통계적 방법
비모수 통계 특징 | 비모수 통계량: 빈도, 부호, 순위 등 |
- 모집단 분포와 무관하게 사용가능 - 샘플 개수 작아도 사용가능 - 이상값 영향 적음 - 통계량 계산 간편 & 직관적 이해 쉬움 |
- 표본 1개: 부호 검정 / 윌콕슨 부호 순위 검정 - 표본 2개: 윌콕슨 순위 합 검정 / 대응 표본 검정 - 표본 3개 이상: 크루스칼-왈리스 검정 - 연속적인 값의 임의성: 런 검정 |
- 단일 표본 부호 검정: 부호 검정/ 윌콕슨 부호 순위 검정 (모수통계에서 단일 표본 T-검정에 해당)
- 두 표본 검정: 윌콕슨 순위 합 검정/ 대응 표본 검정 (모수통계에서 독립/대응표본 T-검정에 해당)
단일 표본 (1) | 두 표본 (2) | ||
부호 검정 | 윌콕슨 부호 순위 검정 | 윌콕슨 순위 합 검정 | 대응 표본 검정 |
- 차이의 부호 O - 차이의 크기 X |
- 차이의 부호 O - 차이의 크기 O |
윌콕슨 순위 합 = 만-휘트니의 U검정 |
모집단 1개에 2가지 처리를 적용하여 관찰값을 얻은 경우 |
중위수와 자료의 차이를 부호로 전환하여 검정함 (-), (+) |
단일/대응표본에서 중위수에 대한 검정 (ex. H0: 중위수=50) |
두 표본의 혼합표본(1+2) 에서 순위합을 이용하여 검정 |
각 쌍의 차이값 Di를 이용하여 두 중위수의 차이를 검정함 |
- 연속적&독립적 분포 가정 - 분포의 대칭성 가정 없어도 됨 |
- 연속적&독립적 분포 가정 - 분포의 대칭성 가정 반드시 O |
- H0: 두 모집단 중위수가 같다 - 분포의 대칭성 가정 반드시 O |
- H0: 두 쌍의 중위수가 같다 - H0: δ = 0 (δ=Di들의 중위수) |
- 3개 이상의 집단: 크루스칼-왈리스 검정 (모수통계에서 분산분석=ANOVA에 해당)
- 런 검정: 2개의 값을 가지는 연속적인 측정값들이 어떤 패턴/경향 없이 임의적으로 나타난 것인지 검정하는 방법
크루스칼-왈리스 검정 | 런 검정 |
- 3개 이상의 그룹별 중위수 비교 - 혼합표본을 크기 순으로 나열-순위부여-값계산 |
- 런 Run: 동일한 측정치들이 시작하여 끝날 때까지의 덩어리 - 변수값: 2개 가져야 함/ 기준값으로 이분화해야 함 |
H0: 각 그룹간 중위수는 같다 | H0: 연속적인 측정값들이 임의적이다 (패턴/경향이 없다) |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST