반응형
SMALL
[빅데이터분석기사 필기 3과목] III. 빅데이터 모델링
01. 분석 모형 설계
- 모델(모형): 객체/시스템/개념에 대한 구조/작업을 보여주기 위한 패턴/계획/설명
- 탐색적 데이터 분석: 현상에서 패턴을 발견
- 통계적 추론: 현상에서 결론을 도출
- 기계 학습 (머신러닝): 현상을 예측
- 빅데이터 분석 모형: 통계/ 데이터마이닝/ 머신러닝 기반
- 통계 기반 분석모형: 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석
- 데이터마이닝 기반 분석모형: 분류/ 예측/ 군집화/ 연관규칙 분석
- 머신러닝 기반 분석모형: 지도학습/ 비지도학습
통계 기반 분석모형 | 데이터마이닝 기반 분석모형 | 머신러닝 기반 분석모형 | |||
기술통계 | 분포 특징 파악 | 분류 | Classification | 지도학습 | 정답 포함/ 예측 |
상관분석 | 단순-변수 2개 | 통계적 | 로지스틱회귀 | 로지스틱회귀 | 의사결정나무 |
다중-변수 3개 이상 | 트리기반 | CART 알고리즘 | 인공신경망 | 랜덤포레스트 | |
회귀분석 | 인과관계 | 최적화 | 서포트벡터머신 | 감성분석 | 서포트벡터머신 |
분산분석 | 2개이상 집단비교 | 기계학습 | 역전파 알고리즘 | ||
일원/ 이원/ 다변량 | 예측 | Prediction | 비지도학습 | 정답 없음/ 탐색 | |
주성분분석 | 분산패턴 간결하게 | 회귀분석 | 의사결정나무 | 인공신경망 | 자기조직화지도 |
원래변수 선형결합 | 시계열분석 | 인공신경망 ANN | 차원축소 | PCA, MDS 등 | |
판별분석 | 집단 구별 | 군집화 | 계층적/ 비계층적 | 군집화 | 계층적/ 비계층적 |
연관규칙 | 장바구니분석 | 연관규칙 | 장바구니분석 |
- 부적합 모형 현상: 모형선택 오류/ 변수 누락/ 부적합 변수 생성/ 동시 편향
- 통계 분석:
불확실한 상황에서 객관적인 의사결정을 하기 위해, 데이터를 수집-처리-분류-분석-해석하는 일련의 체계 - 통계 기반 분석 모형: 기술통계/ 상관분석/ 회귀분석/ 분산분석/ 주성분분석/ 판별분석
- 기술 (Description): 사람/상품에 대한 이해를 높이기 위해, 데이터 특징을 나타내고 설명에 대한 답을 제공
기술통계 | 상관분석 | 회귀분석 | 분산분석 | 주성분분석 | 판별분석 |
-분석 초기 -정리/요약 |
2개 이상 변수간 상호연관성 정도 |
독립변수가 종속 변수에 미치는 영향 |
2개 이상 집단간 분산 비교 |
일부 주성분으로 원래 변동 설명 |
집단 구별하는 판별 규칙/함수 |
-평균/분산/빈도 등 -그래프 활용 |
-단순: 2개 -다중: 3개 이상 |
-단순: 독립 1개 -다중: 독립 2개이상 |
-일원/이원 -다변량 |
원래변수들의 선형결합 |
새로운 개체가 어떤 집단인가 |
- 데이터마이닝:
대용량 데이터 내의 패턴/관계/규칙 등을 탐색하고, 통계적 기법으로 모델화하여, 유용한 지식/정보를 추출한다! - 데이터마이닝 기반 분석 모형: 분류 모델/ 예측 모델/ 군집화 모델/ 연관규칙 모델
- 분류 모델 (Classification): 범주형/이산형 변수 등의 범주를 예측하는 것
- 분류 기법: 통계적 기법/ 트리기반 기법/ 최적화 기법/ 기계학습
통계 로지스틱 회귀분석 |
트리 CART 알고리즘 |
최적화 서포트 벡터 머신 SVM |
기계학습 역전파 알고리즘 |
종속변수: 서열/ 범주/ 명목 | 규칙에 따라 소집단으로 분류 | 이진 선형 분류 방법 | 경험적 데이터→스스로 향상 |
분석 대상의 개별 관측치들이 2개 이상의 집단 중에서 어느 집단으로 분류되는가 |
- 각 독립변수 이분화 반복 - 이진트리 형태 생성 - 분류&예측 수행 |
- 초평면: 데이터 분리 - 서포트벡터: 초평면에 가장 가까이 위치한 데이터 |
- 오차를 가중치에 반영 - 가중치 갱신→구조 안정화 - 역전파: 출력층→입력층 갱신 |
- 예측 모델 (Prediction): 범주형/수치형 과거 데이터로부터 특성을 분석하여, 다른 데이터의 결괏값을 예측하는 것
- 예측 기법: 회귀분석/ 의사결정나무/ 시계열분석/ 인공신경망
회귀 분석 | 의사결정나무 | 시계열 분석 | 인공신경망 ANN |
두 연속형 변수 사이의 모형 생성 & 적합도 측정 |
의사결정규칙을 도표화 분류 & 예측 수행 |
시계열 자료 분석→미래 예측 (연도별/ 분기별/ 월별 등) |
뉴런이 전기신호를 전달하는 모습을 모방한 예측 모델 |
- 군집화 모델 (Clustering): 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화하는 작업
- 군집화 방법: 계층적 - 응집/ 분할분석법 & 비계층적 - K평균군집화
- 연관규칙 모델 = 연관 분석 = 연관성 분석
군집 분석 | 연관 분석 | ||
계층적 방법 | 비 계층적 방법 | (=장바구니분석) | |
응집 분석법 | 분할 분석법 | K-평균 군집화 | 연관규칙 |
각 객체 → 합침 | 전체 집단 → 분리 | 군집개수 K개로 정해놓고 중심좌표 업데이트 |
데이터에 숨어있으면서 동시에 일어나는 항목간 규칙 |
- 머신러닝: 지도학습/ 비지도학습/ 강화학습/ 준지도학습으로 구분함
- 지도학습: 정답/레이블이 포함된 학습데이터를 통해 학습시킴
→ 인식/ 분류/ 진단/ 예측 등의 문제해결
로지스틱 회귀 | 인공신경망 분석 | 의사결정나무 | 서포트벡터머신 | 랜덤 포레스트 | 감성분석 |
종속변수가 범주형 |
인간뉴런 구조를 모방 |
분할기준 속성판별 트리형태로 모델링 |
가장 거리가 먼 초평면을 선택 |
약한 학습기들을 선형결합 |
텍스트로부터 감정/의견 추출 |
- 비지도학습: 정답/레이블이 없는 상태에서 데이터가 어떻게 구성되었는지 알아냄
→ 현상설명/ 특징도출/ 패턴도출 등의 탐색
군집화 Clustering | 차원축소 기법 | 연관성 분석 | 자기조직화지도 SOM |
- 군집개수 정하지 않으면 계층적, 정한다면 비계층적! - 계층적: 병합/분할 분석법 - 비계층적: K평균 군집화 |
- 주성분 분석 PCA - 특이값 분해 SVD - 독립성분 분석 ICA - 다차원 척도법 MDS |
- 항목간 연관규칙 도출 - 지지도: 동시 포함 - 신뢰도: 조건부 확률 - 향상도: 연관성 정도 |
- 자율학습 인공신경망 - 차원축소&군집화 동시에~ - 고차원→저차원 변환 - 구성: 입력층&경쟁층 |
- 변수에 따른 분석기법
연속 × 연속 | 범주 × 범주 | 범주 × 연속 |
상관분석: 상관관계 여부 확인 | 카이제곱 분석: 독립성 여부 확인 | T-test & ANOVA: 집단별 평균차이 |
산점도(+추세선) | 누적 막대그래프 | 누적 막대그래프 / 히스토그램 |
- 분석모형 활용사례
분석모형 | 활용사례 |
연관규칙 학습 | 피자를 주문한 고객은 어떤 음료를 많이 주문하는가 |
분류 분석 | 문서/ 조직/ 수강생들을 특성에 따라서 분류/ 그룹핑 |
유전자 알고리즘 | 응급 처치 프로세스를 어떻게 배치하는 것이 가장 효율적인가 |
기계 학습 | 회원의 기존 시청기록을 바탕으로, 어떤 영상을 가장 보고싶어 할지 예측한다 |
회귀 분석 | 차주의 나이가 차량 유형에 어떤 영향을 미치는가 |
감성 분석 | 새로운 제품/서비스에 대한 소비자들의 평가는 어떠한가 |
소셜네트워크 분석 | 고객들 간 관계망 구성은 어떠한가/ 영향력이 있는 사람은 누구인가 |
- 분석 모형 정의: 분석 모형 선정 → 적합한 변수 선택 → 모형 사양 작성
- 모형 정의 고려사항
- 모델이 너무 간단 → 과소적합 & 학습손실
- 모델이 너무 복잡 → 과대적합 & 일반화손실
파라미터 Parameter 내부/ 학습/ 모델성능 결정 |
하이퍼 파라미터 Hyper-Parameter 외부/ 경험/ 사용자가 결정 |
||
- 모델 내부에서 확인가능한 변수 - 모델이 예측 수행시 요구하는 값들 - 측정 or 데이터로부터 학습 - 모델의 성능을 결정함 |
- 모델 외적인 요소 - 사용자가 직접 결정하는 값들 - 경험에 의해 결정 가능한 값 - 모델 성능 등을 위해서 조절함 |
||
인공신경망 | 가중치 | 신경망학습 | 학습률 |
서포트벡터머신 | 서포트벡터 | 의사결정나무 | 나무깊이 |
회귀분석 | 결정계수 | KNN | K의 개수 |
- 분석 모형 구축 절차: 요건정의 → 모델링 → 검증 및 테스트 → 적용
요건 정의 | 모델링 | 검증 및 테스트 | 적용 |
과제정의 단계에서 도출된 내용을 구체화 |
상세 분석기법을 적용하여 모델을 개발 |
운영상황에서 실제 테스트 모든 모델링에서 반드시 거침 |
운영 시스템/업무 프로세스에 적용&자동화&주기적 리모델링 |
- 분석요건 도출 - 수행방안 설계 - 요건 확정 |
- 입력값 확률분포→시뮬레이션 - 입력값 상숫값→최적화 - 성능평가: 정확도/ 정밀도/ 재현율/ 향상도 |
- 분석용 데이터로 자체 검증 - 신규 데이터로 실제 테스트 - 비즈니스 영향도 평가: ROI가 200~300% 이상 |
- 실제 운영환경에 적용 - 자동 모니터링&조기경보 - 분기/반기/연 단위로 주기적 리모델링(재조정) |
- 데이터 분할: 학습용 + 검증용 + 평가용 (Training + Validation + Test)
- 데이터 분할 이유: 과대 적합 예방 & 2종 오류 방지 (잘못된 귀무가설을 채택하는 오류를 방지)
학습과정에서 사용하는 60~80% |
평가과정에서만 사용하는 20~40% |
|
학습용 데이터 | 검증용 데이터 | 평가용 데이터 |
알고리즘 학습 | 학습된 모델의 정확도 계산 학습과정 중간에 검증/ 모형튜닝 |
한 번도 사용되지 않은 데이터로 학습된 모델의 성능 평가 |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST