반응형
SMALL
[빅데이터분석기사 필기 2과목] II. 빅데이터 탐색
02. 데이터 탐색
- 데이터 탐색: 데이터 분석 전, 그래프/통계적 방법으로 다양한 각도에서 데이터 특징 파악&직관적으로 보는 분석방법
- 탐색적 데이터 분석(EDA)의 4가지 주제: 저항성/ 잔차해석/ 자료재표현/ 현시성 (Four R's)
저항성 | 잔차 해석 | 자료 재표현 | 현시성 |
Resistance | Residuals | Re-expression | Representation |
이상값에 영향 적게 받음 | 주 경향으로부터 벗어난 정도 | 적당한 척도로 바꾸는 것 | 쉽게 이해할 수 있도록 시각화 |
- 개별 변수/ 다차원 데이터 탐색 방법
범주형 (질적) | 수치형 (양적) | 범주형-범주형 | 수치형-수치형 | 범주형-수치형 |
- 명목척도&순위척도 - 빈도수/ 최빈값/ 비율 - 막대형 그래프 |
- 등간척도&비율척도 - 평균/ 분산/ 표준편차 - 박스플롯/히스토그램 |
- 교차 빈도 - 백분율/비율 |
- 상관성&추세성 - 피어슨 상관계수 - 산점도/기울기 |
- 그룹별 비교 - 박스플롯 |
- 상관관계 분석: 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법
- 공분산 (경향)
- 상관계수 (방향성&경향)
공분산 Covariance | 피어슨 상관계수 | 카이제곱 검정 (교차분석) | 스피어만 순위 상관계수 |
두 변수간 상관정도&경향 | 수치적 데이터 | 명목적 데이터 | 순서적 데이터 |
0보다 크면 상승/ 작으면 하강 | 범위: (-1, +1) | (ex) 지역, 종교, 성별 등 | (ex) 성적 순위, 만족도 등 |
- 기초통계량
- 중심경향성: 평균/ 중위수/ 최빈값
- 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
- 분포: 왜도/ 첨도
- 변동계수(CV): 측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함
중심 경향성 | 산포도 (흩어진 정도) | 분포 | |||
평균 | 총합 / 변수개수 | 범위 | Max - Min | 왜도 | 좌/우 치우친 정도 |
중위수 | 중앙에 위치한 값 | 분산 | 평균으로부터 편차 | 첨도 | 뾰족한 정도 |
최빈값 | 가장 많이 관측됨 | 표준편차 | 분산의 양의제곱근 | ||
변동계수 CV | 표준편차 / 평균 | ||||
사분위수 범위 IQR | Q3-Q1 |
- 데이터 분포: 왜도 & 첨도
왜도 Skewness | 첨도 Kurtosis | ||
왼쪽 편포 Negative Skew |
왜도 < 0 | 첨도 < 0 | 납작 |
Mean < Median < Mode | 첨도 > 0 | 뾰족 | |
오른쪽 편포 Positive Skew |
왜도 > 0 | 첨도 = 0 | 정규분포 |
Mode < Median < Mean |
- 시공간 데이터: 시간에 따라 위치/형상이 변하는 데이터 (공간적 객체에 시간의 개념이 추가됨)
- 이산적 변화: 수집주기 일정하지 않음
- 연속적 변화: 수집주기 일정함/ 일종의 함수로 표현 - 문자열 처리 함수들: split, find, left, mid
split(문자열,구분자) | find(찾는문자, 문자열) | left(문자열, n) | mid(문자열, 시작위치, n) |
공백/쉼표 등으로 나눔 | 찾는문자의 문자열 반환 | 가장 왼쪽부터 문자열 n개 | 시작위치부터 문자열 n개 |
03. 통계기법 이해
- 기술 통계 (Descriptive Statistics):
수집된 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계 (분포의 특징을 파악) - 기초 통계량: 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준편차/ 첨도/ 왜도
- 평균: 이상값 민감/ 중위수: 특이값 영향 X
분산 Variance | 평균의 표준오차 SE |
평균으로부터 흩어진 정도 - 모분산 = (편차 제곱합) / n - 표본분산 = (편차 제곱합) / (n-1) |
표본평균의 표준편차 각 표본마다 평균계산 → 각 평균들의 전체평균 계산 |
- 회귀 분석/ 분산 분석/ 주성분 분석/ 판별 분석
- 판별 분석: 집단에 대한 정보 → 판별규칙/함수 생성 → 새로운 개체가 어떤 집단에 속하는지 판별
회귀분석 | 분산분석 ANOVA | 주성분분석 PCA | |||
독립변수가 종속변수에 미치는 영향 추정 | 2개 이상의 집단간 비교 | 일부 주성분으로 원래변수 변동을 설명 | |||
결정계수 | 모형 설명력 확인 | F-검정통계량 | 분산비교 | 최소의 주성분으로 | 분산의 최대량 설명 |
전제조건 | 선형성/ 등분산성/ 독립성/ 비상관성/ 정규성 |
일원 이원 다변량 |
독립변수 1개 독립변수 2개 종속변수 2개이상 |
주성분변수 | 원래변수들의 선형결합 |
독립변수 선택 | 전진/ 후진/ 단계 | 공분산 분석 | 외생변수 영향제거 |
- 표본 추출: 단순 무작위 추출/ 계통 추출/ 층화 추출/ 군집 추출
계통 추출 | 층화 추출 | 군집 추출 |
일정한 간격으로 추출 | 여러 계층별로 무작위 추출 계층: 내부동질/ 외부이질 |
일부 군집의 전체/일부를 추출 군집: 성질 고려하지 않음! |
(ex) 번호 끝자리 5로 끝나는 사람 선정 | (ex) 지역별/도별로 무작위 100명 선정 | (ex) 검정/노랑/파랑 공 100개→파랑 추출 |
- 자료 측정: 질적속성 - 명목척도/ 순서척도 & 양적속성 - 구간척도/ 비율척도
질적 속성 | 양적 속성 | ||
명목척도 | 순서척도 | 구간척도 | 비율척도 |
분류목적 | 대소관계 | 서열과 의미있는 차이 | 구간척도 + 비율 의미있음 |
등호연산(=,≠) | 비교연산(>,<) | (ex) 온도 | 승제연산(÷,×) |
- 확률분포: 이산확률분포/ 연속확률분포
이산확률분포 | 하나씩 셀 수 있는 값 | 연속확률분포 | 실수와 같은 연속적인 값 |
포아송 분포 | 주어진 시간동안 사건 발생횟수 | 정규분포 | 종모양 분포 |
베르누이 분포 | 1번 시행 → 성공/실패 | 표준정규분포 | Z(0,1) ⇒ X를 Z로 정규화 |
이항 분포 | n번 시행 → k번 성공확률 | T-분포 | 모집단이 정규분포 모표준편차는 모름~ |
카이제곱분포 | 표준정규 확률변수 제곱합 | ||
F-분포 | 카이제곱분포 두 확률변수 비 |
- 표본분포: 표본이 가지는 추정량의 확률분포
- 표본의 특성을 보여주는 통계량에 의해, 모집단의 특성을 보여주는 모수를 추론
용어 | 의미 |
모집단 | 분석 대상 집단 전체 |
모수 | 모집단 특성을 나타내는 대표값 |
표본(샘플) | 모집단 특성을 추정하기 위해 추출/조사하는 모집단의 일부분 |
통계량 | 표본의 특성을 나타냄 (확률변수) (표본에서 얻은 평균, 표준오차 등) |
추정량 | 모수 추정을 위해 구한 통계량 |
표준오차 | 통계량의 변동 정도 |
표본오차 | 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차 |
비표본오차 | 표본오차를 제외한 모든오차 (부주의, 실수 등) |
큰 수의 법칙 | 표본 개수(n)가 커질수록, 표본평균과 모평균이 비슷해짐 |
중심극한정리(CLT) | 표본 개수(n)가 커질수록, 모집단 분포와 상관없이, 표본분포가 정규분포와 근사 |
- 추론 통계: 점 추정/ 구간 추정
점 추정 | 모수를 하나의 값으로 추정 | 구간 추정 | 범위로 모수 추정 & 신뢰도 제시 |
점 추정 조건 |
불편성/ 효율성/ 일치성/ 충족성 |
신뢰 수준 | - 구간에 모수가 포함될 확률 - 귀무가설이 참일때 참으로 판단하는 확률 - 신뢰수준 = 1 - α (유의수준 = α) |
사용되는 통계 |
표본평균/ 표본분산/ 중위수/ 최빈값 |
신뢰 구간 | 신뢰수준 기준으로 추정됨 통계적으로 유의미한 모수 범위 |
- 가설 (Hypothesis): 모수에 대한 가정/ 잠정적인 결론
귀무가설 H0 | 대립가설 H1 |
현재까지 주장되어 온 것 기존과 비교하여 변화/차이가 없음 |
표본을 통해 확실한 근거를 가지고 입증하고자 하는 가설 (연구가설) |
- 가설 검정: 대립가설을 채택할 수 있는지 평가하는 과정
- 모집단에 대한 통계적 가설(대립가설) 수립 → 표본 추출 → 통계적 가설(대립가설)의 진위를 판단
- 가설 설정 → 유의수준α 설정 → 검정방법 설정 → p-value 산출 → 유의수준과 p-value 비교
- p-value > α : 귀무가설 채택- p-value < α : 귀무가설 기각 (대립가설 채택)
- 검정 통계량: 가설검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본 통계량
- 귀무가설이 참이라는 전제 하에, 모집단으로부터 추출된 확률표본의 정보를 이용함 - 가설 검정 오류: 모집단 일부인 표본을 기반으로 모집단에 대해 판단하므로, 오류 발생 가능성이 항상 존재함
제 1종 오류 (α = 유의수준) 제 2종 오류 (β = 베타수준) |
귀무가설이 참인데, 기각하게 되는 오류 (H0 T → F) 귀무가설이 거짓인데, 채택하게 되는 오류 (H0 F → T) |
p-value 유의확률 |
- 제 1종 오류를 범할 확률 (귀무가설이 참인데 기각하게 될 확률) - 귀무가설이 맞다고 가정할 때 얻은 결과보다, 극단적인 결과가 실제로 관측될 확률 - 귀무가설이 맞다고 가정할 때, 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있는 확률 - 귀무가설을 맞다고 가정할 때, 표본 이상으로 극단적인 결과를 얻을 확률 - 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률 |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST