카테고리 없음
[빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (2)
K-pop put master
2024. 2. 15. 05:18
반응형
SMALL
[빅데이터분석기사 필기 4과목] IV. 빅데이터 결과 해석
02. 분석 결과 해석 및 활용
- 데이터 시각화 (Data Visualization)
데이터에 대한 이해를 돕기 위해, 그림/도형 등의 그래픽 요소들을 이용하여 데이터를 묘사/표현 - 기하/도형 양식을 이용하여, 데이터 특징을 설명할 수 있는 모양으로 만든다
데이터 시각화 기능: 설명/ 탐색/ 표현 | 데이터 시각화 목적: 정보전달/ 설득 | 데이터 시각화 절차 |
- 설명: 분석 결과를 설명 | 사용자가 주제에 대해 더 잘 이해! | ① 구조화 |
- 탐색: 숨겨진 관계/패턴 찾음 | - 정보 전달 (실용적/과학적 측면) | ② 시각화 |
- 표현: 이야기 전달/표현/공감 | - 설득 (추상적/예술적 측면) | ③ 시각표현 |
- 데이터 시각화 유형: 시간/ 분포/ 관계/ 비교/ 공간 시각화
시간 시각화 | 분포 시각화 | 관계 시각화 | 비교 시각화 | 공간 시각화 |
시간 흐름에 따른 경향/트렌드 파악 | 분류에 따른 변화 전체에서 부분간 관계 | 집단간 상관관계 연관성/분포/패턴을 찾음 | 각각의 데이터 간 차이점/유사성 관계 | 지도를 통해 시점에 따른 경향/차이 |
- 막대 그래프 - 점 그래프 | - 파이 차트 - 도넛 차트 - 트리 맵 | - 산점도 - 버블차트 - 히스토그램 | - 히트맵 - 평행좌표 그래프 - 체르노프 페이스 | - 등치선도 - 도트맵 - 카토그램 |
- 시간 시각화: 시간에 따른 데이터 변화/경향성/트렌드
- 시간 시각화 유형: 막대 그래프/ 누적 막대 그래프/ 선 그래프/ 영역 차트/ 계단식 차트
막대 그래프 | 누적 막대 그래프 | 선 그래프 | 영역 차트 | 계단식 차트 |
동일너비 막대 여러개 막대는 특정범주 |
전체 비율을 보여줌 여러 범주를 동시에 |
시간에 따른 크기변화 점은 수량을 나타냄 |
시간에 따른 크기변화 Y축값은 0부터 시작 |
변화가 생길 때까지 X축과 평행한 선 유지 |
![]() |
![]() |
![]() |
![]() |
![]() |
- 공간 시각화: 위도&경도 사용 ⇒ 등치지역도/ 등치선도/ 도트맵/ 도트 플롯맵/ 버블맵/ 버블 플롯맵/ 카토그램
등치지역도 | 등치선도 | 도트맵/ 도트 플롯맵 | 버블맵/ 버블 플롯맵 | 카토그램 |
색상으로 구분 채도/밝기 변화 |
등치지역도 결점 극복 색상/농도 변화 |
산점도처럼 점 표현 시간경과에 따른 확산 |
점에 의미 부여 서로다른 크기의 원형 |
면적 왜곡시킴 지리적 형상크기 조절 |
![]() |
![]() |
![]() |
![]() |
![]() |
- 관계 시각화: 다변량 데이터 사이에 존재하는 변수간 연관성/분포/패턴
- 관계 시각화 유형: 산점도/ 산점도 행렬/ 버블차트/ 히스토그램
산점도 | 산점도 행렬 | 버블차트 | 히스토그램 |
두 변수의 좌표평면 (X,Y) 순서쌍이 한 점으로 상관관계/군집화/이상값파악 |
다변량 변수 데이터 가능한 모든 변수 쌍에 대한 산점도를 행렬형태로 표현 |
산점도의 점에 여러 의미를 부여(확장) |
직사각형 형태로 분포시각화 특정변수에 대한 구간별 빈도수 |
![]() |
![]() |
![]() |
![]() |
- 비교 시각화 유형: 플로팅 바 차트/ 히트맵/ 체르노프 페이스/ 스타 차트/ 평행 좌표 그래프
플로팅 바 차트 | 히트맵 | 체르노프 페이스 | 스타 차트 | 평행 좌표 그래프 |
최소-최대 수치까지 막대가 걸쳐있음 다양성/중복/이상값 |
여러 변수를 비교 칸별로 색상 구분 각 변수는 열 방향 |
얼굴 하나로 표현 눈코입 등과 일대일 대응 |
각 변수와 연결 최솟값은 중심점 최댓값은 가장 먼 끝점 |
다변량 데이터를 2차원 평면에 표현 |
![]() |
![]() |
![]() |
![]() |
![]() |
- 시각화 분석을 위한 데이터 유형: 범주 및 비율/ 추세 및 패턴/ 관계 및 연결
범주 및 비율 | 추세 및 패턴 | 관계 및 연결 |
범위 분포 순위 측정 | 추세 방향/ 추세 패턴/ 추세 속도 변동 패턴 중요도 교차 | 예외 상관성 연관성 계층 관계 |
- 빅데이터 시각화 도구: 태블로/ 인포그램/ 차트블록/ 데이터래퍼
태블로 Tableau | 인포그램 Infogram | 차트블록 Chart Blocks | 데이터래퍼 Data Wrapper |
- 클라우드 저장 - 다양한 그래픽 기능 | - 실시간 인포그래픽 연동 - 자료 제작에 유용 | - 코딩 없이 쉽게 시각화 - 웹 기반 차트 구현 + 공유 | - 쉽게 데이터 업로드 - 레이아웃 제공 |
- 인포그래픽: 중요한 정보를 하나의 그래픽으로 표현함 (그래픽과 텍스트가 균형을 이루도록 조합)
- 복잡하고 어려운 정보를 쉽게 명확하게 이해할 수 있게 해줌
- 인포그래픽 유형: 지도형/ 도표형/ 스토리텔링형/ 타임라인형/ 비교분석형/ 만화형
- 비즈니스 기여도 평가: 사업수행에 영향을 주는 요소를 수치화된 자료형태로 산출하는 평가방법
- 비즈니즈 기여도 평가지표: 총소유비용/ 투자대비효과/ 순현재가치/ 내부수익률/ 투자회수기간
- 고려사항: 효과/ 성능/ 중복/ 최적화 검증
총소유비용 TCO | 투자대비효과 ROI | 순현재가치 NPV | 내부수익률 IRR | 투자회수기간 PP |
한 자산을 획득하려 할때, 주어진 기간동안 모든 연관비용을 고려 | 자본 투자에 따른 순 효과의 비율 (투자 타당성) | 특정 시점의 투자금액과 매출금액의 차이를 이자율로 고려 | 순현재가치 = 0 으로 만드는 할인율 (연단위 기대수익 규모) | 누계 투자금액과 매출의 합이 같아지는 기간 (흑자전환시점) |
- 빅데이터 모형 운영 시스템 적용방안: 모형개발 및 운영 - 적용방안 - 적용단계
- 빅데이터 모형 개발 및 운영:
분석목적 정의 - 가설검토 - 데이터 준비 및 처리 - 모델링 및 분석 - 정확도 및 성능 평가 - 운영
- 운영 단계에서 분석모형을 운영시스템과 통합하여 활용한다~
- 모형과 운영시스템에 사용된 언어가 다른 경우 or 통계패키지로 모형이 개발된 경우: 호환 인터페이스 필요함
- 인터페이스: 서로 다른 2개의 시스템/장치간 정보/신호를 주고 받는 경우의 접점이나 시스템
- 개선방안 수립: 시간이 지남에 따라 성능이 저하될 수 있으므로, 지속적인 성능추적이 필요함
① 예측오차 계산 | ② 예측모형의 점검여부 결정 | ③ 예측모형 개선방향 결정 |
모형을 실행할 때마다, 예측오차를 계산하고 기록 | 예측오차로 추적신호 다시 계산 관리도를 활용하여 추적 | <개선방법1> 최근 데이터&같은 모형 예측모형을 업데이트하여 다시 적용 |
예측오차 = 모형예측값 - 실제값 | 추적신호 = (예측 오차들의 합) / (예측 오차 절댓값들의 평균) | <개선방법2> 다른 모형 교체 상호 비교평가로 선정된 모형으로 교체 |
- 분석 결과에 따른 활용분야 파악&분류
- 분야 파악: 직접(1차) / 파생(2차) 활용 가능한 업무와 가치사슬 파악
- 분야 분류: 초기 아이디어 개발 관점/ 가치사슬 관점에서 관련있는 아이디어를 그룹화하여 분류
초기 아이디어 개발 관점 | 가치사슬 관점 | ||
마인드맵 | 친화도표 | 피라미드 | 새로운 가치사슬 발견 |
마음속에 지도 그리듯 줄거리를 이해하며 정리 | 관련있는 아이디어끼리 같이 묶어서 분류 | 계층구조가 중요한 경우 | 자신의 경쟁적 지위 파악 향상 지점 찾기 위함 |
- 분류 결과를 토대로, 신규 서비스에 대한 사용자와 제공가치 도출:
초기 아이디어 개발 관점 / 서비스 품질 관점(SERVQUAL)/ 일반적인 관점/ 시장 전체 관점에서 고객분류 - 사업화 추진&수익 창출하기 위한 빅데이터 비즈니스 모형
빅데이터 비즈니스의 핵심 성공 요인 CSF | 빅데이터 비즈니스의 주요 실패 요인 | 신규 빅데이터 비즈니스 모형 사례 <비즈니스 모델 캔버스> |
목표 성취를 위해 필수적인 요소 경쟁력 향상을 위한 핵심내부역량 | - 목적/사용자/활용방안 불명확 - 분석대상 데이터 품질의 저하 | - 분석 목적을 명확하게! - 분석 결과가 타당해야! |
- 목적 및 참여요소 측면 - 프로세스 측면 (Start Small) | ※ 모형에 대한 정의 없이 인프라 우선 도입한 경우 | 소규모로 시작하여, 성공경험을 공유하고, 영역을 확대해나가는 것이 바람직함 |
- 분석모형 모니터링: 분석모형이 운영시스템에 적용되면,
실시간/배치 스케줄러가 시행되고, 주기별로 예상했던 수준의 성과가 나오고 있는지 모니터링 - 자동 모니터링: DBMS에 성과자료를 누적, 자동으로 모니터링하고, 이상 시에만 확인
- 모니터링 솔루션 예시: R Shiny
- 모델링 결과를 간단히 배포 가능 (URL접속하여 모델 실행)
- 사용자 작업파일(ui.R), 서버 파일(server.R)
- 분석모형 성능 모니터링: 측정 항목별 임계치 & 이벤트 등급별 알람을 통해 성능 관리
- 고려사항: 자동화는 전용 도구에서 기능을 제공할 때만 적용하는 것이 바람직
- 분석 주기별 모니터링 기준: 일간/ 주간/ 월간(분기)/ 연간
일간 성능분석 | 주간 성능분석 | 월간(분기) 성능분석 | 연간 성능분석 |
시간대별 성능추이 | 주간단위 성능변화 | 일간/주간 취합하여 집계 월간/분기별 현황보고 등 | 연간 업무계획 및 반영 연간 리포트 작성 등 |
- 성능 모니터링을 위한 측정 항목: 응답시간/ 사용률/ 가용성/ 정확성
응답시간 Response Time | 사용률 Utilization | 가용성 Availability | 정확성 Accuracy |
서비스 요청시점부터 사용자 응답시점까지 걸리는 시간 | 일정 시간 동안 정상적으로 자원을 사용한 비율 | 서비스 장애 없이 정상적으로 지속하여 제공할 수 있는 능력 | 정보시스템 처리결과의 정확성에 영향을 주는 요인 |
- 성능 이벤트: 설정한 임계치가 초과되는 것
- 빅데이터 플랫폼을 구성하는 각 구성요소의 특징에 따라서, 별도로 임계치를 설정하여 관리
임계치 (Threshold) | 임계치 설정 및 관리 |
- 성능 모니터링 시, 장애상황 및 성능상태의 경계선 - 임계치에 따른 등급 설정 - 정상 상태를 기준치로 설정 - 비정상 상태를 판단하는 경계 | - 임계치 설정: 서비스 형태&시스템 특성을 고려하여 설정 - 임계치 관리: 다양한 요소를 반영하여 조정 운영하면서도 주변요소의 영향을 받아 조정 |
- 분석모형 리모델링
빅데이터 모형의 지속적인 성과 모니터링을 통하여,
편차가 일정 수준 이상으로 지속적으로 하락하는 경우,
기존 모형에 대하여 데이터마이닝/시뮬레이션/최적화를 적용하는 개조작업 - 리모델링 업무&주기:
- 분기/ 반기/ 연 단위가 바람직
- 일/주 단위는 특수분야만!
데이터 마이닝 | 시뮬레이션 | 최적화 |
분기 | 반기 or 주요변경이 이루어지는 시점 | 연 단위 |
- 동일한 데이터로 다시 학습 - 변수를 추가하여 다시 학습 | 이벤트 발생 패턴변화, 시간 지연변화, 큐잉 우선순위 변화 등을 처리 | - 목적함수(오브젝트 함수)의 계수 변경 - 제약조건의 제약 값 변화 & 추가 |
- 리모델링 절차: 개선용 데이터 수집/처리 - 분석모델 개선 - 분석결과 평가/모델등록
① 개선용 데이터 수집/처리 | ② 분석모델 개선 | ③ 분석결과 평가/모델등록 |
현황분석 - 성능검토 - 개선필요성 결정 | 기존보다 성능이 높아지도록, 파라미터 조정하여 다시 개발 | 평가기준 선정 - 분석결과 검토 - 알고리즘별 결과 비교 |
- 리모델링 고려사항: 결과를 정기적(분기/반기/연단위)으로 재평가하여, 필요하다면 모형을 재조정해야 함
- 재조정 주기 설정 및 자동화
재조정 주기 | 업무 자동화 | 리모델링 고려사항 |
- 초기에 주기 짧게: 자주 재조정 - 점진적으로 길게: 갈수록 가끔 재조정 | - 관리 모델이 월 20개 이상인 경우 - 다른 업무와 함께 수행해야 하는 경우 | - 데이터마이닝: 최신데이터 적용/ 변수추가 - 시뮬레이션: KPI 변경/ 원칙 변경 - 최적화: 조건&가중치 변화/ 계수값 조정 |
참고 도서: 빅데이터분석기사 필기_수제비 2021
반응형
LIST