분류 | 주요내용 | 세부내용 | 키 포인트 |
데이터 이해 | 데이터의 이해 | 데이터와 정보 | 지식의 피라미드**, 형태: 정성적, 정량적 |
데이터베이스의 정의와 특징 | 잘 보관된 정보의 집합, 통합/저장/공용/변화 | ||
데이터베이스 활용 | 모든 것 | ||
데이터의 가치와 미래 | 빅데이터의 이해 | 규모/형태/속도, 인과관계 -> 상관관계 | |
빅데이터의 가치와 영향 | 다목적 활용, 새로운 가치 창출, 분석 기술의 발전 | ||
비즈니스 모델 | 연관규칙/유전/회귀/소셜네트워크/유형(분류)/기계학습/감정 | ||
위기 요인과 통제 방안 | 사생활 침해 -> 동의에서 책임으로 책임 원칙 훼손 -> 결과 기반의 책임 원칙 고수 데이터 오용 -> 알고리즘 접근 허용 (구글 사례) |
||
미래의 빅데이터 | 데이터(모든 것), 기술(알고리즘 진화), 인력(데이터 과학자) | ||
가치 창조를 위한 데이터 과학과 전략 인사이트 |
빅데이터 분석과 전략 인사이트 | 전략적 통찰력 | |
전략 인사이트 도출을 위한 필요 역량 | 데이터 과학자(기획/분석/기술) = 기술 + 인문학적 통찰력 | ||
빅데이터 그리고 데이터 사이언스의 미래 | 디지털 -> 연결 -> 중개 “통계는 술취한 사람이 가로등을 조명이 아닌 몸을 기대는 지지대로 사용하는 것처럼 종종 다른 용도로 쓰인다.” 마크 - 분석의 한계는 수집된 데이터의 범주에 있다. |
||
데이터 처리 기술 이해 | 데이터 처리 프로세스 | ETL(Extraction, Transformation and Load) | 추출, 변형, 적재 |
CDC(Change Data Capture) | 변경 데이터 처리 | ||
EAI(Enterprise Application Integration) | 연계 통합, 데이터 허빙 | ||
데이터 연계 및 통합 기법 요약 | 일괄 통합, 비동기식 실시간 통합, 동기식 실시간 통합 | ||
대용량 비정형 데이터 처리 | 대규모 분산 병렬 처리 | ||
데이터 처리 기술 | 분산 데이터 저장 기술 | 분산 파일 시스템(하둡), 데이터베이스 클러스터, NoSQL | |
분산 컴퓨팅 기술 | 맵리듀스, 병렬 쿼리, 클라우드 인프라 | ||
클라우드 인프라 기술 | SaaS, PaaS, IaaS | ||
데이터 분석 기획 | 분석과제 정의 | 개요 | 질문에서 시작, 선택과 집중(핵심으로도 유용), 프로세스 속 분석 |
분석 기회 발굴 | 탑 다운, 바톰 업 방식 | ||
분석 기회 구조화 | 유저스토리의 구체화 | ||
분석 방안 구체화 | 분석 필요 데이터 정의, 분석 ROI 평가 (데이터 확보 비용) | ||
분석 활용 시나리오 정의 | 시나리오 플로우 그림 | ||
분석 정의서 작성 | 플로우 요소에 대한 세부 정의 | ||
전사관점 분석적용 시 고려요소 | 업무영역 -> 전사 목표(Cause-Effect Map), 프로세스 내재화 | ||
분석 마스터 플랜 | 마스터 플랜 수립 | 우선순위 평가 -> 단계적 로드맵 수립 | |
분석 거버넌스 체계 | 분석 수준 진단(준비도, 성숙도), 분석 조직(인력), 교육 및 변화관리 | ||
데이터 분석 | 데이터 분석 개요 | 데이터 분석 프로세스 | 요건 정의 -> 모델링(알고리즘) -> 검증 및 테스트 -> 적용 |
데이터 분석 기법의 이해 | 데이터 처리, 시각화, 공간 분석, 탐색적 분석, 통계 분석, 데이터 마이닝, 시뮬레이션, 최적화, 배포 및 운영 |
||
분석 환경 이해와 기본 사용법 | R 스튜디오 | ||
통계분석 | 통계분석의 이해 | 통계(추출, 척도), 통계분석, 확률분포, 추정과 가설검정, 비모수 검정 **척도: 명목, 순서, 구간, 비율 |
|
기초 통계분석 | 기술 통계, 인과관계의 이해, 상관 분석, 회귀 분석 | ||
시계열 분석 | 정상성(변환,차분), 시계열 모형(자기회귀모형, 이동평균모형)?? | ||
다차원 척도법 | 유사성을 측정하여 거리의 형태로 시각화 하는 방법 | ||
주성분 분석 | 분산을 극대화 하는 변수를 주성분으로 나열 | ||
데이터 마트 | 데이터 변경 및 요약 | 요약변수/파생변수/Reshape sqldf, plyr, table Like DataFrame on Python |
|
데이터 가공 | Data Exploration, 변수 중요도 | ||
기초 분석 및 데이터 관리 | 데이터 EDA(탐색적 데이터 분석), 결측값 처리, | ||
정형 데이터 마이닝 | 데이터 마이닝 개요 | 통계적 분석과 달리 가설/가정에 의한 분석이 아니다. 연관관계 도출 |
|
분류분석(Classification) | 학습 형태 | ||
예측분석(Prediction) | 기존 데이터를 활용하여 활동 결과를 예측 (시계열 변수, 인과관계 모형) |
||
군집분석(Clustering) | 계층적 군집 방법, 비계층적 군집 방법 | ||
연관분석(Association Analysis) | 장바구니 분석 | ||
비정형 데이터 마이닝 | 텍스트 마이닝 | 텍스트를 정량화하여 마이닝 | |
사회연결망 분석 | 연결정도(개수)/근접(거리)/매개(브로커)/위세(가중치) 중심성 | ||
시뮬레이션 및 최적화 | 빅데이터와 시뮬레이션 | 빅데이터를 통해 시뮬레이션 모델링이 용의함 | |
시뮬레이션 | 실제 상황을 확률적 모형으로 단순화 한 것 | ||
최적화 | 목적함수의 값을 최적화(최대 또는 최소) 시키는 변수 조합 찾기 | ||
데이터 시각화 | 시각화 인사이트 프로세스 | 시각화 인사이트 프로세스의 의미 | 탐색(자료), 분석(관계), 활용(확장 개념) |
탐색(1단계) | 데이터 확인, 열결 고리 확인, 관계의 탐색 | ||
분석(2단계) | 대상의 구체화, 분석과 시각화 도구, 지표설정과 분석 | ||
활용(3단계) | 내부 적용, 외부 설명과 시각화 도구, 인사이트의 발전과 확장 | ||
시각화 디자인 | 시각화의 정의 | 데이터 분석 결과를 쉽게 이해할 수 있도록 표현 및 전달 | |
시각화 프로세스 | 정보 구조화 -> 정보 시각화 -> 정보 시각표현 | ||
시각화 방법 | 정보 시각 표현, 인터렉션 구현 | ||
빅데이터와 시각화 디자인 | ING… | ||
시각화 구현 | 시각화 구현 개요 | 시각화 플랫폼, 시각화 라이브러리, 인포그래픽스 | |
분석 도구를 이용한 시각화 구현: R | 분석과 시각화의 일원화 | ||
라이브러리 기반의 시각화 구현: D3.js | HTML5 기술을 활용한 자바스크립트 기반의 라이브러리 |
분석 분류표
데이터 분석 전문가 가이드(KODB)를 참고한 요약 시트이다.
0 개의 댓글:
댓글 쓰기