1. KDD 분석 방법론
- KDD (Knowledge Discovery in Database)는 데이터 마이닝 프로세스로서 데이터 베이스에서 의미 있는 지식을
탐색하는 데이터 마이닝, 기계 학습, 인공지능, 패턴 인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖추고 있다.
- 분석 절차
① 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정
② 데이터 세트 선택
③ 데이터 전처리 : 분석 데이터 세트에 포함된 잡음(Noise), 이상값, 결측치를 식별하고 필요시 제거
④ 데이터 변환 : 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로
적용할 수 있도록 데이터셋을 변경
⑤ 데이터 마이닝 : 변환된 데이터 세트를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고,
데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는
예측하는 등의 마이닝 작업을 시행한다.
⑥ 데이터 마이닝 결과 평가 : 분석 결과에 대한 해석과 평가 그리고 활용.
→ 시험에서 분석 절차에 대해 내용과 순서를 물어보는 형태로 출제되며, 뒤에서 볼 CRISP-DM 과 연계한 형태로
알고 있으면 좋음.
2. CRISP - DM 분석 방법론
-CRISP - DM (Cross Industry Standard Process For Data Mining) 프로세스는 각 단계가 폭포수 모델처럼 한 방향으로
구성되어 있지 않으며, 단계 간 피드백을 통해 완성도를 높이게 됨.
- 분석 절차
① 업무 이해
- 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계
- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립으로 구성
② 데이터 이해
- 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고,
데이터의 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
- KDD 분석 절차에서 데이터 선택 + 전처리에 해당한다고 생각하면 됨.
③ 데이터 준비
- 데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터 세트를 편성하는 단계로 많은 시간이
소요될 수 있음.
- 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅 등이 해당.
④ 모델링
- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
- 이 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋을 평가하여 모델 과적합 등의 문제를 발견하고
대응방안을 마련함.
- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가로 구성
⑤ 평가
- 프로젝트의 목적에 부합하는지 모델 평가
: 데이터 마이닝 결과 수용 여부를 최종적으로 판단.
: 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가
⑥ 전개
- 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고,
모델링과 모델의 유지 보수 계획 마련
- 전개 계획 수립, 모니터링과 유지 보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토로 구성
→ 시험에서 단계별 내용을 물어보는 형태로 출제됨.
모델의 자체 평가는 모델링 과정에서, 모델 적용성 평가는 평가 과정에서 한다는 것은 헷갈리기 쉬운 부분이니 참고.
3. 빅데이터 분석 방법론
→ 시험에서 각 단계별 상세 내용에 대해 물어보는 형태로 출제됨
이 중 분석 기획, 모델링에 대해 물어보는 형태가 빈출이라고 볼 수 있음.
3.1 분석 기획
① 비즈니스 이해 범위 설정
→ 비즈니스 이해 : 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 향후 프로젝트 방향 설정
→ 프로젝트 범위 설정 : 비즈니스 이해와 프로젝트 목적에 부합되는 범위 설정
→ SOW : 프로젝트 수행 전에 개념 정리 , 기회 제공, 프로젝트 팀원들에게 한눈에 프로젝트 전체를 볼 수 있게 하고,
진행 도중 새롭게 투입된 팀원에게 전달하기 위해 작성
② 프로젝트 정의 및 계획 수립
③ 프로젝트 위험 계획 수립
- 위험 대응 계획 수립 : 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용 구분하여 관리 계획서 작성
→ 시험에서 회피, 전이, 완화, 수용에 대해 물어는 형태로 출제됨.
(예) 다음 중 위험에 대응하는 것 중 아닌 것은? 형태임
3.2 모델링
- 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터 분류, 예측, 군집 등의
기능을 수행하는 모델을 만드는 과정
- 의사 코드 : 일반적인 언어로 코드를 흉내 내어 알고리즘을 써놓은 코드
→ 시험에서 의사 코드를 아주 가끔 물어봄.