본문 바로가기
데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터 분석 준전문가] 2과목 데이터의 분석 기획 (KDD, 분석절차, CRISP - DM 분석 방법론, 빅데이터 분석 방법론)

by 깜장스 2022. 6. 2.
반응형

 

1. KDD 분석 방법론

 

- KDD (Knowledge Discovery in Database)는 데이터 마이닝 프로세스로서 데이터 베이스에서 의미 있는 지식을

 

탐색하는 데이터 마이닝, 기계 학습, 인공지능, 패턴 인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖추고 있다.

 

- 분석 절차

 

① 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정

 

데이터 세트 선택

 

데이터 전처리 : 분석 데이터 세트에 포함된 잡음(Noise), 이상값, 결측치를 식별하고 필요시 제거

 

데이터 변환 : 분석 목적에 맞는 변수를 선택하거나 데이터의 차원을 축소하여 데이터 마이닝을 효율적으로

                           적용할 수 있도록 데이터셋을 변경

 

데이터 마이닝 : 변환된 데이터 세트를 이용하여 분석 목적에 맞는 데이터 마이닝 기법을 선택하고,

 

                              데이터 마이닝 알고리즘을 선택하여 데이터의 패턴을 찾거나 데이터를 분류 또는
 
                              예측하는 등의 마이닝 작업을 시행한다.

 

데이터 마이닝 결과 평가 : 분석 결과에 대한 해석과 평가 그리고 활용.

 

→ 시험에서 분석 절차에 대해 내용과 순서를 물어보는 형태로 출제되며, 뒤에서 볼 CRISP-DM 과 연계한 형태로

    알고 있으면 좋음.

 

2. CRISP - DM 분석 방법론

 

-CRISP - DM (Cross Industry Standard Process For Data Mining) 프로세스는 각 단계가 폭포수 모델처럼 한 방향으로


 구성되어 있지 않으며, 단계 간 피드백을 통해 완성도를 높이게 됨.

 

- CRISP-DM (출처 : https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=limsay77&logNo=220294703246)

 

- 분석 절차

 

업무 이해

- 비즈니스 관점 프로젝트의 목적과 요구사항을 이해하기 위한 단계

 

- 도메인 지식을 데이터 분석을 위한 문제 정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

 

- 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립으로 구성

 

데이터 이해

 

- 데이터 이해는 분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 과정으로 구성되고,

 

데이터의 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계

 

- KDD 분석 절차에서 데이터 선택 + 전처리에 해당한다고 생각하면 됨.

 

데이터 준비

 

- 데이터 준비는 분석을 위하여 수집된 데이터에서 분석 기법에 적합한 데이터 세트를 편성하는 단계로 많은 시간이

 

소요될 수 있음.

 

- 분석용 데이터 세트 선택, 데이터 정제, 데이터 통합, 데이터 포맷팅 등이 해당.

 

모델링

 

- 다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계

 

- 이 단계를 통해 찾아낸 모델은 테스트용 프로세스와 데이터셋을 평가하여 모델 과적합 등의 문제를 발견하고

대응방안을 마련함.

 

- 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가로 구성

 

평가

 

- 프로젝트의 목적에 부합하는지 모델 평가

 

   : 데이터 마이닝 결과 수용 여부를 최종적으로 판단.

 

   : 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가

 

전개

 

- 모델링과 평가 단계를 통하여 완성된 모델을 실제 업무에 적용하기 위한 계획을 수립하고,

모델링과 모델의 유지 보수 계획 마련

- 전개 계획 수립, 모니터링과 유지 보수 계획 수립, 프로젝트 종료 보고서 작성, 프로젝트 검토로 구성

 

→ 시험에서 단계별 내용을 물어보는 형태로 출제됨.

 

   모델의 자체 평가는 모델링 과정에서, 모델 적용성 평가는 평가 과정에서 한다는 것은 헷갈리기 쉬운 부분이니 참고.

 

 

3. 빅데이터 분석 방법론

 

빅데이터 분석 방법론 (출처 : https://codedragon.tistory.com/6904)

→ 시험에서 각 단계별 상세 내용에 대해 물어보는 형태로 출제됨

     이 중 분석 기획, 모델링에 대해 물어보는 형태가 빈출이라고 볼 수 있음.

    

 

3.1 분석 기획

 

① 비즈니스 이해 범위 설정 

→ 비즈니스 이해 : 내부 업무 매뉴얼과 관련 자료, 외부의 관련 비즈니스 자료 조사 향후 프로젝트 방향 설정

→ 프로젝트 범위 설정 : 비즈니스 이해와 프로젝트 목적에 부합되는 범위 설정 

 

SOW : 프로젝트 수행 전에 개념 정리 , 기회 제공, 프로젝트 팀원들에게 한눈에 프로젝트 전체를 볼 수 있게 하고,

                 진행 도중 새롭게 투입된 팀원에게 전달하기 위해 작성

 

② 프로젝트 정의 및 계획 수립

 

③ 프로젝트 위험 계획 수립

 

- 위험 대응 계획 수립 : 예상되는 위험에 대한 대응은 회피, 전이, 완화, 수용 구분하여 관리 계획서 작성

 

→ 시험에서 회피, 전이, 완화, 수용에 대해 물어는 형태로 출제됨.

 

     (예) 다음 중 위험에 대응하는 것 중 아닌 것은? 형태임

 

3.2 모델링 

- 분석용 데이터를 이용한 가설 설정을 통해 통계 모델을 만들거나 기계학습을 이용한 데이터 분류, 예측, 군집 등의

기능을 수행하는 모델을 만드는 과정

 

- 의사 코드 : 일반적인 언어로 코드를 흉내 내어 알고리즘을 써놓은 코드

 

→ 시험에서 의사 코드를 아주 가끔 물어봄.

 

 

 

반응형