데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터 분석 준전문가] 3과목 데이터의 분석 (Box Plot, 상자그림, 데이터 분포의 흩어짐, 산포, 평균, 중위수, 최빈치, 자료의 척도, 확률 변수와 확률 분포)

깜장스 2022. 7. 16. 21:36
반응형

 

1. Box Plot(상자 그림)

Box Plot

1) Box Plot을 통해 얻을 수 있는 정보

- 5개의 통계량과 자료의 평균값, 사분위수 범위를 쉽게 파악

 

- 이상치에 대한 추가적 조사를 할 수 있도록 함.

 

- 자료 분포의 비 대칭도를 파악 → 자료의 평균과 중앙값을 비교

 

- 특히 그룹 간의 분포를 비교하는데 효과적

 

 → 시험에서는 단답형으로 하한값, 상한값 구하는 형태와 활용과 의미 관련 하여 출제됨.

 

2. 데이터 분포의 흩어짐 (산포)

 

1) 변동계수 : 표준편차/평균, 측정단위가 서로 다른 데이터를 비교할 때 사용

 

2) IQR(사분위수 범위) : Q3 - Q1

 

3) 범위 : 최댓값 - 최솟값

 

4) 왜도 (Skewness) : 정규분포이면 왜도는 0, 0보다 크면 왼쪽으로 치우진 분포

 

5) 첨도(Kurtosis) : 첨도가 3보다 크면 정규분포보다 뾰족한 모양

 

왜도와 첨도 (출처 : https://m.blog.naver.com/yk60park/222100758577)

 

→ 시험에서는 용어 문제 특히! 사분위수 범위와 사분위수에 대해 잘 구분해야 함.

 

 

3. 평균, 중위수, 최빈치

 

1) 데이터의 중심을 나타낼 때 사용하는 것

 

2) 평균 : 모든 측정된  data를 측정한 횟수로 나눈 값

   

               이상치에 절대적인 영향을 받는다.

 

3) 중앙값 : 측정된 data를 크기 순으로 나열했을 때 가운데 위치한 값

 

                   이상치에 크게 영향받지 않는다.

 

4) 최빈값 : 측정된 data에서 빈도수가 가장 많은 값

 

                  최빈값은 존재할 수도, 하지 않을 수도, 여러 개일 수도 있다.

 

 

→ 시험에서는 분포를 이야기하고, 평균과 중앙값 의 크기를 비교하는 형태로 출제됨.

 

ex) 왼쪽으로 치우친 분포 :  평균 > 중앙값

 

      대칭인 분포 : 평균 = 중앙값

 

      오른쪽으로 치우친 분포 : 중앙값 > 평균

 

 

4. 자료의 척도 관련 문제

 

1) 명목적도 : 어느 집단에 속하는지

 

→ 명목 척도는 중앙값 또는 평균 계산이 가능하다 (X)

 

2) 순서 척도 : 서열관계

 

3) 구간 척도 : 속성의 양 (구간 / 간격)

 

→ 측정 대상이 갖고 있는 속성의 질을 측정한다 (X)

 

→ 절대 0 점이 존재한다 (X)

 

4) 비율 척도 : 간격에 대한 비율 (절대 0 점 존재, 사칙 가능)

 

→ 시험에서는 척도의 설명을 하고 틀린 것, 혹은 맞는 것을 찾는 형태로 출제됨.

 

 

5. 확률 변수와 확률 분포

 

1) 이산형 확률 변수 : 확률 변수가 취할 수 있는 값이 셀 수 있는 목록 중 하나의 값을 가지는 확률 변수

 

2) 연속형 확률변수 : 확률 변수가 구간 또는 구간들의 모임인 숫자 값을 가지는 확률 변수

 

3) 표본 공간 : 한 실험에서 나타날 수 있는 가능한 모든 결과의 집합이 S이다.

 

                       즉 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말함.

 

4) 이산 확률 분포 : 확률 변수가 정수의 값을 가지는 경우로 이항 분포, 포아송 분포, 초기하 분포, 기하 분포,

 

                               다항 분포가 있음.

 

5) 연속 확률 분포 : 확률분포가 소수점의 값을 포함하는 실수의 값을 가지는 경우로 정규분포, 표준 정규분포,

 

                               지수 분포, t-분포, F-분포, 카이제곱 분포 등이 있음.

 

→ 시험에서는 확률 분포의 종류를 구분하는 형태로 출제됨.

 

 

 

 

 

 

 

반응형