본문 바로가기
데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터 분석 준전문가] 3과목 데이터의 분석 (Box Plot, 상자그림, 데이터 분포의 흩어짐, 산포, 평균, 중위수, 최빈치, 자료의 척도, 확률 변수와 확률 분포)

by 깜장스 2022. 7. 16.
반응형

 

1. Box Plot(상자 그림)

Box Plot

1) Box Plot을 통해 얻을 수 있는 정보

- 5개의 통계량과 자료의 평균값, 사분위수 범위를 쉽게 파악

 

- 이상치에 대한 추가적 조사를 할 수 있도록 함.

 

- 자료 분포의 비 대칭도를 파악 → 자료의 평균과 중앙값을 비교

 

- 특히 그룹 간의 분포를 비교하는데 효과적

 

 → 시험에서는 단답형으로 하한값, 상한값 구하는 형태와 활용과 의미 관련 하여 출제됨.

 

2. 데이터 분포의 흩어짐 (산포)

 

1) 변동계수 : 표준편차/평균, 측정단위가 서로 다른 데이터를 비교할 때 사용

 

2) IQR(사분위수 범위) : Q3 - Q1

 

3) 범위 : 최댓값 - 최솟값

 

4) 왜도 (Skewness) : 정규분포이면 왜도는 0, 0보다 크면 왼쪽으로 치우진 분포

 

5) 첨도(Kurtosis) : 첨도가 3보다 크면 정규분포보다 뾰족한 모양

 

왜도와 첨도 (출처 : https://m.blog.naver.com/yk60park/222100758577)

 

→ 시험에서는 용어 문제 특히! 사분위수 범위와 사분위수에 대해 잘 구분해야 함.

 

 

3. 평균, 중위수, 최빈치

 

1) 데이터의 중심을 나타낼 때 사용하는 것

 

2) 평균 : 모든 측정된  data를 측정한 횟수로 나눈 값

   

               이상치에 절대적인 영향을 받는다.

 

3) 중앙값 : 측정된 data를 크기 순으로 나열했을 때 가운데 위치한 값

 

                   이상치에 크게 영향받지 않는다.

 

4) 최빈값 : 측정된 data에서 빈도수가 가장 많은 값

 

                  최빈값은 존재할 수도, 하지 않을 수도, 여러 개일 수도 있다.

 

 

→ 시험에서는 분포를 이야기하고, 평균과 중앙값 의 크기를 비교하는 형태로 출제됨.

 

ex) 왼쪽으로 치우친 분포 :  평균 > 중앙값

 

      대칭인 분포 : 평균 = 중앙값

 

      오른쪽으로 치우친 분포 : 중앙값 > 평균

 

 

4. 자료의 척도 관련 문제

 

1) 명목적도 : 어느 집단에 속하는지

 

→ 명목 척도는 중앙값 또는 평균 계산이 가능하다 (X)

 

2) 순서 척도 : 서열관계

 

3) 구간 척도 : 속성의 양 (구간 / 간격)

 

→ 측정 대상이 갖고 있는 속성의 질을 측정한다 (X)

 

→ 절대 0 점이 존재한다 (X)

 

4) 비율 척도 : 간격에 대한 비율 (절대 0 점 존재, 사칙 가능)

 

→ 시험에서는 척도의 설명을 하고 틀린 것, 혹은 맞는 것을 찾는 형태로 출제됨.

 

 

5. 확률 변수와 확률 분포

 

1) 이산형 확률 변수 : 확률 변수가 취할 수 있는 값이 셀 수 있는 목록 중 하나의 값을 가지는 확률 변수

 

2) 연속형 확률변수 : 확률 변수가 구간 또는 구간들의 모임인 숫자 값을 가지는 확률 변수

 

3) 표본 공간 : 한 실험에서 나타날 수 있는 가능한 모든 결과의 집합이 S이다.

 

                       즉 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말함.

 

4) 이산 확률 분포 : 확률 변수가 정수의 값을 가지는 경우로 이항 분포, 포아송 분포, 초기하 분포, 기하 분포,

 

                               다항 분포가 있음.

 

5) 연속 확률 분포 : 확률분포가 소수점의 값을 포함하는 실수의 값을 가지는 경우로 정규분포, 표준 정규분포,

 

                               지수 분포, t-분포, F-분포, 카이제곱 분포 등이 있음.

 

→ 시험에서는 확률 분포의 종류를 구분하는 형태로 출제됨.

 

 

 

 

 

 

 

반응형