1. Box Plot(상자 그림)
1) Box Plot을 통해 얻을 수 있는 정보
- 5개의 통계량과 자료의 평균값, 사분위수 범위를 쉽게 파악
- 이상치에 대한 추가적 조사를 할 수 있도록 함.
- 자료 분포의 비 대칭도를 파악 → 자료의 평균과 중앙값을 비교
- 특히 그룹 간의 분포를 비교하는데 효과적
→ 시험에서는 단답형으로 하한값, 상한값 구하는 형태와 활용과 의미 관련 하여 출제됨.
2. 데이터 분포의 흩어짐 (산포)
1) 변동계수 : 표준편차/평균, 측정단위가 서로 다른 데이터를 비교할 때 사용
2) IQR(사분위수 범위) : Q3 - Q1
3) 범위 : 최댓값 - 최솟값
4) 왜도 (Skewness) : 정규분포이면 왜도는 0, 0보다 크면 왼쪽으로 치우진 분포
5) 첨도(Kurtosis) : 첨도가 3보다 크면 정규분포보다 뾰족한 모양
→ 시험에서는 용어 문제 특히! 사분위수 범위와 사분위수에 대해 잘 구분해야 함.
3. 평균, 중위수, 최빈치
1) 데이터의 중심을 나타낼 때 사용하는 것
2) 평균 : 모든 측정된 data를 측정한 횟수로 나눈 값
이상치에 절대적인 영향을 받는다.
3) 중앙값 : 측정된 data를 크기 순으로 나열했을 때 가운데 위치한 값
이상치에 크게 영향받지 않는다.
4) 최빈값 : 측정된 data에서 빈도수가 가장 많은 값
최빈값은 존재할 수도, 하지 않을 수도, 여러 개일 수도 있다.
→ 시험에서는 분포를 이야기하고, 평균과 중앙값 의 크기를 비교하는 형태로 출제됨.
ex) 왼쪽으로 치우친 분포 : 평균 > 중앙값
대칭인 분포 : 평균 = 중앙값
오른쪽으로 치우친 분포 : 중앙값 > 평균
4. 자료의 척도 관련 문제
1) 명목적도 : 어느 집단에 속하는지
→ 명목 척도는 중앙값 또는 평균 계산이 가능하다 (X)
2) 순서 척도 : 서열관계
3) 구간 척도 : 속성의 양 (구간 / 간격)
→ 측정 대상이 갖고 있는 속성의 질을 측정한다 (X)
→ 절대 0 점이 존재한다 (X)
4) 비율 척도 : 간격에 대한 비율 (절대 0 점 존재, 사칙 가능)
→ 시험에서는 척도의 설명을 하고 틀린 것, 혹은 맞는 것을 찾는 형태로 출제됨.
5. 확률 변수와 확률 분포
1) 이산형 확률 변수 : 확률 변수가 취할 수 있는 값이 셀 수 있는 목록 중 하나의 값을 가지는 확률 변수
2) 연속형 확률변수 : 확률 변수가 구간 또는 구간들의 모임인 숫자 값을 가지는 확률 변수
3) 표본 공간 : 한 실험에서 나타날 수 있는 가능한 모든 결과의 집합이 S이다.
즉 시행에 의하여 일어날 수 있는 가능한 모든 결과로 된 집합을 말함.
4) 이산 확률 분포 : 확률 변수가 정수의 값을 가지는 경우로 이항 분포, 포아송 분포, 초기하 분포, 기하 분포,
다항 분포가 있음.
5) 연속 확률 분포 : 확률분포가 소수점의 값을 포함하는 실수의 값을 가지는 경우로 정규분포, 표준 정규분포,
지수 분포, t-분포, F-분포, 카이제곱 분포 등이 있음.
→ 시험에서는 확률 분포의 종류를 구분하는 형태로 출제됨.