본문 바로가기
데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터 분석 준전문가] 3과목 데이터의 분석 (상관 분석, 주성분 분석)

by 깜장스 2022. 7. 25.
반응형

1. 상관 분석

 

① 상관계수로 변수 간의 유의성을 확인할 수 있다 (x)

 

② 상관분석은 두 변수의 인과관계도 알 수 있다 (x)

 

③ 상관 분석의 유의 확률 정보로 상관성의 방향을 알 수 있다 (x)

 

1) 피어슨 상관계수 : 두 변수 X  Y 간의 선형 상관관계를 계량화한 수치

 

                                  피어슨의 상관 계수를 제곱해줌으로써 결정계수를 얻을 수 있다.

 

                                  두 변수 간의 선형 관계 측정

 

                                  연속형 변수만 가능

 

2) 스피어만 상관계수 : 두 변수 순위 사이의 통계적 의존성을 측정하는 비모수적인 척도이다.

                           

                                     이는 두 변수의 관계가 단조함수를 사용하여 얼마나 잘 설명될 수 있는지를 평가한다.

 

                                      스피어만 상관계수는 순위가 매겨진 변수 간의 피어슨 상관 계수로 정의가 가능

 

                                     두 변수 간의 비선형적 관계 측정

 

                                     연속형 외에 순서형도 가능.

 

※ 통계적 계산에서 순서 척도가 적용되는 상관분석에서는 스피어만 상관 계수가 사용되며,

 

     간격 척도가 적용되는 변수들 간의 분석에서는 피어슨 상관 계수가 사용된다.

 

※ 공분산 = 0  →  아무런 선형 관계 X    서로 독립

 

    공분산은 측정 단위에 영향을 받음    정도 파악 X

 

→ 시험에서는 피어슨 상관계수는 등간 척도 이상일 때 사용하는 것과 관련하여 출제됨.

 

    그리고 공분산 관련하여 출제됨.

 

2. 주성분의 개념

 

1) 주성분 분석은 변수들의 선형 결합으로 이루어진 서로 독립이며,

 

  기존 자료보다 적은 수의 주성분들로 기존 자료의 변동을 설명 (차원 축소의 개념)

 

2) 주성분 분석 수 결정 기준

 

① 성분들이 설명하는 분산의 비율

 

② 고윳값이 1 이상

 

③ Scree Plot에서 엘보우 포인트

 

※ Scree Plot : 주성분을 x축, 주성분의 고윳값(주성분의 분산)을 y축에 둔 그래프로,

 

                       고윳값이 급격히 완만해지는 지점의 바로 전 단계가 주성분의 수가 된다

 

→ 시험에서는 주성분 수 결정 기준에 관해 출제됨.

 

 

 

 

반응형