본문 바로가기
데이터 및 Programing/Part3. 데이터 분석(ADsP 자격시험)

[ADsP 데이터분석 준전문가] 회귀분석(Regression, 개념과 목적, 단순회귀모형, 회귀 모형의 가정, 접합성 검정, 결정계수, 상관계수)

by 깜장스 2022. 4. 25.
반응형

지금부터는 회귀분석(Regression)에 대해 공부를 시작해 보겠다.

 

 

============================================================================


1. 개념

매개변수 모델(parametric model)을 이용하여 통계적으로 변수들 사이의 관계를 추정하는 분석

   : 독립변수가 종속변수에 미치는 영향 분석 또는 변화 예측을 위한 통계 기법  등등

 

◎ 영국의 유전학자 갈톤(Galton)이 두 변수 간의 상관과 회귀에 관한 분석 방법을 처음 제시.

   
    부모와 자식들 간의 키의 상관관계를 분석해 본 갈톤은 다음과 같은 재미있는 관계를 찾아냄

    특이하게 큰 부모의 자식들은 대개 크긴 하되 부모들보다는 대부분 작으며, 
    작은 부모들의 자식들은
 대개 작긴 하되 부모들보다는 대부분 크다는 사실이다.

    이러한 경향은 사람들의 키가 평균키로 회귀하려는 경향이 있음을 말하는 것인데,

    바로 이 연구에서부터 회귀분석이라는 용어가 사용되게 됨.

 

 

2. 용어 



   ①
영향을 주는 변수 : 독립변수(independent variable), 설명변수(explanatory variable)

 

   ② 영향을 받는 변수 : 종속변수(dependent variable), 반응변수(response variable)

 

   ③ 예측모델(prediction model) 또는 예측모형 : 독립변수에 해당하는 자료와 종속변수에 해당하는 자료를 모아
      관계를 분석하고 이를 예측에 사용할 수 있는 통계적 방법으로 정리한 것

 

3. 목적 

 

    ① 종속변수와 독립변수들 사이에 존재하는 함수 관계를 추정

 

    ② 독립변수들이 종속 변수에 미치는 효과를 검정

 

    ③ 추정된 회귀함수를 이용하여 종속 변수의 미래의 값을 예측.

 

4. 단순 회귀 모형

 

x : 독립변수

u : 오차항 

 

5. 회귀모형에 대한 가정

 

① 선형성 : 산점도를 통해 확인.

 

② 독립성 : 잔차와 독립변수의 값이 관련되어 있지 않다.

 

③ 등분산성 : 오차항들의 분포는 동일한 분산을 갖는다.
                  분산이 일정하지 않으면, 가중 회귀를 쓰거나 종속 변수를 변화시킨다.

                   

                 잔차와 예측치의 산점도가 부채꼴이면, 등분산성이 무너지고 오차항이 이분산성을 갖는다고 함.
                 이분산성은 독립변수 값이 변화할 때 종속변수 값들의 분산이 상이하게 될 때 나타남.

 

④ 비상관성 : 잔차들끼리 상관이 없어야 한다.

 

⑤ 정상성 : 잔차항이 정규분포를 이뤄야 한다.

 

 

6. 접합성 검증과 결정 계수


◎ 접합성 검증 : 도출한 회귀식이 표본 측정치를 얼마나 잘 설명하는지를 확인하는 것

 

◎ 결정 계수 : 표본에 대한 회귀선의 설명력을 확률로 표현한 계수로, 1에 근접할수록 회귀선의 추정치를

                   잘 반영하고 있다고 볼 수 있다.

 

 

 

============================================================================



 

 

반응형