회귀분석(2) : 다중공선성, 더미변수, 엑셀과 R실습
1. 다중공선성(Multi-collinearity)
다중공선성은 상관관계가 비교적 높은 X독립변수를 모형에 함께 사용했을 때 나타나는 현상을 말한다. 변수를 많이 집어넣을수록 생기는 문제이며, 적합도(R^2)는 높은데 유의한 변수(p-value가 0.1보다 작음)가 거의 없는 상태이다. 회귀분석은 각 독립변수와 종속 변수의 관계를 결정하여 어떤 변수에서 영향이 오는지 확인하기 위한 것인데 다중공선성으로 인해 영향을 제대로 파악할 수 없고 정확한 판단이 어려워진다. 결국 회귀분석의 p값은 유의미하지 않으며 값을 해석할 수 없게 된다. 다중공선성은 이처럼 독립변수의 통계적 유의성을 왜곡하기 때문에 문제가 되며, 이러한 문제는 상관관계 높은 변수를 하나씩 빼면서 해결할 수 있다.
2. 더미변수
변수의 구체적인 값을 모를 때 0과 1로 구분하는 것을 말한다. dummy variable이라고 하며 예를 들어 한 시점과 안한 시점 이처럼 시점을 기준으로 0, 1로 표현할 수 있다.
3. 표준화된 계수
변수 있는 그대로 변수를 회귀분석 할 경우 구한계수는 비표준화 계수이다. y와x의 단위가 다르기 때문에 잘못된 분석이 나올 수 있으며 비표준화 계수와 표준화 계수가 다르기 때문에 표준화 시키는 과정이 필요하다. 평균에서 뺀 것을 표준편차로 나누는 과정인 표준화 과정을 거쳐 표준화된 변수로 회귀분석을 진행해야한다.SPSS에서 표준화된 계수를 확인할 수 있다.
4. 실습: 회귀분석 하기
엑셀실습
엑셀로 회귀분석을 하기위해 오른쪽 위 데이터 분석을 눌러 회귀분석을 선택한다. x와 y를 선택한 후 이름표 설정을 확인한다. 결과값을 낸 후 확인해보면 엑셀 데이터 분석을 통해 나온 값은 표준화된 계수가 아닌 비표준화계수이다. 회귀분석은 표준화된 변수로 진행해야하므로 아래 사진처럼 표를 만들어 비표준화계수를 구한다. 엑셀에서 표준편차를 구하는 식은 stdev이며 평균을 구하는 식은 average이다. 평균과 표준편차를 이용해 표준화된 계수를 구한 후 p 값을 확인한다. 아래 자료에서는 표준화된 계수에서 식료품이 가장 컸으므로 식료품이 가장 영향력 있다는 것을 확인할 수 있다.
- 데이터분석-회귀분석 선택
- X,Y선택
- 엑셀 데이터 분석을 통해 나온 값은 비표준화계수이다.
- 비표준화계수를 표준화시켜표준화된 계수를 구한다.
- 각각의평균과 표준편차구한다.
- 표준편차 구하는 식 이용>=stdev
- 평균 구하는 식 이용=average
R실습
회귀분석 수식
out=lm(orings~Temperature,data=orings)
summary(out)
'통계 및 데이터분석' 카테고리의 다른 글
[통계적 연구방법론] 가설검정, T-test 두 집단의 평균 비교 (0) | 2023.06.27 |
---|---|
[통계적 연구방법] 독립성검정(카이스퀘어 테스트) 엑셀과 R실습 (0) | 2023.06.26 |
[통계적 연구방법] 회귀분석(1) : 회귀분석, 최소제곱법 (0) | 2023.06.26 |
[통계적 연구방법] 컨조인트 분석: 엑셀과 R실습 (0) | 2023.06.26 |
[통계적 연구방법] 중심극한 정리: 엑셀로 정규분포 그래프 그리기 (0) | 2023.06.26 |