상관관계 분석: 엑셀, R 이용하여 상관계수 구하기
연구에서 문제를 풀기위한 데이터 수집했을 때 기술통계법을 통해 위치정보, 변동성 정보를 바탕으로 표를 만들어 설명한 후 주요 변수간 상관관계를 나타내는 것은 실증연구에 반드시 필요한 과정이다.
1. 상관관계
일정하게 계산된 값인 두 변수간의 직선에 대한 관계를 나타낸다. 서로 얼마나 관련되어 있는지를 나타내며 서로 관련성이 있다고 추측되는 관계를 한다. 공분산으로 상관관계를 나타낼 수 있으며 양의 상관관계, 음의 상관관계, 상관관계가 없는 경우 크게 세가지로 나누어볼 수 있다. x,y의 상관관계를 나타내는 그래프를 간단하게 보면 아래 그림과 같다. 양의 상관관계의 경우 한 값이 증가할 때 다른 한 값도 증가하거나 감소할 때 똑같이 감소하는 경우를 말한다. 음의 상관관계의 경우 한값이 증가할 때 다른 한 값은 반대로 감소하는 경우를 말한다.
1.1) 공분산
두 변수간의 관계를 표현하며, 평균에서 벗어난 차이의 곱을 말한다.
두 변수간 선형의 친밀한 척도를 말하며 직선의 관계일 때 친밀하다.
- (+) 양의 상관관계: 두 편차의 값이 양의 값일 경우 (x가 높아질 때 y도 높아질 때, x가 낮아질 때 y도 낮아질 때)
- (-)음의 상관관계: 두 편차의 값이 음의 값일 경우
- (0) 상관관계가 없는 경우
1.2) 상관계수
친밀함의 정도 즉 상관관계가 어느정도 있는지 알 수 있으며 공분산을 두 변수의 표준편차 곱으로 나눈 값을 말한다.
상관계수는 -1에서 1까지 움직인다. -0.3~0.3일경우 두 변수간 상관관계가 적거나 없다는 것을 의미하며, 절대값이 0.3보다 클 경우 상관관계가 있다는 것을 의미한다. 상관관계가 1일 경우는 자신이 자신과 같을 경우를 의미한다. -1일 경우 값은 같으며 부호만 반대일 경우를 의미한다.
2. 실습: 상관계수 구하기
Excel 실습
데이터 분석 선택 후 상관 분석 누른다. 엑셀 프로그램에서 데이터 분석 버튼이 나오지 않을 경우 엑셀 옵션에 들어가 추가 기능에서 통계 분석 기능을 추가하면 오른쪽 위 데이터 분석 버튼이 생긴다. 입력범위에 상관계수를 구하려고 하는 데이터 드래그 후 출력범위에 데이터를 출력할 셀을 선택한다. 선택 시 첫째 행을 이름표로 사용할 것인지 확인한 후 체크 버튼을 누른다.
R실습
R을 실행하여 파일을 불러온 후 두 변수를 입력하여 cor을 통해 두 변수의 상관계수를 구할 수 있으며 plot을 이용해 두 변수의 산포도를 그릴 수 있다. 산포도란 두 변수에 대응하는 관측값을 점들로 표현한 그림을 말하며 점들의 분포도를 통해 상관관계를 확인할 수 있다.
price=read.csv("C:/data/price.csv"): 파일을 읽고 price라고 명한다.
attach(price): 데이터셋 지정없이 바로 사용할 수 있도록 한다.
cor(clothes, shoes): 두 변수 상관계수 구한다.
plot(clothes~shoes): 두 변수의 산포도 그린다.
'통계 및 데이터분석' 카테고리의 다른 글
[통계적 연구방법] 컨조인트 분석: 엑셀과 R실습 (0) | 2023.06.26 |
---|---|
[통계적 연구방법] 중심극한 정리: 엑셀로 정규분포 그래프 그리기 (0) | 2023.06.26 |
기계학습이란? 지도학습, 비지도학습, 강화학습, SPSS Modeler (0) | 2023.06.25 |
데이터 분석 유형(descriptive, predictive) (0) | 2023.06.25 |
분산 데이터 처리 프레임워크 Hadoop (0) | 2023.06.25 |