본문 바로가기
카테고리 없음

[통계]산점도와 상관관계

by 친절한 강선생 2022. 11. 4.
728x90


키가 크면 신발 사이즈가 클까?


3학년 4반, 7반 학생들의
키, 신발사이즈를 조사하여
각각 두 변량의 순서쌍을 좌표로 하는 점을
좌표평면 위에 나타내어 보았다.

먼저 3학년 4반!




아래는 3학년 7반

 

 

위의 방법과 같이 

두 변량의 순서쌍을 좌표로 하는 점을

좌표평면 위에 나타낸 그래프를

산점도라고 한다. 

 

 

두 반의 산점도에서 점들이 어느 정도

흩어져 있기는 하지만

대체로 키가 클 수록

신발 사이즈도 커지는 경향이 있음을 알 수 있다.

 

 

이처럼 두 변량 x, y사이에 

x값이 증가함에 따라 

y의 값이 증가하거나 감소하는 경향이 있을 때,

두 변량 x, y 사이에 상관관계가 있다고 한다.

 

 

두 변량 x, y에 대한 산점도에서 

x값이 증가함에 따라 

y의 값도 대체로 증가하는 경향이 있을 때,

두 변량 x, y사이에 양의 상관관계가 있다고 하며,

 

 

이와는 반대로 두 변량 x, y에 대한 산점도에서

x의 값이 증가함에 따라 

y의 값이 대체로 감소하는 경향이 있을 때,

두 변량 x, y사이에 음의 상관관계가 있다고 한다.

 

 

 

위의 두 반의 경우

둘 다 양의 상관관계가 있으나

 

7반에 비해 4반의 산점도의 점들이

한 직선 주위에 더 가까이 몰려 있기 때문에

강한 양의 상관관계라고 할 수 있고

7반의 경우에는 약한 양의 상관관계가 있다.

 

 

 

 

그런데 3년 전 

'머리둘레가 크면 공부를 잘할까'라는 

의문을 가지고

학생들의 머리둘레와 

중간고사 점수의 평균을 조사하여

산점도를 나타내었을 때

점들의 분포는 아래와 비슷했다.

 

이런 분포를 보일 때 우리는

 두 변량인 성적과 머리둘레는 상관관계가 없다!

라고 분석한다.

 

 

 

이 경우도 마찬가지이다.

머리둘레가 작으나 머리둘레가 크나

성적은 큰 차이가 없다고 분석할 수 있기 때문에

이런 가로로 된 점들의 분포 또한

두 변랑 사이에 상관관계가 없다.

 

 

 

세로로 된 분포의 경우

성적이 낮으나 성적이 높으나

머리둘레의 차이가 크지 않기 때문에

이 경우도 

두 변량 사이에 상관관계가 없다.

 

 

 

초, 중 과정에서 다양한 그래프들을 배웠다.

막대그래프, 꺾은선 그래프, 원그래프,

 히스토그램, 도수분포다각형 등...

 

그런데 지금까지 배운 이런 그래프들은

하나의 변량에 대한 분포를 

시각적으로 표현하는 방법이었다.

 

 

산점도두 변수의 관계

시각적으로 검토할 때 유용하며,

변수들 사이의 관계를 왜곡시키는 특이점(outlier)을

확인하는 경우에도 유용하게 쓰인다.

 

 

 

 

728x90