키가 크면 신발 사이즈가 클까?
3학년 4반, 7반 학생들의
키, 신발사이즈를 조사하여
각각 두 변량의 순서쌍을 좌표로 하는 점을
좌표평면 위에 나타내어 보았다.
먼저 3학년 4반!
아래는 3학년 7반
위의 방법과 같이
두 변량의 순서쌍을 좌표로 하는 점을
좌표평면 위에 나타낸 그래프를
산점도라고 한다.
두 반의 산점도에서 점들이 어느 정도
흩어져 있기는 하지만
대체로 키가 클 수록
신발 사이즈도 커지는 경향이 있음을 알 수 있다.
이처럼 두 변량 x, y사이에
x값이 증가함에 따라
y의 값이 증가하거나 감소하는 경향이 있을 때,
두 변량 x, y 사이에 상관관계가 있다고 한다.
두 변량 x, y에 대한 산점도에서
x값이 증가함에 따라
y의 값도 대체로 증가하는 경향이 있을 때,
두 변량 x, y사이에 양의 상관관계가 있다고 하며,
이와는 반대로 두 변량 x, y에 대한 산점도에서
x의 값이 증가함에 따라
y의 값이 대체로 감소하는 경향이 있을 때,
두 변량 x, y사이에 음의 상관관계가 있다고 한다.
위의 두 반의 경우
둘 다 양의 상관관계가 있으나
7반에 비해 4반의 산점도의 점들이
한 직선 주위에 더 가까이 몰려 있기 때문에
강한 양의 상관관계라고 할 수 있고
7반의 경우에는 약한 양의 상관관계가 있다.
그런데 3년 전
'머리둘레가 크면 공부를 잘할까'라는
의문을 가지고
학생들의 머리둘레와
중간고사 점수의 평균을 조사하여
산점도를 나타내었을 때
점들의 분포는 아래와 비슷했다.
이런 분포를 보일 때 우리는
두 변량인 성적과 머리둘레는 상관관계가 없다!
라고 분석한다.
이 경우도 마찬가지이다.
머리둘레가 작으나 머리둘레가 크나
성적은 큰 차이가 없다고 분석할 수 있기 때문에
이런 가로로 된 점들의 분포 또한
두 변랑 사이에 상관관계가 없다.
세로로 된 분포의 경우
성적이 낮으나 성적이 높으나
머리둘레의 차이가 크지 않기 때문에
이 경우도
두 변량 사이에 상관관계가 없다.
초, 중 과정에서 다양한 그래프들을 배웠다.
막대그래프, 꺾은선 그래프, 원그래프,
히스토그램, 도수분포다각형 등...
그런데 지금까지 배운 이런 그래프들은
하나의 변량에 대한 분포를
시각적으로 표현하는 방법이었다.
산점도는 두 변수의 관계를
시각적으로 검토할 때 유용하며,
변수들 사이의 관계를 왜곡시키는 특이점(outlier)을
확인하는 경우에도 유용하게 쓰인다.