본문 바로가기
수학 이야기/중3수학

[통계]산포도(분산, 표준편차, 평균편차) 개념설명

by 친절한 강선생 2022. 10. 13.

A 양궁 선수, B 양궁 선수 중

누구를 국가대표로 뽑아야 할까?






우선 두 선수 점수의 평균으로
배교해보자.
A 선수의 평균은 8점
B 선수의 평균도 8점...
평균으로는 비교불가!!


다른 기준으로 비교해야 한다.

우선 두 선수의 자료를
막대그래프로 나타냈다.

평균 8점을 빨간색으로 그어 보았을 때,
A선수의 기록은 평균 근처에 많이 모여있지만
B선수의 기록은 평균에서 멀리 떨어져 있다.

꺾은선그래프로 그려서 살펴봤을 때는
A선수는 변량이 흩어져 있는 폭이 작지만
B선수는 들쭉날쭉 변량이 흩어져 있는 폭이
매우 크다.

이렇게 12개의 자료라면
눈으로 비교 가능하지만
자료가 수백 개라면..... 어떤 자료가
흩어져 있는 정도가 큰지 눈으로
한 번에 비교할 수 없을 것이다.

그렇다면 이런 차이를 하나의 수로 표현할 수 없을까?


있다!!



이전 시간 변량과 평균의 차이를 편차라고 했다.
각 변량에 대한 편차를 구해보았다.


이 편차들을 가지고
자료의 변량이 흩어져 있는 정도
하나의 수로 나타낼 수 있는 방법을 찾아보자.



변량이 흩어져 있는 정도를 하나의 수로
나타낸 값을 '산포도'라고 한다.


그럼 산포도로 사용할 수 있는 방법을
생각해보자.



편차의 평균을 구해서 비교해볼까?
A선수 편차의 평균 = (+1-1+0+0+0+1+0-1+0+1-1+0)/12 = 0
B선수 편차의 평균 = (0+2+1-3-1+0+1+2-2+2-2+0)/12 =0
편차의 합이 항상 0이기 때문에
편차의 평균도 항상 0이라서 이건 의미 없다.


그럼 편차에서 음수 값을 양수로 바꿔서
평균을 구하면 되지 않을까?

해보자!!!


첫 번째, 음수를 양수로 바꿀 수 있는 방법은
절댓값을 씌우는 것이다.

A선수 : (1+1+0+0+0+1+0+1+0+1+1+0)/12 = 6/12=0.2
B선수 : (0+2+1+3+1+0+1+2+2+2+2+0)/12 = 16/12 = 1.33333...
오~값을 비교할 수 있다.

B선수의 편차의 절댓값의 평균이 훨씬 커서
B의 자료가 평균으로부터
더 많이 떨어져 있다는 것을
수로 비교할 수 있다.


따라서 저 값으로 비교했을 때
A선수가 기록 편차, 산포도가 작기 때문에
우리는 A선수를 선택하면 될 것이다.


특히 위의 방법과 같이
편차에 절댓값을 씌워 평균을 구한 값
'평균 절대 편차' , 간단히 '평균 편차'라고 하며
산포도 사용할 수 있다.


그런데 실제로 대푯값으로
평균을 가장 많이 사용하는데
'평균 절대 편차'는
중앙값을 기준으로 흩어진 정도를
정의할 수 있는 개념이기 때문에
많이 사용하지는 않는다.




두 번째, 음수를 양수로 바꿀 수 있는 방법은
편차를 제곱하는 것이다.


A선수 : (1+1+0+0+0+1+0+1+0+1+1+0)/12 = 6/12=0.2
B선수 : (0+4+1+9+1+0+1+4+4+4+4+0)/12 = 32/12 = 2.66666....
자료의 흩어진 정도가 큰 B선수의 값이
역시나 A선수의 값보다 크게 나왔기 때문에

자료의 편차를 제곱하여 평균을 내는 것도
산포도(자료의 흩어진 정도)로 사용할 수 있다는 것을
알 수 있고
'자료의 편차의 제곱의 평균' 분산이라고 한다.




그런데... 분산에는 문제점이 있다.
편차를 제곱하면서
자료의 단위가 제곱이 되어버렸다.

따라서 분산 값에 루트(root)를 씌워서
(분산의 음이 아닌 제곱근)
사용하는데
이 값을 우리는 '표준편차'라고 하겠다.


산포도의 하나인 표준편차는
자료가 평균을 중심으로 얼마나 퍼져 있는지를
나타내는 대표적인 수치이다.
그리고 표준편차의 단위는
자료의 단위와 일치한다.


표준편차가 0에 가까우면
자료의 값들이 평균 근처에
집중되어 있다는 것을 의미하며

표준편차가 클수록
자료의 값들이 평균에서
멀리 퍼져 있다는 것을 의미한다.

 

 

 

표준편차가 0이 될 수 있을까?
거꾸로 생각해보자.

표준편차가 0이라는 것은

분산이 0이라는 것!

분산이 0이라는 것은

변량의 편차의 제곱의 합이 0!

제곱한 값이 0이 되려면

모든 편차가 0!

 

그 말은~~

변량이 전부 같은 값이면

표준편차가 0이 된다.

 

 

예를 들면

변량이 모두 2인경우

2   2   2   2  2

평균도 2, 각가의 편차가 0  0  0  0  0

편차의 제곱의 합은 0

즉, 분산이 0이므로 표준편차도 0이다.




지난 시간 대푯값에 이어
자료를 비교하고 분석할 수 있는 방법인
산포도를 구하는 것을 배워보았다.

산포도로 가장 많이 쓰이는 것이
표준편차라는 것!
기억해두자^^!