데이터의 통계적 기술
- 중심성향의 측도
데이터의 대적인 값을 나타내는 수치.
ex) 산술평균, 가중평균, 중앙값, 최빈값 등이 있다. - 산포의 측도
데이터가 퍼져있는 정도를 나타내는 수치.
ex) 범위, 분위수, 평균절대편차(MAD), 분산과 표준편차 등이 있다. - 모집단의 특성 => 모수, 파라미터
표본의 특성 => 통계량 - 산술평균
데이터의 합을 데이터의 수로 나누는 것. ∑ Xi ÷ N
- 모집단의 평균 : µ (뮤) , 표본의 평균 : X bar ( X 바 ) - 가중평균 어떤 값이 다른 값보다 중요할때 각 수치에 따른 가중치를 다르게 두어 평균을 구하는 방법.
X w = ∑(wi * Xi) / ∑wi * wi : 가중치 - 중앙값
값과 상관없이 데이터 개수가 같아지게 되는 값 ( 양분 하는 곳에 있는 데이터 값 ) - 최빈값
데이터 중 가장 많은 빈도로 나오는 것. 두개의 최빈값이 있을 경우는 이봉분포라 한다.
※ 평균은 극단적인 데이터까지도 동긍하게 취급한다.
중앙값은 가운데 데이터에 초점을 맞춘다. 즉, 평균은 극단적인 값에 영향을 많이 받는다.
평균과 중앙값은 하나만 가지지만 최빈값은 아니다.
대체로 평균과 중앙값이 최빈값보다 중심경향을 나타내는 측도로서 더 쓸모가 있다. - 분포의 모양과 중심성향의 측도
- 산포의 측도
- 범위 : Max - Min
- 범위의 중앙 : Max + Min / 2
=> 극단적인 데이터를 사용하는 단점이 있다. - 분위수
같은 크기의 집단으로 데이터 값의 크기에 따라 데이터 구분.
Ex) 사분위수 : 같은 크기 데이터로 4부분을 만든다. 각 25%. 즉, 25% 50% 75%으로 4부분을 나눈다.
Q1 = ( N + 1 ) / 4 Q2 = 2 * ( N + 1 ) / 4 Q3 = 3 * ( N + 1 ) / 4
사분위의 범위 : Q3 - Q1
사분위의 편차 ( Q3 - Q1 ) / 2 - 평균절대편차 ( MAD )
데이터가 평균으로부터 얼마나 떨어져있나?
※평균절대편차와 표준편차의 차이
1) 평균절대편차 ( ∑ | Xi - μ | / N )
실질적으로 평균으로부터 평균적으로 얼마나 떨어져있나?
2) 표준편차
평균으로부터 일정거리 내 있는 비율을 구할때 사용.
∴ 다르게 사용 이유 ? 수식계산에 있어 절대값은 용이하지 않는다. 단절되는 부분이 생긴다.
그래서 제곱의 루트를 사용한다.
※ 분산을 사용하지 않고 표준편차를 사용하는 이유는?
음수와 절대값을 없애기 위해 제곱을 하였지만 평균과 비교하기에는 단위가 맞지 않아 루트를 하게 된다.
그것이 표준편차이다. - 분산과 표준편차
- 분산 : 데이터가 평균으로 부터 분산되어 있는 정도를 나타낸다. 산포도의 측도 ( σ ^ 2 )
N 개의 데이터의 값과 평균 (μ) 의 차이를 제곱해서 합한 값의 평균. - 모집단의 분산
σ ^ 2 = ∑ ( Xi - μ ) / N - 표본의 분산
S ^ 2 = ∑ ( Xi - X bar ) / N - 1 - 잔차 : 편균과 데이터 값의 차이
- 표준편차 : 분산의 양의 제곱근
평균으로부터 양쪽으로 일정한 거리 안에 있는 데이터의 비율이 얼마인가를 계산할 때 사용. 모집단
표본
표준편차
σ = sqrt( σ ^ 2 )
s = sqrt( s ^ 2 )
※ 모든 데이터가 동일하지 않다면 분산, 표준편차는 0이 될 수 없다. 동일한 값을 더하고 빼주어도 분산, 표준편차는 변함이 없다.- 상자 그림
중심성향과 산포도 측도를 동시에 나타내는 시각적 표현. - 사분위 수 : Q1 ~ Q3 ( 25 ~ 75% ) 상자의 폭은 사분위 범위.
- 중앙값 ( Median ) Q2 2 ( n + 1 ) / 4
- 극단값 : 특이점으로 간주되는 값들 ( Outlier )
- Q1 ~ Q2 > Q2 ~ Q3 인 이유는 음의 기운분포 형태의 그래프이기 때문이다.
( 같은 크기의 분포인데 너비가 좁다. => 좁은 범위에 많은 수가 있다. ) - 체비셰포정리 : 일정한 수의 표준편차 구간에 있는 데이터의 퍼센트
평균으로부터 k 표준편차 이내에 있는 데이터 %
=> 최소한 ( 1 - ( 1 / K ^ 2 ) ) ^ 2 x 100 - 경험적 법칙 ( 평균으로 부터 )
- 1 표준 편차 이내 약 68%
- 2 표준 편차 이내 약 95%
- 3 표준 편차 이내 거의 모든 수가 있다. 즉, 그 범위를 넘어가는 수가 나올 확률은 0
- 데이터의 표준화
데이터를 표준편차의 개수로 표현된 평균으로부터의 거리
표준화는 다른 단위로 표현 된 서로 다른 값을 비교할 수 있다.
평균 : 0 표준편차 : 1 인 그래프가 그려진다.
- 변동계수
표준편차를 평균의 퍼센트로 표시 즉, ∠ U = σ / μ x 100=> 비율을 비교할 수 있는 것이다.
같은 sd라도 mean에 따라 크기의 비율이 다를 수 도있다.
즉, mean 10 sd 1 mean 100 sd 1 두개의 산포 정도는 다르다 라는 것.