기술통계
( 알까기2을 참조하였습니다. )
a <- c(1,2,52,52,60,64,76)
b <- c(4,5,60,60,65,69,80)
a
mean(a)
평균의 크게 벗어나는 숫자를 Outlier라고 한다.
이를 찾기 위한 것이 boxplot
범위 : 수치형 연속변수에서 최대값과 최소값의 사이. => Outlier가 있다면 특별한 의미가 없다.
사분위 범위 ( Interquartile Range )
데이터를 25% 50% 75% 100% 구간으로 나눈 수.
quantile(iris$Sepal.Length)
# 0% 25% 50% 75% 100%
# 4.3 5.1 5.8 6.4 7.9
boxplot(iris$Sepal.Length)
|
mean(a) #평균
median(a) #중앙값
range(a) #범위
quantile(a) #사분위
boxplot(a) # boxplot을 보여주는 함수
var(a) #분산
sd(a) #표준편차
scale(a) #표준화
sd(a)/mean(a) #변동계수
cor(a,b) #상관계수
cov(a,b) #공분산
library("data.table")
DF <- fread("example_studentlist.csv",data.table = F)
detach(DF)
attach(DF)
mean(height,na.rm = T)
median(height,na.rm = T)
range(height,na.rm = T)
quantile(height)
IQR(height,na.rm=T) # 사분위에서 Q1 와 Q3의 범위
summary(height,na.rm=T)
# IQR = 3rd.Qu - 1st.Qu
boxplot(height)
cor(height,weight) # 키와 몸무게의 상관관계
cor.test(height,weight)
cor(DF[,c(3,7,8)])
plot(DF[,c(3,7,8)])
# cor 에서 na.rm = T 는 use="complete.obs" 와 동일
DF2 <- DF
DF2[2,7] <- NA
DF2[4,8] <- NA
detach(DF)
attach(DF2)
cor(height,weight,use="complete.obs") #해당 로우 전체 삭제해서 사용.
cor(height,weight,use="pairwise.complete.obs") #해당 벡터만 삭제해서 사용.
cor(height,weight,use="everything") #na.rm=F와 동일
cor(height,weight,use="all.obs") # 결측치가 존재 한다면 계산 안함.
var(height,na.rm=T)
var(height,weight,na.rm=T) #공분산
cov(height,weight,use="complete.obs") #공분산 위 식과 값 동일.
detach(DF2)
attach(DF)
sd(height,na.rm = T) #표준편차.
scale(height) #표준화
cbind(matrix(((height - mean(height)) / sd(height)), ncol = 1 ),scale(height))
a1 <- matrix(((height - mean(height)) / sd(height)), ncol = 1 )
a2 <- scale(height)
setdiff(a1,a2)
'BIGDATA > R' 카테고리의 다른 글
#11. 기초 시각화 [ R 내장 함수 ] (0) | 2016.07.12 |
---|---|
#10 .기술통계 [ 예제 ] (0) | 2016.07.12 |
#08. 특강3 [ 모비율에 대한 검정 ] (0) | 2016.07.04 |
#07. 특강2. [ 평균에 대한 추론 ] (0) | 2016.07.03 |
#06. 특강1. [ 경영통계 데이터 요약 및 정리 ] (0) | 2016.07.03 |