Machine Learning의 종류
- 지도 학습(Supervised Learning): X와 Y의 관계를 학습시켜 X로 Y를 예측하게 하려는 경우
- 회귀(Regression): 연속적인 값(예: 가격)을 예측
- 분류(Classification): 이산적인 값(예: 성별)을 예측
- 비지도 학습(Unsupervised Learning): 데이터의 패턴을 나타내는 새로운 변수를 만드는 경우
- 군집(Clustering): 데이터를 비슷한 것끼리 무리(군집)으로 나눔
- 차원 축소(Dimensionality Reduction): 데이터를 적은 수의 변수로 나타냄
- 강화학습(Reinforcement Learning): 보상과 처벌이 존재하는 상황에서 최적의 정책을 찾으려는 경우
데이터 전처리
caret
- Classification And REgression Testing
- R에서 분류와 회귀를 위한 패키지
#install.packages('caret')
library(caret)
car = read.csv("../0909/automobile.csv")
head(car)
dummies = dummyVars(city_mpg ~ wheels, car)
head(predict(dummies, newdata = car))
nearZeroVar(car)
names(car)[9]
car$engine_location
names(car)
sapply(car, is.numeric)
names(car)[sapply(car, is.numeric)]
cont.vars <- names(car)[sapply(car, is.numeric)]
head(car[cont.vars])
cor(car[cont.vars])
findCorrelation(cor(car[cont.vars]), cutoff = .9)
cont.vars[15]
cs.pre = preProcess(car, method = c('center','scale'))
cs.pre
head(predict(cs.pre, car))
tr.pre = preProcess(car, method = 'YeoJohnson')
tr.pre
head(predict(tr.pre, car))
set.seed(1234) # 결과를 동일하게 보여주기 위한 용도, 실무에는 불필요하다
idx <- createDataPartition(car$price, p=.8, list=F, times =1)
as.vector(idx)
train.data <- car[idx,]
test.data <- car[-idx,]
dim(train.data)
dim(test.data)
head(test.data)
'BIGDATA > R' 카테고리의 다른 글
[DataMining] 2. 시각화를 통한 탐색적 데이터 분석(EDA) (0) | 2017.09.16 |
---|---|
[DataMining] 1. R Basic Programming (0) | 2017.09.09 |
#12. 고급 시각화 (0) | 2016.07.13 |
#11. 기초 시각화 [ R 내장 함수 ] (0) | 2016.07.12 |
#10 .기술통계 [ 예제 ] (0) | 2016.07.12 |