Machine Learning의 종류 지도 학습(Supervised Learning): X와 Y의 관계를 학습시켜 X로 Y를 예측하게 하려는 경우 회귀(Regression): 연속적인 값(예: 가격)을 예측 분류(Classification): 이산적인 값(예: 성별)을 예측 비지도 학습(Unsupervised Learning): 데이터의 패턴을 나타내는 새로운 변수를 만드는 경우 군집(Clustering): 데이터를 비슷한 것끼리 무리(군집)으로 나눔 차원 축소(Dimensionality Reduction): 데이터를 적은 수의 변수로 나타냄 강화학습(Reinforcement Learning): 보상과 처벌이 존재하는 상황에서 최적의 정책을 찾으려는 경우 데이터 전처리caret Classification..
BIGDATA/R
데이터 시각화를 통한 탐색적 데이터 분석탐색적 데이터 분석이란? 데이터에 대한 질문을 찾는다. 데이터에 대한 시각화, 변환, 모델링으로 답을 찾는다. 답을 통해 질문을 심화하고 새로운 질문을 찾는다. ggplot2R에서 가장 널리 쓰이는 시각화 패키지 library(ggplot2) 기본 데이터 ( Diamonds ) data(diamonds) head(diamonds) caratcutcolorclaritydepthtablepricexyz 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31 0.29 Premium I VS2..
R_proramming_for_basic R Programming install & basic¶ R Install Basic R Programming Basic Data handling for datamining with R R & R-Studio install¶ R-Cran (R) : https://cran.r-project.org/mirrors.html R-studio (RStudio) : https://www.rstudio.com/products/rstudio/download/ Start R-studio 설치한 R-studio를 통해 수행해도 되고 Jupyter notebook에 R-Kernel을 만들어서 사용해도 무관하다. 1. Basic Calculation¶ In [1]: 3 + 4 7 In ..
고급 시각화 [ 내용은 알까기2를 참조 하였습니다.] # 고급 시각화 # ggplot2 install.packages(c("ggplot2","ggthemes"))library("ggplot2")library("ggthemes") str(diamonds)# Classes ‘tbl_df’, ‘tbl’ and 'data.frame':53940 obs. of 10 variables:# $ carat : num 0.23 0.21 0.23 0.29 0.31 0.24 0.24 0.26 0.22 0.23 ...# $ cut : Ord.factor w/ 5 levels "Fair"
기초 시각화 [ R 내장 함수 ][ 해당 자료는 알까기2를 참조하였습니다. ] # 빠른 탐색적 자료분석을 위한 그래프 (R 기본 그래프)# plot, barplot, hist, boxplot DF
기술통계( 알까기2을 참조하였습니다. ) a 표준편차 / 표본의 평균 변동계수가 높을 수록 많이 퍼져있는 것.공분산 Cov(x,y) : 다변량의 분산, 즉, 하나 이상의 변수의 분산을 공분산이라 한다. 두 변수의 상관관계를 나타내는 수학식이 있는데 이러한 상관계수가 -1 ~ 1까지의 값을 가진다. 0에 가까울수로 관계가 없고 -1 혹은 1에 가까울수록 두변수의 관계가 긴밀하다 할 수 있다. 표본상관 : r 감마 모집단상관계수 : p(로우) mean(a) #평균median(a) #중앙값range(a) #범위quantile(a) #사분위boxplot(a) # boxplot을 보여주는 함수var(a) #분산sd(a) #표준편차scale(a) #표준화sd(a)/mean(a) #변동계수cor(a,b) #상관계수c..
Chapter 3. 모비율에 대한 추론 ############ 모비율에 대한 검정 ############# 한집단의 비율 # 국립 안전심의회(NSC)는 크리스마스와 연초 기간에# 교통사고로 500명이 사망하고 25,000명이 부상을 입는다고# 추정 하였다. NSC는 사고의 50%가 음주 운전으로 발생한다고# 주장 하였다.# 120건의 교통사고를 표본으로 조사한 결과 67건이# 음주운전으로 일어난 사고였다.# • 이 자료를 바탕으로 음주운전으로 일어난 사고의 비율에# 대한 95% 신뢰구간을 구하시오.# • 유의수준 𝛼 = .05에서 NSC의 주장을 검정하시오. # 50% 비율이 정확히 맞는지 모르겠다. rm(list=ls())prop.test(67,120) # probability 0.5 # p-value..
Chapter 2. 평균에 대한 추론 # 평균에 대한 추론# 추정 : 표본을 통해 모집단 특성을 추측# 가설검정 : 모집단 실제 값이 얼마나 되는가 하는 주장과 관련해서# 표본이 가지고 있는 정보를 이용해서 가설이 올바른지 판점. # 모집단 평균의 구간 추정# 신뢰구간 rm(list=ls()) library(reshape)tips 암이 걸리지 않았는데 걸렸다고 판정.# 제 2종 : 거짓인 가설을 기각 안함. => 암이 걸렸는데 안걸렸다고 판정. # 문제에 따라서 a를 조정할 필요가 있다. # 유의수준(𝛼) 조정t.test(OneSample,mu=8.1,conf.level = 0.99) # 15세 이상 관람가 영화의 평균 관객수를 95% 신뢰구간을 통해 추정# 15세 이상 관람가 영화의 평균을 1,500,..