編集(管理者用) | 編集 | 差分 | 新規作成 | 一覧 | RSS | FrontPage | 検索 | 更新履歴

DataScientist -

目次

20170510(第1回)

講義

RMSE
(Root Mean Squared Error)、数値予測問題における精度評価指標の1つ. 予測値が正解からどの程度乖離しているかを示す
AUC
(Area Under the Curve)ROC曲線を作成した時に、グラフの曲線より下の部分の面積をAUC(Area Under the Curve)と言う。AUCは0から1までの値をとり、値が1に近いほど判別能が高いことを示す。判別能がランダムであるとき、AUC = 0.5となる。

課題

nrow(train)

str(train)

anyNA(train)

 tmp1<-train %>%

   dplyr::filter(balance > 10000)
   100*nrow(tmp1)/nrow(train)

 tmp2<-train %>%

   dplyr::filter(contact == "cellular")

 100*nrow(tmp2)/nrow(train)

 tmp3<-train %>%

   dplyr::filter(contact == "cellular" | balance > 10000)

 100*mean(tmp3$y)

 tmp4<-train %>%

   dplyr::filter(contact == "cellular" | balance > 10000) %>%
   dplyr::mutate(result=factor(ifelse(y==1, "Contract", "NO Contract"))) %>%
   dplyr::select(result) %>%

  plot()

R

 install.packages(c("data.table", "rmarkdown", "dplyr", "ggplot2", "DescTools", "randomForest", "glmnet", "xgboost", "Shiny", "pROC", "caret"))
 install.packages(c("htmltools", "jsonlite", "stringi", "survival"))
 
 library(pROC)
 data<-read.csv('C:\\study\\Model1_data.csv', hader=FALSE")
 temp1<-data.frame(x=1:100, y=201:300, z=101:200)
 print(temp1)
 sub1<-subset(temp1, x > 40)
 sub2<-temp1 %>% subset(x>40)
 sub2<-temp1 %>% subset(x>40)
 library(dplyr)
 sub2<-temp1 %>% subset(x>40)
 sub3<-temp1 %>%
 subset(x>40)
 sub4<-temp1 %>%
 dplyr::filter(x>40)
 sub<-subset(temp1, x>50)
 y_mean<-mean(sub[,"y"])
 z_median<-median(sub[,"z"])
 dat1<-data.frame(y_mean=y_mean, z_median=z_median)
 statistics<-temp1 %>%
 dplyr::filter(x>50) %>%
 dplyr::summarise(y_mean=mean(y), z_median=median(z))
 train<-read.csv("C:/study/bank/motodata/train.csv")
 head(train, n=10)
 summary(train)
 str(train)
 str(summary)
 str(head)
 hist(train)
 hist(train$age)
 hist(train$age)
 table(train$job, train$y)
 age_c<-cut(train$age, breaks=c(0,20,30,40,50,60,100))
 print(head(age_c, n=10))
 head(train, n=10)
 nrow(train)
 summary(train)
 
 savehistory("hist.Rhistory")

資料

受講者用資料_20170510

Rの初歩 https://oku.edu.mie-u.ac.jp/~okumura/stat/first.html

銀行の顧客ターゲティング【練習問題】 https://deepanalytics.jp/compe/1?tab=forum

Rによるヒストグラムの描き方 http://bio-info.biz/tips/r_histogram.html

R-Source 21. 行列の操作 http://cse.naro.affrc.go.jp/takezawa/r-tips/r/21.html

欠損値 | Rの非数値の取り扱い方,NULL,NA,NaN,Infの除外と置換 https://stat.biopapyrus.net/vector/nan.html

第4章 関数 http://www.cis.doshisha.ac.jp/mjin/R/toukeiryou.html

20170517(第2回)

講義

課題

資料

[[R言語で行列を結合する:rbindとcbind - jnobuyukiのブログ>http://webbeginner.hatenablog.com/entry/2015/02/06/132256]]