4個回答
-
Sparkr 是 AmpLab 發布的 R 開發包,為 Apache Spark 提供輕量級前端。 SparkR 為 Spark 中的彈性分布式資料集 (RDD) 提供 API,允許使用者通過 R shell 在群集上執行作業。 例如,我們可以在 HDFS 上讀取或寫入檔案,或者我們可以使用 LAPPLY 來定義每個 RDD 元素的操作。
sc
使用者定義函式中引用的變數會自動傳送到集群中的其他計算機。 請參閱以下示例,使用者閉包中引用的初始權重會自動傳送到集群中的其他計算機。 lines<-textfile(sc,“hdfs:
initialweights<-runif(n=d,min=-1,max=1) creatematrix<-function(line) initialweightsisautomaticallyserialized matrixrdd<-lapply(lines,creatematrix) 使用者還可以在已安裝 R 開發工具包的群集上輕鬆使用該命令 命令用於指示在每個群集上執行檔案之前讀取操作金鑰。 下面是乙個示例:generatesparse<-function(x) includepackage(sc,matrix) sparsemat<-lapplypartition(rdd,generatesparse)。
-
我寧願相信奇蹟的喜悅。
-
你好朋友,你不需要假裝。 【如果車子有問題,請問車師傅。 4S店專業技師,10分鐘即可解決。 】
-
是的,Hadoop2 的 yarn 機制用於支援 MR 以外的計算模型。
相關回答