更新時(shí)間:2020-04-24 來(lái)源:黑馬程序員 瀏覽量:
Spark計(jì)算框架在處理數(shù)據(jù)時(shí),所有的中間數(shù)據(jù)都保存在內(nèi)存中。正是由于Spark充分利用內(nèi)存對(duì)數(shù)據(jù)進(jìn)行計(jì)算,從而減少磁盤讀寫(xiě)操作,提高了框架計(jì)算效率。同時(shí)Spark還兼容HDFS、Hive,可以很好地與Hadoop系統(tǒng)融合,從而彌補(bǔ)MapReduce高延遲的性能缺點(diǎn)。所以說(shuō),Spark是一個(gè)更加快速、高效的大數(shù)據(jù)計(jì)算平臺(tái)。推薦了解黑馬程序員大數(shù)據(jù)培訓(xùn)課程。
Spark具有以下幾個(gè)顯著的特點(diǎn):
1、速度快
小生根據(jù)官方數(shù)據(jù)統(tǒng)計(jì),與Hadoop相比,Spark基于內(nèi)存的運(yùn)算效率要快100倍以上,基于硬盤的運(yùn)算效率也要快10倍以上。Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎,能夠通過(guò)內(nèi)存計(jì)算高效地處理數(shù)據(jù)流。
2、易用性
Spark編程支持Java、Python、Scala及R語(yǔ)言,并且還擁有超過(guò)80種高級(jí)算法,除此之外,Spark還支持交互式的Shell操作,開(kāi)發(fā)人員可以方便地在Shell客戶端中使用Spark集群解決問(wèn)題。
3、通用性
Spark提供了統(tǒng)一的解決方案,適用于批處理、交互式查詢(SparkSQL)、實(shí)時(shí)流處理(SparkStreaming)、機(jī)器學(xué)習(xí)(SparkMLlib)和圖計(jì)算(GraphX),它們可以在同一個(gè)應(yīng)用程序中無(wú)縫地結(jié)合使用,大大減少大數(shù)據(jù)開(kāi)發(fā)和維護(hù)的人力成本和部署平臺(tái)的物力成本。
4、兼容性
Spark開(kāi)發(fā)容pSpark可以運(yùn)行在Hadoop模式、Mesos模式、Standalone獨(dú)立模式或Cloud中,并且還可以訪問(wèn)各種數(shù)據(jù)源,包括本地文件系統(tǒng)、HDFS、Cassandra、HBase和Hive等。
猜你喜歡
Spark發(fā)展史:讓你了解是什么Spark?
2020-04-23機(jī)器學(xué)習(xí)可以應(yīng)用于哪些領(lǐng)域?【大數(shù)據(jù)培訓(xùn)】
2020-04-23什么是機(jī)器學(xué)習(xí)?【大數(shù)據(jù)培訓(xùn)】
2020-04-23大數(shù)據(jù)培訓(xùn)之?dāng)?shù)據(jù)可視化教程
2020-03-22大數(shù)據(jù)工程師培訓(xùn)課程有哪些內(nèi)容?[黑馬程序員]
2019-12-18什么是數(shù)據(jù)挖掘?數(shù)據(jù)挖掘前景怎么樣?
2019-12-11