批處理計算是CGFT所包含的內(nèi)容,那么,具體的什么是批處理計算?下文是對它的詳細(xì)介紹,一起隨融躍小編了解一下!
批處理計算主要解決針對大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中常見的一類數(shù)據(jù)處理需求。
MapReduce是具有代表性和影響力的大數(shù)據(jù)批處理技術(shù),可以并行執(zhí)行大規(guī)模數(shù)據(jù)處理任務(wù),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。
MapReduce方便了分布式編程工作,它將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計算過程高度的抽象到了兩個函數(shù)--Map和Reduce,編程人員在不會分布式并行編程的情況下,也可以很容易將自己的程序運(yùn)行在分布式系統(tǒng)上,完成海量數(shù)據(jù)集的計算。Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計算系統(tǒng),比MapReduce快很多。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代式工作負(fù)載。
在MapReduce中,數(shù)據(jù)流從一個穩(wěn)定的來源,進(jìn)行一系列加工處理后,流出到一個穩(wěn)定的文件系統(tǒng)(如HDFS)。而對于spark而言,則使用內(nèi)存替代HDFS或本地磁盤來存儲中間結(jié)果,因此,spark要比MapReduce的速度快許多。
聲明:本文章為學(xué)習(xí)相關(guān)信息展示文章,非課程及服務(wù)廣告文章,產(chǎn)品及服務(wù)詳情可咨詢網(wǎng)站客服微信。
文章轉(zhuǎn)載須注明來源,文章素材來源于網(wǎng)絡(luò),若侵權(quán)請與我們聯(lián)系,我們將及時處理。