批處理計算是CGFT所包含的內(nèi)容,那么,具體的什么是批處理計算?下文是對它的詳細(xì)介紹,一起隨融躍小編了解一下!

批處理計算主要解決針對大規(guī)模數(shù)據(jù)的批量處理,也是我們?nèi)粘?shù)據(jù)分析工作中常見的一類數(shù)據(jù)處理需求。

MapReduce是具有代表性和影響力的大數(shù)據(jù)批處理技術(shù),可以并行執(zhí)行大規(guī)模數(shù)據(jù)處理任務(wù),用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算。

特許全球金融科技師CGFT一級

MapReduce方便了分布式編程工作,它將復(fù)雜的、運(yùn)行于大規(guī)模集群上的并行計算過程高度的抽象到了兩個函數(shù)--Map和Reduce,編程人員在不會分布式并行編程的情況下,也可以很容易將自己的程序運(yùn)行在分布式系統(tǒng)上,完成海量數(shù)據(jù)集的計算。

Spark是一個針對超大數(shù)據(jù)集合的低延遲的集群分布式計算系統(tǒng),比MapReduce快很多。Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,還可以優(yōu)化迭代式工作負(fù)載。

在MapReduce中,數(shù)據(jù)流從一個穩(wěn)定的來源,進(jìn)行一系列加工處理后,流出到一個穩(wěn)定的文件系統(tǒng)(如HDFS)。而對于spark而言,則使用內(nèi)存替代HDFS或本地磁盤來存儲中間結(jié)果,因此,spark要比MapReduce的速度快許多。