學(xué)習(xí)CGFT課程,首先就是需要考生對CGFT相關(guān)知識點的掌握。今天,融躍小編為廣大考生分享一下什么是流計算和圖計算。
流計算:
流數(shù)據(jù)也是大數(shù)據(jù)分析中的重要數(shù)據(jù)類型,流數(shù)據(jù)(或數(shù)據(jù)流)是指在時間分布和數(shù)量上無限的一系列動態(tài)數(shù)據(jù)集合體,數(shù)據(jù)的價值隨著時間的流逝而降低,因此,必須采用實時計算的方式給出秒級響應(yīng)。
流計算可以實時處理來自不同數(shù)據(jù)源的、連續(xù)到達(dá)的流數(shù)據(jù),經(jīng)過實時分析處理,給出有價值的分析結(jié)果。目前業(yè)內(nèi)已涌現(xiàn)出許多的流計算框架與平臺。
di一類是商業(yè)級的流計算平臺,包括IBM InfoSphereStreams和IBMStreamBase等,第二類是開源流計算框架,包括Twitter Storm、Yahoo! S4 ( Simple Scalable Streaming System )等,第三類是公司為支持自身業(yè)務(wù)開發(fā)的流汁算框架,如Facebook使用Puma和HBase相結(jié)合來處理實時數(shù)據(jù),百度開發(fā)了通用實時流數(shù)據(jù)計算系統(tǒng)DStream,淘寶開發(fā)了通用流數(shù)據(jù)實時計算系統(tǒng)-----銀河流數(shù)據(jù)處理平臺。
圖計算:
在大數(shù)據(jù)時代,許多大數(shù)據(jù)都是以大規(guī)模圖或網(wǎng)絡(luò)的形式呈現(xiàn),如社交網(wǎng)絡(luò)、傳染病傳播途
徑、交通琪故對路網(wǎng)的影響等,此外,許多非圖結(jié)構(gòu)的大數(shù)據(jù),也常常會被轉(zhuǎn)換為圖模型后再進(jìn)行處理分析。
MapReduce作為單輸人、兩階段、粗粒度數(shù)據(jù)并行的分布式計算框架,在表達(dá)多迭代、稀疏結(jié)構(gòu)和細(xì)粒度數(shù)據(jù)時,往往顯得力不從心,不適合用來解決大規(guī)模圖計算問題。因此,針對大型圖的計算,需要采用圖計算模式,目前已經(jīng)出現(xiàn)了不少相關(guān)圖計算產(chǎn)品。
Pregel是一種基丁BSP ( Bulk Synchronous Parallel)模型實現(xiàn)的并行圖處理系統(tǒng)。為了解決大型圖的分布式計算問題,Pregd搭建了一套可擴(kuò)展的、有容錯機(jī)制的平臺,該平臺提供了一套靈活的API,可以描述各種各樣的圖計算。
Pregel主要用于圖遍歷、短路徑、PageRank計算等。其他代表性的圖計算產(chǎn)品還包括Facebook針對Pregel的開源實現(xiàn)Giraph、Spark下的GraphX、圖數(shù)據(jù)處理系統(tǒng)PowerGraph等。