什么是數(shù)據(jù)存放?在學(xué)習(xí)知識(shí)的過程中基礎(chǔ)知識(shí)很重要,今天小編給你說說CGFT考試中考的內(nèi)容!

為了提高數(shù)據(jù)的可靠性與系統(tǒng)的可用性,以及充分利用網(wǎng)絡(luò)帶寬,HDFS采用了以機(jī)架(Rack)為基礎(chǔ)的數(shù)據(jù)存放策略。

一個(gè)HDFS集群通常包含多個(gè)機(jī)架,不同機(jī)架之間的數(shù)據(jù)通訊需要經(jīng)過交換機(jī)或者路由器,同一個(gè)機(jī)架中不同機(jī)器之間的通訊則不需要經(jīng)過交換機(jī)和路由器,這意味著同一個(gè)機(jī)架中不同機(jī)器之間的通訊要比不同機(jī)架之間機(jī)器的通訊帶寬大。


HDFS默認(rèn)每個(gè)數(shù)據(jù)節(jié)點(diǎn)都是在不同的機(jī)架上,這種方法會(huì)存在一個(gè)缺點(diǎn),那就是寫入數(shù)據(jù)的時(shí)候不能充分利用同一機(jī)架內(nèi)部機(jī)器之間的帶寬。

但是,與這點(diǎn)缺點(diǎn)相比,這種方法也帶來了更多很顯著的優(yōu)點(diǎn):首先,可以獲得很高的數(shù)據(jù)可靠性,即使一個(gè)機(jī)架發(fā)生故障,位于其他機(jī)架上的數(shù)據(jù)副本仍然是可用的;其次,在讀取數(shù)據(jù)的時(shí)候,可以在多個(gè)機(jī)架并行讀取數(shù)據(jù),大大提高了數(shù)據(jù)讀取速度;*后,可以更容易實(shí)現(xiàn)系統(tǒng)內(nèi)部負(fù)載均衡和錯(cuò)誤處理。

HDFS默認(rèn)的阮余復(fù)制因子是3,每一個(gè)文件塊會(huì)被同時(shí)保存到3個(gè)地方,其中,有兩份副本放在同一個(gè)機(jī)架的不同機(jī)器上面,第三個(gè)副本放在不同機(jī)架的機(jī)器上面,這樣既可以*機(jī)架導(dǎo)堂時(shí)的數(shù)據(jù)恢復(fù),也可以提高數(shù)據(jù)讀寫性能。