CGFT大數據,數據存取策略主要包含什么?

在學習CGFT大數據時,數據存儲策略主要包含哪些內容是很重要的。下文是對它的詳細介紹,一起了解一下!

數據存儲策略包括數據存放、數據讀取和數據復制等方面,它在很大程度上會影響到整個分布式文件系統的讀寫性能,是分布式文件系統的核心內容。

1、數據存放

為了提高數據的可靠性與系統的可用性,以及充分利用網絡寬帶,HDFS采用了以機架為基礎的數據存放策略。

2、數據讀取

HDFS提供了一個API可以確定一個數據節(jié)點所屬的機架ID,客戶端也可以調用API獲取自己所屬的機架ID。


特許全球金融科技師CGFT一級

當客戶端讀取數據時,從名稱節(jié)點獲得數據塊不同副本的存放位置列表,列表中包含了副本所在的數據節(jié)點,可以調用API來確定客戶端和這些數據節(jié)點所屬的機架ID,當發(fā)現某個數據塊副本對應的機架ID和客戶端對應的機架ID相同時,就優(yōu)先選擇該副本讀取數據,如果沒有發(fā)現,就隨機選擇一個副本讀取數據。


3、數據復制

HDFS的數據復制采用了流水線復制的策略,大大提高了數據復制過程的效率。當客戶端要往HDFS中寫入一個文件時,這個文件會首先被寫入本地,并被切分成若干個塊,每個塊的大小是由HDFS的設定值來決定的。

每個塊都向HDFS集群中的名稱節(jié)點發(fā)起寫請求,名稱節(jié)點會根據系統中各個數據節(jié)點的使用情況,選擇一個數據節(jié)點列表返回給客戶端。