HDFS寫入和讀取流程

s19930811 ? 2015-05-12 23:01 ? Linux干貨, 系統運維

一、HDFS

HDFS全稱是Hadoop Distributed System。HDFS是為以流的方式存取大文件而設計的。適用于幾百MB，GB以及TB，并寫一次讀多次的場合。而對于低延時數據訪問、大量小文件、同時寫和任意的文件修改，則并不是十分適合。

目前HDFS支持的使用接口除了Java的還有，Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk組織其文件內容的，默認的block大小為64MB，對于不足64MB的文件，其會占用一個block，但實際上不用占用實際硬盤上的64MB，這可以說是HDFS是在文件系統之上架設的一個中間層。之所以將默認的block大小設置為64MB這么大，是因為block-sized對于文件定位很有幫助，同時大文件更使傳輸的時間遠大于文件尋找的時間，這樣可以最大化地減少文件定位的時間在整個文件獲取總時間中的比例。

二、HDFS的體系結構

構成HDFS主要是Namenode（master）和一系列的Datanode（workers）。Namenode是管理HDFS的目錄樹和相關的文件元數據，這些信息是以"namespace image"和"edit log"兩個文件形式存放在本地磁盤，但是這些文件是在HDFS每次重啟的時候重新構造出來的。Datanode則是存取文件實際內容的節點，Datanodes會定時地將block的列表匯報給Namenode。

由于Namenode是元數據存放的節點，如果Namenode掛了那么HDFS就沒法正常運行，因此一般使用將元數據持久存儲在本地或遠程的機器上，或者使用secondary namenode來定期同步Namenode的元數據信息，secondary namenode有點類似于MySQL的Master/Salves中的Slave，"edit log"就類似"bin log"。如果Namenode出現了故障，一般會將原Namenode中持久化的元數據拷貝到secondary namenode中，使secondary namenode作為新的Namenode運行起來。

三、讀寫流程

GFS論文提到的文件讀取簡單流程：

詳細流程：

文件讀取的過程如下：

使用HDFS提供的客戶端開發庫Client，向遠程的Namenode發起RPC請求；
Namenode會視情況返回文件的部分或者全部block列表，對于每個block，Namenode都會返回有該block拷貝的DataNode地址；
客戶端開發庫Client會選取離客戶端最接近的DataNode來讀取block；如果客戶端本身就是DataNode,那么將從本地直接獲取數據.
讀取完當前block的數據后，關閉與當前的DataNode連接，并為讀取下一個block尋找最佳的DataNode；
當讀完列表的block后，且文件讀取還沒有結束，客戶端開發庫會繼續向Namenode獲取下一批的block列表。
讀取完一個block都會進行checksum驗證，如果讀取datanode時出現錯誤，客戶端會通知Namenode，然后再從下一個擁有該block拷貝的datanode繼續讀。

GFS論文提到的寫入文件簡單流程：

詳細流程：

寫入文件的過程比讀取較為復雜：

使用HDFS提供的客戶端開發庫Client，向遠程的Namenode發起RPC請求；
Namenode會檢查要創建的文件是否已經存在，創建者是否有權限進行操作，成功則會為文件創建一個記錄，否則會讓客戶端拋出異常；
當客戶端開始寫入文件的時候，開發庫會將文件切分成多個packets，并在內部以數據隊列"data queue"的形式管理這些packets，并向Namenode申請新的blocks，獲取用來存儲replicas的合適的datanodes列表，列表的大小根據在Namenode中對replication的設置而定。
開始以pipeline（管道）的形式將packet寫入所有的replicas中。開發庫把packet以流的方式寫入第一個datanode，該datanode把該packet存儲之后，再將其傳遞給在此pipeline中的下一個datanode，直到最后一個datanode，這種寫數據的方式呈流水線的形式。
最后一個datanode成功存儲之后會返回一個ack packet，在pipeline里傳遞至客戶端，在客戶端的開發庫內部維護著"ack queue"，成功收到datanode返回的ack packet后會從"ack queue"移除相應的packet。
如果傳輸過程中，有某個datanode出現了故障，那么當前的pipeline會被關閉，出現故障的datanode會從當前的pipeline中移除，剩余的block會繼續剩下的datanode中繼續以pipeline的形式傳輸，同時Namenode會分配一個新的datanode，保持replicas設定的數量。

轉自：http://blog.csdn.net/hguisu/article/details/7259716

原創文章，作者：s19930811，如若轉載，請注明出處：http://www.www58058.com/3090

hdfs namespace 存儲故障文件系統

贊 (0)

0

Kickstart+PXE自動部署CentOS6.6

上一篇 2015-05-12 22:58

Linux文本處理工具之grep

下一篇 2015-05-12 23:03

MBR、GPT的結構和區別

本章學習內容 ——–介紹MBR、GPT ——–不同的啟動流程 ——–分區結構 &nb…

Linux干貨 2016-08-29
第六周作業

請詳細總結vim的使用模式轉換編輯模式：默認模式編輯模式–>輸入模式 i：insert,在光標所在處插入 …

Linux干貨 2017-02-15
在Centos系統上安裝EPEL擴展源以及安裝htop工具

Htop是一個強大的進程管理前端工具，但這是一個擴展工具，一般在Centos系統源中并沒有，所有我們需要到fedora-epel源中下載。 EPEL即Extra Packages for Enterprise Lin…

Linux干貨 2016-02-14
Linux干貨

sed 文本處理工具介紹

sed簡介：文本處理三劍客之一的sed sed是一種行編輯器，它一次處理一行內容，本身是一個管道命令，對行的數據進行替換增加刪除選取的工作 sed的命令為：sed[opition] ‘script’ inputfile… &nbs…

2017-06-24
高級文件系統之-LVM管理

lvm應用 lvm的重點在于可以彈性的調整filesystem的容量！而并非在于數據的存儲效率及安全上面。需要文件的讀寫效能或者是數據的可靠性是RAID所考慮的問題。 lvm：邏輯卷管理器允許對卷進行方便操作的抽象層，包括重新設定文件系統的大小允許在多個物理設備間重新組織文件系統將設備指定為物理卷用一個或者多個物理卷來創建一個卷組物理卷是用固定…

Linux干貨 2016-09-02
馬哥教育網絡班21期-第七周課程練習

1、創建一個10G分區，并格式為ext4文件系統； (1) 要求其block大小為2048, 預留空間百分比為2, 卷標為MYDATA, 默認掛載屬性包含acl； # mkfs.ext4 -b 2048 -m 2 -L MYDATA /dev/sdb1 # mount&…

Linux干貨 2016-08-24

欧美性久久久久