HDFS寫入和讀取流程

一、HDFS

HDFS全稱是Hadoop Distributed System。HDFS是為以流的方式存取大文件而設計的。適用于幾百MB,GB以及TB,并寫一次讀多次的場合。而對于低延時數據訪問、大量小文件、同時寫和任意的文件修改,則并不是十分適合。

目前HDFS支持的使用接口除了Java的還有,Thrift、C、FUSE、WebDAV、HTTP等。HDFS是以block-sized chunk組織其文件內容的,默認的block大小為64MB,對于不足64MB的文件,其會占用一個block,但實際上不用占用實際硬盤上的64MB,這可以說是HDFS是在文件系統之上架設的一個中間層。之所以將默認的block大小設置為64MB這么大,是因為block-sized對于文件定位很有幫助,同時大文件更使傳輸的時間遠大于文件尋找的時間,這樣可以最大化地減少文件定位的時間在整個文件獲取總時間中的比例 。

二、HDFS的體系結構

構成HDFS主要是Namenode(master)和一系列的Datanode(workers)。Namenode是管理HDFS的目錄樹和相關的文件元數據,這些信息是以"namespace image"和"edit log"兩個文件形式存放在本地磁盤,但是這些文件是在HDFS每次重啟的時候重新構造出來的。Datanode則是存取文件實際內容的節點,Datanodes會定時地將block的列表匯報給Namenode。

由于Namenode是元數據存放的節點,如果Namenode掛了那么HDFS就沒法正常運行,因此一般使用將元數據持久存儲在本地或遠程的機器上,或者使用secondary namenode來定期同步Namenode的元數據信息,secondary namenode有點類似于MySQL的Master/Salves中的Slave,"edit log"就類似"bin log"。如果Namenode出現了故障,一般會將原Namenode中持久化的元數據拷貝到secondary namenode中,使secondary namenode作為新的Namenode運行起來。

                            1.gif

三、讀寫流程

GFS論文提到的文件讀取簡單流程:

            2.gif

詳細流程:

文件讀取的過程如下:

  1. 使用HDFS提供的客戶端開發庫Client,向遠程的Namenode發起RPC請求;

  2. Namenode會視情況返回文件的部分或者全部block列表,對于每個block,Namenode都會返回有該block拷貝的DataNode地址;

  3. 客戶端開發庫Client會選取離客戶端最接近的DataNode來讀取block;如果客戶端本身就是DataNode,那么將從本地直接獲取數據.

  4. 讀取完當前block的數據后,關閉與當前的DataNode連接,并為讀取下一個block尋找最佳的DataNode;

  5. 當讀完列表的block后,且文件讀取還沒有結束,客戶端開發庫會繼續向Namenode獲取下一批的block列表。

  6. 讀取完一個block都會進行checksum驗證,如果讀取datanode時出現錯誤,客戶端會通知Namenode,然后再從下一個擁有該block拷貝的datanode繼續讀。

GFS論文提到的寫入文件簡單流程:

                                     4.gif            

詳細流程:

寫入文件的過程比讀取較為復雜:

  1. 使用HDFS提供的客戶端開發庫Client,向遠程的Namenode發起RPC請求;

  2. Namenode會檢查要創建的文件是否已經存在,創建者是否有權限進行操作,成功則會為文件創建一個記錄,否則會讓客戶端拋出異常;

  3. 當客戶端開始寫入文件的時候,開發庫會將文件切分成多個packets,并在內部以數據隊列"data queue"的形式管理這些packets,并向Namenode申請新的blocks,獲取用來存儲replicas的合適的datanodes列表,列表的大小根據在Namenode中對replication的設置而定。

  4. 開始以pipeline(管道)的形式將packet寫入所有的replicas中。開發庫把packet以流的方式寫入第一個datanode,該datanode把該packet存儲之后,再將其傳遞給在此pipeline中的下一個datanode,直到最后一個datanode,這種寫數據的方式呈流水線的形式。

  5. 最后一個datanode成功存儲之后會返回一個ack packet,在pipeline里傳遞至客戶端,在客戶端的開發庫內部維護著"ack queue",成功收到datanode返回的ack packet后會從"ack queue"移除相應的packet。

  6. 如果傳輸過程中,有某個datanode出現了故障,那么當前的pipeline會被關閉,出現故障的datanode會從當前的pipeline中移除,剩余的block會繼續剩下的datanode中繼續以pipeline的形式傳輸,同時Namenode會分配一個新的datanode,保持replicas設定的數量。

轉自:http://blog.csdn.net/hguisu/article/details/7259716

原創文章,作者:s19930811,如若轉載,請注明出處:http://www.www58058.com/3090

(0)
s19930811s19930811
上一篇 2015-05-12
下一篇 2015-05-12

相關推薦

  • N22-℡浮生.若夢 ╮-第二周作業

    1、Linux上的文件管理類命令都有哪些,其常用的使用方法及其相關示例演示。 cp文件復制:       常用選項:     -i:交互式復制,即覆蓋之前提醒用戶確認;     -f:強制覆蓋目標文件;  &n…

    Linux干貨 2016-09-06
  • 第六周作業

    請詳細總結vim編輯器的使用并完成以下練習題 光標跳轉 字符間跳轉 h或向左箭頭鍵 光標向左移動一個字符 j或向下箭頭鍵 光標向下移動一個字符 k或向上箭頭鍵 光標向上移動一個字符 l或向右箭頭鍵 光標向右移動一個字符 翻屏 Ctrl+f 屏幕向下移動一頁 Ctrl+b 屏幕向上移動一頁 Ctrl+d 屏幕向下移動半頁 Ctrl+u 屏幕向上移動半頁 Ent…

    Linux干貨 2017-01-22
  • LVS詳解

    LVS詳解 LVS(Linux Virtual Server),意即Linux虛擬服務器,是一個虛擬的服務器集群系統。本項目在1998年5月由章文嵩博士成立,是中國國內最早出現的自由軟件項目之一。 LVS 是一個工作在四層的負載均衡器,實現和 iptables/netfilter 類似,工作在內核空間的 TCP/IP 協議棧上,LVS 工作在 INPUT H…

    Linux干貨 2016-11-11
  • 日志SYSLOGD_OPTIONS 參數

    SYSLOGD_OPTIONS 參數

    Linux干貨 2018-03-26
  • MySQL高可用架構之MHA

    MySQL高可用架構之MHA 1、關于MHA MHA(Master HA)是一款開源的MySQL的高可用程序,它為MySQL主從復制架構提供了automating master failover功能。MHA在監控到master節點故障時,會提升其中擁有的最新數據的slave節點成為新的master節點,在此期間,MHA會通過其它從節點獲取額外信息來避免一致性…

    Linux干貨 2017-03-30
  • 文件查找與解壓縮

    文件查找: which 查找可以執行文件,只搜索$PATH里的目錄 $ which ls /bin/ls which只搜索$PATH里的目錄,如果搜索當前目錄的文件是沒有任何結果的 $ ls -l 總用量 0 -rw-rw-r– 1 huanghao huanghao 0 3月 1 12:24 a.txt $ which a.txt wherei…

    Linux干貨 2017-08-04
欧美性久久久久