你的數據根本不夠大，別老扯什么Hadoop了

s19930811 ? 2015-04-04 21:42 ? Linux干貨, 大數據運維, 系統運維

本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有著多年從業經驗的數據科學家Chris Stucchio，紐約大學柯朗研究所博士后，搞過高頻交易平臺，當過創業公司的CTO，更習慣稱自己為統計學者。對了，他現在自己創業，提供數據分析、推薦優化咨詢服務，他的郵件是：stucchio@gmail.com 。

有人問我，“你在大數據和Hadoop方面有多少經驗？”我告訴他們，我一直在使用Hadoop，但是很少處理幾TB以上數據的任務。我基本上只是一個大數據新手——知道概念，寫過代碼，但是沒有大規模經驗。

他們又問我，“你能使用Hadoop做簡單的group by(分組)和sum(統計)嗎？”我說當然可以，但我會說需要看具體的文件格式。

他們給我一個U盤，里面存儲600MB數據（他們所有的數據，而不是樣本數據）。不知道為什么，我用pandas.read_csv（Pandas是一種Python數據分析庫）解決方案，而不是Hadoop完成了這個任務后，他們顯得很不滿意。

Hadoop實際上是有很多局限性的。Hadoop可以運行一個通用的計算，下面我用偽碼進行說明：

Scala風格的偽碼：

collection.flatMap( (k,v) => F(k,v) ).groupBy( _._1 ).map( _.reduce( (k,v) => G(k,v) ) )

使用SQL風格的偽碼表示

SELECT G(...) FROM table GROUP BY F(...)

或者想我多年解釋一樣：

目標：統計計算圖書館書籍的數量  
Map：你統計奇數書架上書的數量，我統計偶數書架上書的數量。（做統計的人越多，統計出結果越快，就是機器越多，效率越高）  
Reduce：把我們每個人單獨統計的結果數據加在一起。

我們所做的只有兩個：F(k,v)和G(k,v)，除非要在中間步驟中做性能優化，其他一切都是固定的。

在Hadoop里，所有計算都必須按照一個map、一個group by、一個aggregate或者這種計算序列來寫。這和穿上緊身衣一樣，多憋得慌啊。許多計算用其他模型其實更適合。穿上緊身衣（使用hadoop）的唯一原因就是，可以擴展到極大的數據集?？纱蠖鄶登闆r，你的數據集很可能根本遠遠夠不上那個數量級。

可是呢，因為Hadoop和大數據是熱詞，世界有一半的人都想穿上緊身衣，即使他們實際不需要Hadoop。

一、如果我的數據量是幾百兆，Excel可能沒法加載它
對于Excel來說的“很大的數據”并非大數據，其實還有其它極好的工具可以使用——我喜歡的是基于Numpy庫之上Pandas。它可以將幾百MB數據以高效的向量化格式加載到內存，在我購買已3年的筆記本上，一眨眼的功夫，Numpy就能完成1億次浮點計算。Matlab和R也是極好的工具。

Pandas構建于Numpy庫之上，可以以矢量格式的方式有效地把數百兆的數據載入到內存中。在我購買已3年的筆記本上，它可以用Numpy在一眨眼的功夫把1億的浮點數乘在一起。Matlab和R也是極好的工具。
因此，對于幾百兆的數據量，典型的做法是寫一個簡單的Python腳本逐行讀取，處理，然后寫到了一個文件就行了

二、可我的數據是10GB呢？
我買了臺新筆記本，它有16GB的內存（花$141.98）和256GB的SSD(額外200美元)。，如果在Pandas里加載一個10GB的csv文件，實際在內存里并沒有那么大（內存不是占有10G）——可以將 “17284932583” 這樣的數值串存為4位或者8位整數，“284572452.2435723”存為8位雙精度。

最壞的情況下你還可以不同時將所有數據都一次加載到內存里。

三、可我的數據是100GB、500GB或1TB呢？

一個2T的硬盤才94.99美元，4T是169.99。買一塊，加到桌面PC或者服務器上，然后裝上PostgreSQL來解決它

四、Hadoop << SQL或Python腳本

在計算的表達能力來說，Hadoop比SQL差。Hadoop里能寫的計算，在SQL或者簡單的Python腳本都可以更輕松地寫出來。
SQL是一個直觀的查詢語言，適合做業務分析，業務分析師和程序員都很常用。SQL查詢非常簡單，而且還非常快——只有數據庫使用了正確的索引，要花幾秒鐘的sql查詢都不太常見。

Hadoop沒有索引的概念，Hadoop只有全表掃描，而且Hadoop抽象層次太多了——我之前的項目盡在應付Java內存錯誤（ java memory errors）、內存碎片和集群競用了，而這些時間遠多于實際的數據分析工作。

如果你的數據并不是像SQL表那樣的結構化數據（比如純文本、JSON對象、二進制對象），通常是直接寫一個小的Python腳本或者Ruby腳本逐行處理更直接。保存到多個文件，然后逐個處理即可，SQL不適用的情況下，從編程來說Hadoop也沒那么糟糕，但相比Python腳本仍然沒有什么優勢。

除了難以編程，Hadoop還一般總是比其他技術方案要慢。只要索引用得好，SQL查詢非?？?。比如要計算join，PostgreSQL只需查看索引（如果有），然后查詢所需的每個鍵。而Hadoop呢，必須做全表掃描，然后重排整個表。排序通過多臺機器之間分片可以加速，但也帶來了跨多機數據流處理的開銷。如果要處理二進制文件，Hadoop必須反復訪問namenode。而簡單的Python腳本只要反復訪問文件系統即可。

五、我的數據超過了5TB

只能使用Hadoop，而無需做過多的選擇。

你的命可真苦——只能苦逼地折騰Hadoop了，沒有太多其他選擇（可能還能用許多硬盤容量的高富帥機器來扛），而且其他選擇往往貴得要命（腦海中浮現出IOE等等字樣……）。

用Hadoop唯一的好處是擴展。如果你的數據是一個數TB的單表，那么全表掃描是Hadoop的強項。此外的話（如果你沒有這樣大數據量的表），請關愛生命，盡量遠離Hadoop。它帶來的煩惱根本不值，用傳統方法既省時又省力。

六、Hadoop是一個極好的工具

我并不討厭Hadoop，當我用其它工具不能很好處理數據時我會選擇Hadoop。另外，我推薦使用Scalding，不要使用Hive或Pig。Scalding支持使用Scala語言來編寫Hadoop任務鏈，隱藏了其下的MapReduce。

轉自：http://blog.csdn.net/hguisu/article/details/12585383

原創文章，作者：s19930811，如若轉載，請注明出處：http://www.www58058.com/2621

hadoop 主數據主數據，hadoop，數據，科學家，數據分析，性能優化性能優化數據數據分布科學家

贊 (0)

0

深入解析：分布式系統的事務處理經典問題及模型(轉載分享)

上一篇 2015-04-04 21:39

五大主流數據庫模型

下一篇 2015-04-04 21:48

LINUX命令幫助

命令幫助在維護和使用Linux系統時，常常會遇到忘記命令的使用方法，遇到一個比較陌生的命令，又或者想知道這個命令是什么的情況可以查看命令使用幫助。 LINUX命令使用幫助可參考:程序自身的幫助文檔、官方文檔、官方站點、LINUX的發行版官方文檔、其他網站或者搜索引擎 LINUX命令分為內部命令（shell內置的命令）和外部命令，內部命令和外部命令…

Linux干貨 2017-05-28
馬哥教育網絡班21期-第四周課程練習

第四周作業 1、復制/etc/skel目錄為/home/tuser1，要求/home/tuser1及其內部文件的屬組和其它用戶均沒有任何訪問權限。 [root@localhost ~]# cp -a /etc/skel /home/tuse1 [root@localhost …

Linux干貨 2016-07-17
Linux的哲學思想

Linux的哲學思想一切皆文件在linux中所有的一切，都是可以通過ls進行查詢的到的，甚至可以說ll查看詳細信息時表現形式為文件，所有的設備，所有的文件不論后綴，只是一個單純文件通過vim可以編輯一切單一目的的小程序，組合小程序完成復雜任務在linux中，每一個命令都是對應一個功能，通過不同的參數來完成不同的要求，通過繁多的小的命令來完成大型的要求…

Linux干貨 2016-10-30
任務計劃

Linux 任務計劃、周期性任務執行未來的某時間點執行一次任務 at batch ：系統自行選擇空閑時間去執行此處指定的任務周期性運行某任務 cron [root@localhost ~]# rpm -q at （CentOS6中使用） at-3.1.10-48.el6.x86_64 [root@localhost ~]# rpm -ql at /et…

Linux干貨 2017-05-13
CentOS軟RAID實現配置

實現軟raid1、fdisk t fd //修改磁盤分區類型fd2、創建raid設備創建一個RAID5，5塊兒硬盤4塊做RAID，1塊兒做空閑硬盤（頂替硬盤使用） mdadm -C /dev/md0 -a yes -l 5 -n …

Linux干貨 2016-08-30
第一周

注意：請同學們不要參考我這個，怕誤導，謝謝 A.計算機組成及其功能 1.計算機的組成分:硬件和軟件硬件：CPU，存儲設備（內存，硬盤）,輸入輸出設備（鍵盤，顯示器，鼠標） &n…

Linux干貨 2016-12-31

欧美性久久久久