大數據運維 | 第2頁 | Linux運維部落

hadoop安全模式

hadoop安全模式在分布式文件系統啟動的時候，開始的時候會有安全模式，當分布式文件系統處于安全模式的情況下，文件系統中的內容不允許修改也不允許刪除，直到安全模式結束。安全模式主要是為了系統啟動的時候檢查各個DataNode上數據塊的有效性，同時根據策略必要的復制或者刪除部分數據塊。運行期通過命令也可以進入安全模式。在實踐過程中，系統啟動的時候去修改和刪除文…

Linux干貨 2015-04-13

Hadoop Hive sql語法詳解

Hive 是基于Hadoop 構建的一套數據倉庫分析系統，它提供了豐富的SQL查詢方式來分析存儲在Hadoop 分布式文件系統中的數據，可以將結構化的數據文件映射為一張數據庫表，并提供完整的SQL查詢功能，可以將SQL語句轉換為MapReduce任務進行運行，通過自己的SQL 去查詢分析需要的內容，這套SQL 簡稱Hive SQL，使不熟悉mapredu…

Linux干貨 2015-04-13

谷歌三大核心技術（三）Google BigTable中文版

摘要 Bigtable是一個分布式的結構化數據存儲系統，它被設計用來處理海量數據：通常是分布在數千臺普通服務器上的PB級的數據。Google的很多項目使用Bigtable存儲數據，包括Web索引、Google Earth、Google Finance。這些應用對Bigtable提出的要求差異非常大，無論是在數據量上（從URL到網頁到衛星圖像）還是在響應速度上…

Linux干貨 2015-04-13

Hadoop Hive與Hbase整合+thrift

1. 簡介 Hive是基于Hadoop的一個數據倉庫工具，可以將結構化的數據文件映射為一張數據庫表，并提供完整的sql查詢功能，可以將sql語句轉換為MapReduce任務進行運行。其優點是學習成本低，可以通過類SQL語句快速實現簡單的MapReduce統計，不必開發專門的MapReduce應用，十分適合數據倉庫的統計分析。 Hive與HBas…

Linux干貨 2015-04-13

Hadoop HDFS分布式文件系統設計要點與架構

Hadoop簡介：一個分布式系統基礎架構，由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下，開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統（Hadoop Distributed File System），簡稱HDFS。HDFS有著高容錯性的特點，并且設計用來部署在低廉的（low-cost）硬件…

Linux干貨 2015-04-13

鏈接分析算法之：HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申請專利，但是有很多人以為Hilltop算法是由谷歌研究的。只不過是Krishna Baharat 后來加入了Google成為了一名核心工程師，然后授權給Google使用的。 &nbsp…

大數據運維 2015-04-08

大數據計算：如何僅用1.5KB內存為十億對象計數

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurat…

Linux干貨 2015-04-08

使用Storm實現實時大數據分析

摘要：隨著數據體積的越來越大，實時處理成為了許多機構需要面對的首要挑戰。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上結合了汽車超速監視，為我們演示了使用Storm進行實時大數據分析。CSDN在此編譯、整理。簡單和明了，Storm讓大數據分析變得輕松加愉快。當今世界，公司的日常運營經常會生成TB級別的數據。數據來源…

Linux干貨 2015-04-04

6個用于大數據分析的最好工具

大數據是一個含義廣泛的術語，是指數據集，如此龐大而復雜的，他們需要專門設計的硬件和軟件工具進行處理。該數據集通常是萬億或EB的大小。這些數據集收集自各種各樣的來源：傳感器，氣候信息，公開的信息，如雜志，報紙，文章。大數據產生的其他例子包括購買交易記錄，網絡日志，病歷，軍事監控，視頻和圖像檔案，及大型電子商務。在大數據和大數據分析，他們對企業的影…

Linux干貨 2015-04-04

Storm集群安裝詳解

storm有兩種操作模式: 本地模式和遠程模式。本地模式：你可以在你的本地機器上開發測試你的topology，一切都在你的本地機器上模擬出來; 遠端模式：你提交的topology會在一個集群的機器上執行。本文以Twitter Storm官方Wiki為基礎，詳細描述如何快速搭建一個Storm集群，其中，項目實踐中遇到的問題及經驗總結，在相應章…

Linux干貨 2015-04-04

五大主流數據庫模型

導讀：無論是關系型數據庫還是非關系型數據庫，都是某種數據模型的實現。本文將為大家簡要介紹5種常見的數據模型，讓我們來追本溯源，窺探現在流行的數據庫解決方案背后的神秘世界。什么是數據模型？訪問數據庫中的數據取決于數據庫實現的數據模型。數據模型會影響客戶端通過API對數據的操作。不同的數據模型可能會提供或多或少的功能。一般而言，數據模型不會直接提供過多的功能…

Linux干貨 2015-04-04

你的數據根本不夠大，別老扯什么Hadoop了

本文原名“Don’t use Hadoop when your data isn’t that big ”，出自有著多年從業經驗的數據科學家Chris Stucchio，紐約大學柯朗研究所博士后，搞過高頻交易平臺，當過創業公司的CTO，更習慣稱自己為統計學者。對了，他現在自己創業，提供數據分析、推薦優化咨詢服務，他的郵件是：stucchio@gmail.co…

Linux干貨 2015-04-04