海量數據 | Linux運維部落

倒排索引-搜索引擎的基石

1.概述在關系數據庫系統里，索引是檢索數據最有效率的方式,。但對于搜索引起，他它并不能滿足其特殊要求： 1）海量數據：搜索引擎面對的是海量數據，像Google，百度這樣大型的商業搜索引擎索引都是億級甚至幾千的網頁數量，面對…

Linux干貨 2015-12-10

海量數據處理算法—Bit-Map

1. Bit Map算法簡介來自于《編程珠璣》。所謂的Bit-map就是用一個bit位來標記某個元素對應的Value，而Key即是該元素。由于采用了Bit為單位來存儲數據，因此在存儲空間方面，可以大大節省。 2、 Bit Map的基本思想 &nbs…

Linux干貨 2015-11-10

海量數據處理算法—Bloom Filter

1. Bloom-Filter算法簡介 Bloom-Filter，即布隆過濾器，1970年由Bloom中提出。它可以用于檢索一個元素是否在一個集合中。 Bloom Filter（BF）是一種空間效率很高的隨機數據結構，它利用位數組很簡潔地表…

Linux干貨 2015-10-22

大數據計算：如何僅用1.5KB內存為十億對象計數

Big Data Counting: How To Count A Billion Distinct Objects Using Only 1.5K This is a guest post by Matt Abrams (@abramsm), from Clearspring, discussing how they are able to accurat…

Linux干貨 2015-04-08