搜索引擎 | Linux運維部落

鏈接分析算法之：主題敏感PageRank

前面的討論提到。PageRank忽略了主題相關性，導致結果的相關性和主題性降低，對于不同的用戶，甚至有很大的差別。例如，當搜索“蘋果”時，一個數碼愛好者可能是想要看 iphone 的信息，一個果農可能是想看蘋果的價格走勢和種植技巧，而一個小朋友可能在找蘋果的簡筆畫。理想情況下，應該為每個用戶維護一套專用向量，但面對海量用戶這種方法顯然不可行。所…

Linux干貨 2016-02-17

機器學習排序

從使用的數據類型，以及相關的機器學習技術的觀點來看，互聯網搜索經歷了三代的發展歷程。第一代技術，將互聯網網頁看作文本，主要采用傳統信息檢索的方法。第二代技術，利用互聯網的超文本結構，有效…

Linux干貨 2015-12-15

Linux干貨

搜索引擎的檢索模型-查詢與文檔的相關度計算

1. 檢索模型概述搜索結果排序時搜索引擎最核心的部分，很大程度度上決定了搜索引擎的質量好壞及用戶滿意度。實際搜索結果排序的因子有很多，但最主要的兩個因素是用戶查詢和網頁內容的相關度，以及網頁鏈接情況。這里我們主要總結網頁內容和用戶查詢相關的內容。 &nbsp…

2015-12-10

搜索引擎-處理查詢

我們從用戶的角度來看，用戶不關心什么索引結構是倒排還是簽名文件，也不需要知道相關排序算法。用戶提交了查詢，就需要獲取滿意的搜索結果。這個搜索結果就是搜索引擎是否提供有效的服務。 1.查詢流程查詢流程圖： 1）用戶提交查詢 2）分析查詢查詢預處理： …

Linux干貨 2015-12-10

倒排索引-搜索引擎的基石

1.概述在關系數據庫系統里，索引是檢索數據最有效率的方式,。但對于搜索引起，他它并不能滿足其特殊要求： 1）海量數據：搜索引擎面對的是海量數據，像Google，百度這樣大型的商業搜索引擎索引都是億級甚至幾千的網頁數量，面對…

Linux干貨 2015-12-10

搜索引擎-倒排索引基礎知識

1.單詞——文檔矩陣單詞-文檔矩陣是表達兩者之間所具有的一種包含關系的概念模型，圖3-1展示了其含義。圖3-1的每列代表一個文檔，每行代表一個單詞，打對勾的位置代表包含關系。 …

Linux干貨 2015-12-10

搜索引擎-網絡爬蟲

通用搜索引擎的處理對象是互聯網網頁，目前網頁數量以百億計，搜索引擎的網絡爬蟲能夠高效地將海量的網頁數據傳下載到本地，在本地形成互聯網網頁的鏡像備份。它是搜索引擎系統中很關鍵也很基礎的構件。 1. 網絡爬蟲本質就是瀏覽器http請求。瀏覽器和網絡爬蟲是兩種不同的網絡客戶端，都以相同的方式來獲取網…

Linux干貨 2015-11-18

搜索引擎的技術架構

1. 搜索引擎的分類搜索引擎按其工作方式主要可分為三種：分別是全文搜索引擎（Full Text Search Engine）目錄索引類搜索引擎（Search Index/Directory）元搜索引擎（Meta Search Engine）。 ■ 全文搜索引擎　　全文搜索引擎是名副其實的搜索引擎，國外具代表性的有Google、Fast/Al…

Linux干貨 2015-11-18

鏈接分析算法之：SALSA算法

SALSA算法的初衷希望能夠結合PageRank和HITS算法兩者的主要特點，既可以利用HITS算法與查詢相關的特點，也可以采納PageRank的“隨機游走模型”，這是SALSA算法提出的背景。由此可見，SALSA算法融合了PageRank和HITS算法的基本思想，從實際效果來說，很多實驗數據表明，SALSA的搜索效果也都優于前兩個算…

大數據運維 2015-07-21

鏈接分析算法之：HITS算法

HITS（HITS(Hyperlink – Induced Topic Search) ）算法是由康奈爾大學( Cornell University ) 的Jon Kleinberg 博士于1997 年首先提出的,為IBM 公司阿爾馬登研究中心( IBM Almaden Research Center) 的名為“CLEVER”的研究…

開發運維 2015-07-20

操作系統文件管理

在現代計算機系統中，要用到大量的程序和數據，因內存容量有限，且不能長期保存，故而平時總是把它們以文件的形式存放在外存中，需要時再隨時將它們調入內存。如果由用戶直接管理外存上的文件，不僅要求用戶熟悉外存特性，了解各種文件的屬性，以及它們在外存上的位置，而且在多用戶環境下，還必須能保持數據的安全性和一致性。顯然，這是用戶所不能勝任、也不愿…

Linux干貨 2015-04-13

鏈接分析算法之：HillTop算法

Hilltop算法是由Krishna Baharat 在2000年左右研究的，于2001年申請專利，但是有很多人以為Hilltop算法是由谷歌研究的。只不過是Krishna Baharat 后來加入了Google成為了一名核心工程師，然后授權給Google使用的。 &nbsp…

大數據運維 2015-04-08

Trie樹：應用于統計和排序

1. 什么是trie樹 1.Trie樹（特例結構樹） Trie樹，又稱單詞查找樹、字典樹，是一種樹形結構，是一種哈希樹的變種，是一種用于快速檢索的多叉樹結構。典型應用是用于統計和排序大量的字符串（但不僅限于字符串），所以經常被搜索引擎系統用于文本詞頻統計。它的優點是：最大限度地減少…

Linux干貨 2015-04-08

深入解析：分布式系統的事務處理經典問題及模型(轉載分享)

摘要：分布式系統需要在數據完整、一致性和性能間做平衡。本文系統介紹了處理分布式數據一致性的技術模型，如：Master-Slave，Master-Master，2PC/3PC，經典的將軍問題，Paxos，以及Dynamo的NRW和VectorClock的模型。編者按：數據服務的高可用是所有企業都想擁有的，但是要想讓數據有高可用性，就需要冗余數據寫多份。寫多份…

Linux干貨 2015-04-04