s19930811

信息論的熵

1. 前言熵的概念最早起源于物理學，用于度量一個熱力學系統的無序程度。在信息論里則叫信息量,即熵是對不確定性的度量。從控制論的角度來看，應叫不確定性。信息論的創始人香農在其著作《通信的數學理論》中提出了建立在概率統計模型上的信息度量。他把信息定義為“用來消除不確定性的東西”。在信息世界，熵越…

Linux干貨 2016-03-27

Hive深入淺出

1. Hive是什么 1) Hive是什么？這里引用 Hive wiki 上的介紹： Hive is a data warehouse infrastructure built on top of Hadoop. It provides tools to enable easy data ETL, a mechanism to put stru…

Linux干貨 2016-03-22

Redis應用場景

1. MySql+Memcached架構的問題　　實際MySQL是適合進行海量數據存儲的，通過Memcached將熱點數據加載到cache，加速訪問，很多公司都曾經使用過這樣的架構，但隨著業務數據量的不斷增加，和訪問量的持續增長，我們遇到了很多問題：　　1.MySQL需要不斷進行拆庫拆表，Memcached也需不斷跟著擴容，擴容和維護工作占據…

Linux干貨 2016-03-22

Flex Ant自動構建

1. Flex SDK Ant Flex開發者會遇到很多，比如自動構建，在一個有著N多模塊，N處源碼，構建過程復雜的Flex項目開發中，依賴人力手工構建項目非常不現實（機械重復且枯燥無味的過程，相信哪位開發人員都會避之唯恐不及，而且對于人力是非常大的浪費），而通過使用Ant，我們可以將這些工作…

Linux干貨 2016-03-22

如何成為一名軟件架構師

Daniel Mohl是一名專業的軟件工程師/架構師，他的興趣包括理解各種復雜的編程語言、企業應用架構以及如何搭建業務與技術，他通曉F#、C#、CoffeeScript、JavaScript、Erlang、ASP.NET、MVC、WPF、WCF、Sliverlight、SQL Server等技術。有著多年的軟件開發經驗。他經常會被一些有潛力和有前途的程序員…

Linux干貨 2016-03-22

誰說C語言很簡單？

前兩天，Neo寫了一篇《語言的歧義》其使用C語言討論了一些語言的歧義。大家應該也順便了解了一下C語言中的很多不可思異的東西，可能也是你從未注意到的東西。是的，C語言并不簡單，讓我們來看看下面這些示例：為什么下面的代碼會返回0？(這題應該很簡單吧) int x; return x == (1&…

Linux干貨 2016-03-20

TIME_WAIT引起Cannot assign requested address報錯

1. 問題描述有時候用redis客戶端（php或者java客戶端）連接Redis服務器，報錯：“Cannot assign requested address?！? 原因是客戶端頻繁的連接服務器，由于每次連接都在很短時間內結束，導致很多的TIME_WAIT。所以新的連…

Linux干貨 2016-03-09

鏈接分析算法之：主題敏感PageRank

前面的討論提到。PageRank忽略了主題相關性，導致結果的相關性和主題性降低，對于不同的用戶，甚至有很大的差別。例如，當搜索“蘋果”時，一個數碼愛好者可能是想要看 iphone 的信息，一個果農可能是想看蘋果的價格走勢和種植技巧，而一個小朋友可能在找蘋果的簡筆畫。理想情況下，應該為每個用戶維護一套專用向量，但面對海量用戶這種方法顯然不可行。所…

Linux干貨 2016-02-17

PageRank算法

1. PageRank算法概述 PageRank,即網頁排名，又稱網頁級別、Google左側排名或佩奇排名。是Google創始人拉里·佩奇和謝爾蓋·布林于1997年構建早期的…

Linux干貨 2015-12-15

機器學習排序

從使用的數據類型，以及相關的機器學習技術的觀點來看，互聯網搜索經歷了三代的發展歷程。第一代技術，將互聯網網頁看作文本，主要采用傳統信息檢索的方法。第二代技術，利用互聯網的超文本結構，有效…

Linux干貨 2015-12-15

Linux干貨

信息論的熵

Hive深入淺出

Redis應用場景

Flex Ant自動構建

如何成為一名軟件架構師

誰說C語言很簡單？

TIME_WAIT引起Cannot assign requested address報錯

鏈接分析算法之：主題敏感PageRank

PageRank算法

機器學習排序

搜索引擎的檢索模型-查詢與文檔的相關度計算

搜索引擎-處理查詢

倒排索引-搜索引擎的基石

搜索引擎-倒排索引基礎知識

搜索引擎-網絡爬蟲