一次完整的HTTP事務是怎樣一個過程？

追馬 ? 2015-03-10 15:33 ? Linux干貨

聲明：本文章中的說法僅是個人理解總結，不一定完全正確，但是可以有助于理解。

關于HTTP協議可以參考以下：

HTTP協議漫談 http://kb.cnblogs.com/page/140611/ HTTP協議概覽 http://www.cnblogs.com/vamei/archive/2013/05/11/3069788.html
了解HTTP Headers的方方面面 http://kb.cnblogs.com/page/55442/

當我們在瀏覽器的地址欄輸入 www.linux178.com ，然后回車，回車這一瞬間到看到頁面到底發生了什么呢？

域名解析 –> 發起TCP的3次握手 –> 建立TCP連接后發起http請求 –>
服務器響應http請求，瀏覽器得到html代碼 –> 瀏覽器解析html代碼，并請求html代碼中的資源（如js、css、圖片等）
–> 瀏覽器對頁面進行渲染呈現給用戶

以下就是上面過程的一一分析，我們就以Chrome瀏覽器為例：

一.域名解析

首先Chrome瀏覽器會解析 www.linux178.com 這個域名（準確的叫法應該是主機名）對應的IP地址。怎么解析到對應的IP地址？

1 Chrome瀏覽器 會首先搜索瀏覽器自身的DNS緩存（緩存時間比較短，大概只有1分鐘，且只能容納1000條緩存），看自身的緩存中是否有www.linux178.com 對應的條目，而且沒有過期，如果有且沒有過期則解析到此結束。
     注：我們怎么查看Chrome自身的緩存？可以使用 chrome://net-internals/#dns 來進行查看 2 如果瀏覽器自身的緩存里面沒有找到對應的條目，那么Chrome會搜索操作系統自身的DNS緩存,如果找到且沒有過期則停止搜索解析到此結束.
      注：怎么查看操作系統自身的DNS緩存，以Windows系統為例，可以在命令行下使用 ipconfig /displaydns 來進行查看 3 如果在Windows系統的DNS緩存也沒有找到，那么嘗試讀取hosts文件（位于C:\Windows\System32\drivers\etc），看看這里面有沒有該域名對應的IP地址，如果有則解析成功。 4 如果在hosts文件中也沒有找到對應的條目，瀏覽器就會發起一個DNS的系統調用，就會向本地配置的首選DNS服務器（一般是電信運營商提供的，也可以使用像Google提供的DNS服務器）發起域名解析請求（通過的是UDP協議向DNS的53端口發起請求，這個請求是遞歸的請求，也就是運營商的DNS服務器必須得提供給我們該域名的IP地址），運營商的DNS服務器首先查找自身的緩存，找到對應的條目，且沒有過期，則解析成功。如果沒有找到對應的條目，則有運營商的DNS代我們的瀏覽器發起迭代DNS解析請求，它首先是會找根域的DNS的IP地址（這個DNS服務器都內置13臺根域的DNS的IP地址），找打根域的DNS地址，就會向其發起請求（請問www.linux178.com這個域名的IP地址是多少啊？），根域發現這是一個頂級域com域的一個域名，于是就告訴運營商的DNS我不知道這個域名的IP地址，但是我知道com域的IP地址，你去找它去，于是運營商的DNS就得到了com域的IP地址，又向com域的IP地址發起了請求（請問www.linux178.com這個域名的IP地址是多少?）,com域這臺服務器告訴運營商的DNS我不知道www.linux178.com這個域名的IP地址，但是我知道linux178.com這個域的DNS地址，你去找它去，于是運營商的DNS又向linux178.com這個域名的DNS地址（這個一般就是由域名注冊商提供的，像萬網，新網等）發起請求（請問www.linux178.com這個域名的IP地址是多少？），這個時候linux178.com域的DNS服務器一查，誒，果真在我這里，于是就把找到的結果發送給運營商的DNS服務器，這個時候運營商的DNS服務器就拿到了www.linux178.com這個域名對應的IP地址，并返回給Windows系統內核，內核又把結果返回給瀏覽器，終于瀏覽器拿到了www.linux178.com對應的IP地址，該進行一步的動作了。

注：一般情況下是不會進行以下步驟的

如果經過以上的4個步驟，還沒有解析成功，那么會進行如下步驟： 5 操作系統就會查找NetBIOS name Cache（NetBIOS名稱緩存，就存在客戶端電腦中的），那這個緩存有什么東西呢？凡是最近一段時間內和我成功通訊的計算機的計算機名和Ip地址，就都會存在這個緩存里面。什么情況下該步能解析成功呢？就是該名稱正好是幾分鐘前和我成功通信過，那么這一步就可以成功解析。 6 如果第5步也沒有成功，那會查詢WINS 服務器（是NETBIOS名稱和IP地址對應的服務器） 7 如果第6步也沒有查詢成功，那么客戶端就要進行廣播查找 8 如果第7步也沒有成功，那么客戶端就讀取LMHOSTS文件（和HOSTS文件同一個目錄下，寫法也一樣）

如果第八步還沒有解析成功，那么就宣告這次解析失敗，那就無法跟目標計算機進行通信。只要這八步中有一步可以解析成功，那就可以成功和目標計算機進行通信。

看下圖抓包截圖：
Linux虛擬機測試，使用命令 wget www.linux178.com
來請求，發現直接使用chrome瀏覽器請求時，干擾請求比較多，所以就使用wget命令來請求，不過使用wget命令只能把index.html請求回
來，并不會對index.html中包含的靜態資源（js、css等文件）進行請求。

抓包分析：

1 號包，這個是那臺虛擬機在廣播，要獲取192.168.100.254（也就是網關）的MAC地址，因為局域網的通信靠的是MAC地址，它為什么需要跟網關進行通信是因為我們的DNS服務器IP是外圍IP，要出去必須要依靠網關幫我們出去才行。 2 號包，這個是網關收到了虛擬機的廣播之后，回應給虛擬機的回應，告訴虛擬機自己的MAC地址，于是客戶端找到了路由出口。 3 號包，這個包是wget命令向系統配置的DNS服務器提出域名解析請求（準確的說應該是wget發起了一個DNS解析的系統調用），請求的域名www.linux178.com,期望得到的是IP6的地址（AAAA代表的是IPv6地址） 4 號包，這個DNS服務器給系統的響應，很顯然目前使用IPv6的還是極少數，所以得不到AAAA記錄的 5 號包，這個還是請求解析IPv6地址，但是www.linux178.com.leo.com這個主機名是不存在的，所以得到結果就是no such name 6 號包，這個才是請求的域名對應的IPv4地址（A記錄） 7 號包，DNS服務器不管是從緩存里面，還是進行迭代查詢最終得到了域名的IP地址，響應給了系統，系統再給了wget命令，wget于是得到了www.linux178.com的IP地址，這里也可以看出客戶端和本地的DNS服務器是遞歸的查詢（也就是服務器必須給客戶端一個結果）這就可以開始下一步了，進行TCP的三次握手。

二.發起TCP的3次握手

拿到域名對應的IP地址之后，User-Agent（一般是指瀏覽器）會以一個隨機端口（1024 < 端口 <
65535）向服務器的WEB程序（常用的有httpd,nginx等）80端口發起TCP的連接請求。這個連接請求（原始的http請求經過
TCP/IP4層模型的層層封包）到達服務器端后（這中間通過各種路由設備，局域網內除外），進入到網卡，然后是進入到內核的TCP/IP協議棧（用于識
別該連接請求，解封包，一層一層的剝開），還有可能要經過Netfilter防火墻（屬于內核的模塊）的過濾，最終到達WEB程序（本文就以Nginx為
例），最終建立了TCP/IP的連接。

如下圖：

1） Client首先發送一個連接試探，ACK=0 表示確認號無效，SYN = 1 表示這是一個連接請求或連接接受報文，同時表示這個數據報不能攜帶數據，seq = x 表示Client自己的初始序號（seq = 0 就代表這是第0號包），這時候Client進入syn_sent狀態，表示客戶端等待服務器的回復 2） Server監聽到連接請求報文后，如同意建立連接，則向Client發送確認。TCP報文首部中的SYN 和 ACK都置1 ，ack = x + 1表示期望收到對方下一個報文段的第一個數據字節序號是x+1，同時表明x為止的所有數據都已正確收到（ack=1其實是ack=0+1,也就是期望客戶端的第1個包），seq = y 表示Server 自己的初始序號（seq=0就代表這是服務器這邊發出的第0號包）。這時服務器進入syn_rcvd，表示服務器已經收到Client的連接請求，等待client的確認。 3） Client收到確認后還需再次發送確認，同時攜帶要發送給Server的數據。ACK 置1 表示確認號ack= y + 1 有效（代表期望收到服務器的第1個包），Client自己的序號seq= x + 1（表示這就是我的第1個包，相對于第0個包來說的），一旦收到Client的確認之后，這個TCP連接就進入Established狀態，就可以發起http請求了。

看抓包截圖：

9 號包 這個就是對應上面的步驟 1）
10 號包 這個對應的上面的步驟 2）
11 號包 這個對應的上面的步驟 3）

TCP 為什么需要3次握手？

舉個例子：

假設一個老外在故宮里面迷路了，看到了小明，于是就有下面的對話：

老外： Excuse me，Can you Speak English?
小明： yes 。
老外： OK,I want ...

在問路之前，老外先問小明是否會說英語，小明回答是的，這時老外才開始問路

2個計算機通信是靠協議（目前流行的TCP/IP協議）來實現,如果2個計算機使用的協議不一樣，那是不能進行通信的，所以這個3次握手就相當于試探一下對方是否遵循TCP/IP協議，協商完成后就可以進行通信了，當然這樣理解不是那么準確。

為什么HTTP協議要基于TCP來實現？

目前在Internet中所有的傳輸都是通過TCP/IP進行的，HTTP協議作為TCP/IP模型中應用層的協議也不例外，TCP是一個端到端的可靠的面向連接的協議，所以HTTP基于傳輸層TCP協議不用擔心數據的傳輸的各種問題。

三.建立TCP連接后發起http請求

進過TCP3次握手之后，瀏覽器發起了http的請求（看第?包），使用的http的方法 GET 方法，請求的URL是 / ,協議是HTTP/1.0

下面是第12號包的詳細內容：

以上的報文是HTTP請求報文。

那么HTTP請求報文和響應報文會是什么格式呢？

起始行：如 GET / HTTP/1.0 （請求的方法 請求的URL 請求所使用的協議） 頭部信息：User-Agent Host等成對出現的值 主體

不管是請求報文還是響應報文都會遵循以上的格式。

那么起始行中的請求方法有哪些種呢？

GET: 完整請求一個資源 （常用） HEAD: 僅請求響應首部
POST：提交表單  （常用） PUT: (webdav) 上傳 
DELETE：(webdav) 刪除 
OPTIONS：返回請求的資源所支持的方法的方法 TRACE: 追求一個資源請求中間所經過的代理

那什么是URL、URI、URN？

URI  Uniform Resource Identifier 統一資源標識符 URL Uniform Resource Locator 統一資源定位符 
格式如下：  scheme://[username:password@]HOST:port/path/to/source http://www.magedu.com/downloads/nginx-1.5.tar.gz

URN  Uniform Resource Name 統一資源名稱 URL和URN 都屬于 URI

為了方便就把URL和URI暫時都通指一個東西

請求的協議有哪些種？

有以下幾種：

http/0.9: stateless http/1.0: MIME, keep-alive (保持連接), 緩存 http/1.1: 更多的請求方法，更精細的緩存控制，持久連接(persistent connection) 比較常用

下面是Chrome發起的http請求報文頭部信息

其中

Accept  就是告訴服務器端，我接受那些MIME類型
Accept-Encoding 這個看起來是接受那些壓縮方式的文件
Accept-Lanague 告訴服務器能夠發送哪些語言 
Connection       告訴服務器支持keep-alive特性
Cookie           每次請求時都會攜帶上Cookie以方便服務器端識別是否是同一個客戶端
Host             用來標識請求服務器上的那個虛擬主機，比如Nginx里面可以定義很多個虛擬主機
                 那這里就是用來標識要訪問那個虛擬主機。
User-Agent 用戶代理，一般情況是瀏覽器，也有其他類型，如：wget curl 搜索引擎的蜘蛛等     

條件請求首部： If-Modified-Since 是瀏覽器向服務器端詢問某個資源文件如果自從什么時間修改過，那么重新發給我，這樣就保證服務器端資源
             文件更新時，瀏覽器再次去請求，而不是使用緩存中的文件
安全請求首部：
Authorization: 客戶端提供給服務器的認證信息；

什么是MIME？

MIME（Multipurpose Internet Mail Extesions
多用途互聯網郵件擴展）是一個互聯網標準，它擴展了電子郵件標準，使其能夠支持非ASCII字符、二進制格式附件等多種格式的郵件消息，這個標準被定義在
RFC 2045、RFC 2046、RFC 2047、RFC 2048、RFC 2049等RFC中。由RFC 822轉變而來的RFC
2822，規定電子郵件標準并不允許在郵件消息中使用7位ASCII字符集以外的字符。正因如此，一些非英語字符消息和二進制文件，圖像，聲音等非文字消
息都不能在電子郵件中傳輸。MIME規定了用于表示各種各樣的數據類型的符號化方法。
此外，在萬維網中使用的HTTP協議中也使用了MIME的框架，標準被擴展為互聯網媒體類型。

MIME 遵循以下格式：major/minor 主類型/次類型例如：

image/jpg image/gif text/html video/quicktime appliation/x-httpd-php

四.服務器端響應http請求，瀏覽器得到html代碼

看下圖第12號包是http請求包，第32包是http響應包

服務器端WEB程序接收到http請求以后，就開始處理該請求，處理之后就返回給瀏覽器html文件。

第32號包是服務器返回給客戶端http響應包（200 ok 響應的MIME類型是text/html），代表這一次客戶端發起的http請求已成功響應。200 代表是的響應成功的狀態碼，還有其他的狀態碼如下：

1xx: 信息性狀態碼 100, 101 2xx: 成功狀態碼 200：OK 3xx: 重定向狀態碼 301: 永久重定向, Location響應首部的值仍為當前URL，因此為隱藏重定向; 302: 臨時重定向，顯式重定向, Location響應首部的值為新的URL 304：Not Modified 未修改，比如本地緩存的資源文件和服務器上比較時，發現并沒有修改，服務器返回一個304狀態碼，
                         告訴瀏覽器，你不用請求該資源，直接使用本地的資源即可。 4xx: 客戶端錯誤狀態碼 404: Not Found 請求的URL資源并不存在 5xx: 服務器端錯誤狀態碼 500: Internal Server Error 服務器內部錯誤 502: Bad Gateway 前面代理服務器聯系不到后端的服務器時出現 504：Gateway Timeout 這個是代理能聯系到后端的服務器，但是后端的服務器在規定的時間內沒有給代理服務器響應

用Chrome瀏覽器看到的響應頭信息：

Connection            使用keep-alive特性
Content-Encoding 使用gzip方式對資源壓縮
Content-type MIME類型為html類型，字符集是 UTF-8 Date 響應的日期
Server                使用的WEB服務器
Transfer-Encoding:chunked   分塊傳輸編碼 是http中的一種數據傳輸機制，允許HTTP由網頁服務器發送給客戶端應用（通常是網頁瀏覽器）的數據可以分成多個部分，分塊傳輸編碼只在HTTP協議1.1版本（HTTP/1.1）中提供
Vary  這個可以參考（http://blog.csdn.net/tenfyguo/article/details/5939000） X-Pingback 參考（http://blog.sina.com.cn/s/blog_bb80041c0101fmfz.html）

那到底服務器端接收到http請求后是怎么樣生成html文件？

假設服務器端使用nginx+php(fastcgi)架構提供服務

1 nginx讀取配置文件

我們在瀏覽器的地址欄里面輸入的是 http://www.linux178.com （http://可以不用輸入，瀏覽器會自動幫我們添加），其實完整的應該是http://www.linux178.com./ 后面還有個點（這個點代表就是根域，一般情況下我們不用輸入，也不顯示）,后面的/也是不用添加，瀏覽器會自動幫我們添加（且看第3部那個圖里面的URL），那么實際請求的URL是http://www.linux178.com/，那么好了Nginx在收到瀏覽器 GET / 請求時，會讀取http請求里面的頭部信息，根據Host來匹配自己的所有的虛擬主機的配置文件的server_name,看看有沒有匹配的，有匹配那么就讀取該虛擬主機的配置，發現如下配置：

root /web/echo

通過這個就知道所有網頁文件的就在這個目錄下這個目錄就是/ 當我們http://www.linux178.com/時就是訪問這個目錄下面的文件，例如訪問http://www.linux178.com/index.html,那么代表/web/echo下面有個文件叫index.html

index index.html index.htm index.php

通過這個就能得知網站的首頁文件是那個文件，也就是我們在入http://www.linux178.com/ ，nginx就會自動幫我們把index.html（假設首頁是index.php
當然是會嘗試的去找到該文件，如果沒有找到該文件就依次往下找，如果這3個文件都沒有找到，那么就拋出一個404錯誤）加到后面，那么添加之后的URL是
/index.php,然后根據后面的配置進行處理

location ~ .*\.php(\/.*)*$ { root /web/echo; fastcgi_pass 127.0.0.1:9000; fastcgi_index index.php; astcgi_param SCRIPT_FILENAME $document_root$fastcgi_script_name; include fastcgi_params;
}

這一段配置指明凡是請求的URL中匹配（這里是啟用了正則表達式進行匹配） *.php后綴的（后面跟的參數）都交給后端的fastcgi進程進行處理。

2 把php文件交給fastcgi進程去處理

于是nginx把/index.php這個URL交給了后端的fastcgi進程處理，等待fastcgi處理完成后（結合數據庫查詢出數據，填充
模板生成html文件）返回給nginx一個index.html文檔，Nginx再把這個index.html返回給瀏覽器，于是乎瀏覽器就拿到了首頁
的html代碼，同時nginx寫一條訪問日志到日志文件中去。

注1：nginx是怎么找index.php文件的？

當nginx發現需要/web/echo/index.php文件時，就會向內核發起IO系統調用(因為要跟硬件打交道，這里的硬件是指硬盤，通常
需要靠內核來操作，而內核提供的這些功能是通過系統調用來實現的)，告訴內核，我需要這個文件,內核從/開始找到web目錄，再在web目錄下找到
echo目錄，最后在echo目錄下找到index.php文件，于是把這個index.php從硬盤上讀取到內核自身的內存空間，然后再把這個文件復制
到nginx進程所在的內存空間，于是乎nginx就得到了自己想要的文件了。

注2：尋找文件在文件系統層面是怎么操作的？

比如nginx需要得到/web/echo/index.php這個文件

每個分區（像ext3 ext3等文件系統，block塊是文件存儲的最小單元
默認是4096字節）都是包含元數據區和數據區，每一個文件在元數據區都有元數據條目（一般是128字節大?。恳粋€條目都有一個編號，我們稱之為
inode（index node 索引節點），這個inode里面包含
文件類型、權限、連接次數、屬主和數組的ID、時間戳、這個文件占據了那些磁盤塊也就是塊的編號（block，每個文件可以占用多個block,并且
block不一定是連續的，每個block是有編號的），如下圖所示：

還有一個要點：目錄其實也普通是文件，也需要占用磁盤塊，目錄不是一個容器。你看默認創建的目錄就是4096字節，也就說只需要占用一個磁盤塊，但這是不確定的。所以要找到目錄也是需要到元數據區里面找到對應的條目，只有找到對應的inode就可找到目錄所占用的磁盤塊。

那到底目錄里面存放著什么，難道不是文件或者其他目錄嗎？

其實目錄存著這么一張表（姑且這么理解），里面放著目錄或者文件的名稱和對應的inode號（暫時稱之為映射表）,如下圖：

假設

/           在數據區占據 1、2號block ，/其實也是一個目錄 里面有3個目錄  web 111 web 占據 5號block  是目錄 里面有2個目錄 echo data echo 占據 11號 block  是目錄  里面有1個文件 index.php index.php   占據 15 16號 block  是文件

其在文件系統中分布如下圖所示

那么內核究竟是怎么找到index.php這個文件的呢？

內核拿到nginx的IO系統調用要獲取/web/echo/index.php這個文件請求之后

1 內核讀取元數據區 / 的inode，從inode里面讀取/所對應的數據塊的編號，然后在數據區找到其對應的塊（1 2號塊），讀取1號塊上的映射表找到web這個名稱在元數據區對應的inode號 2 內核讀取web對應的inode（3號），從中得知web在數據區對應的塊是5號塊，于是到數據區找到5號塊，從中讀取映射表，知道echo對應的inode是5號，于是到元數據區找到5號inode 3 內核讀取5號inode，得到echo在數據區對應的是11號塊，于是到數據區讀取11號塊得到映射表，得到index.php對應的inode是9號 4 內核到元數據區讀取9號inode，得到index.php對應的是15和16號數據塊，于是就到數據區域找到15 16號塊，讀取其中的內容，得到index.php的完整內容

五. 瀏覽器解析html代碼，并請求html代碼中的資源

瀏覽器拿到index.html文件后，就開始解析其中的html代碼，遇到js/css/image等靜態資源時，就向服務器端去請求下載（會使
用多線程下載，每個瀏覽器的線程數不一樣），這個時候就用上keep-alive特性了，建立一次HTTP連接，可以請求多個資源，下載資源的順序就是按
照代碼里的順序，但是由于每個資源大小不一樣，而瀏覽器又多線程請求請求資源，所以從下圖看出，這里顯示的順序并不一定是代碼里面的順序。

瀏覽器在請求靜態資源時（在未過期的情況下），向服務器端發起一個http請求（詢問自從上一次修改時間到現在有沒有對資源進行修改），如果服務器端返回304狀態碼（告訴瀏覽器服務器端沒有修改），那么瀏覽器會直接讀取本地的該資源的緩存文件。

詳細的瀏覽器工作原理請看：http://kb.cnblogs.com/page/129756/

六.瀏覽器對頁面進行渲染呈現給用戶

最后，瀏覽器利用自己內部的工作機制，把請求到的靜態資源和html代碼進行渲染，渲染之后呈現給用戶。

自此一次完整的HTTP事務宣告完成.

文章鏈接：http://www.linux178.com/web/httprequest.html

原創文章，作者：追馬，如若轉載，請注明出處：http://www.www58058.com/816

HTTP失誤建立三次握手四次斷開馬哥馬哥教育

贊 (0)

0

PHP進階知識總結

上一篇 2015-03-10 13:38

詳解 /etc/inittab 文件

下一篇 2015-03-10 15:34

文件查找與解壓縮

文件查找腳本文件名的查詢 which（尋找執行文件） which [-a] command -a ：將所有由PATH目錄中可以找到的命令均列出，而不只是第一個被找到的命令名稱文件名的查找文件查找：實時查找：遍歷所有文件進行條件匹配；（find）非實時查找：根據索引查找；（whereis、locate） whereis whereis [-bmsu] […

Linux干貨 2017-04-08
haproxy 簡單實現80轉后端8000

一，安裝 yum -y install gcc automake autoconf libtool make tar -xzf haproxy-1.6.8 cd haproxy-1.6.8 make TARGET=linux2628 make install 二，編輯配置文件 Haproxy配置中分成五部分內容，當然這些組件不是必選的，可以根據需要選擇作為配…

Linux干貨 2016-09-19
?LAMP

LAMP lamp環境簡介 php –> httpd Module形式安裝php FastCGI方式安裝php httpd-2.2配置fcgi php-xcache MySQL 安裝與配置 php –> MySQL 快速部署LAMP php網站程序安裝 phpMyadmin wordpress DiscuzX 腳本安裝wordpress、disc…

Linux干貨 2016-10-12
zabbix如何監控webserver

1、模版 2、應用集 3、項目 4、觸發器

Linux干貨 2016-02-19
博客作業網絡班22期+第5周（9.5-9.11）

1、顯示當前系統上root、fedora或user1用戶的默認shell [root@MyCloudServer wjb]# egrep '^(root|fedora|user1)\>' /etc/passwd | cut -d: -f7/bin/bash 2、找出/etc/rc.d/init.d/functions文件中某單詞后面…

Linux干貨 2016-09-15
MySQL入門書籍和方法分享

原文：http://cenalulu.github.io/mysql/mysql-book-for-newbie/ 作者：盧鈞軼本文羅列了一些適用于MySQL及運維入門和進階使用的書籍。背景：各大論壇上總是…

Linux干貨 2015-04-09

欧美性久久久久