SHELL網絡爬蟲實例剖析

s19930811 ? 2016-08-15 12:12 ? Linux干貨, 系統運維

原創作品，允許轉載，轉載時請務必以超鏈接形式標明文章原始出處、作者信息和本聲明。否則將追究法律責任。http://nolinux.blog.51cto.com/4824967/1552472

前天簡單分享了用 shell 寫網絡爬蟲的一些見解，今天特地把代碼發出來與51博友分享，還是那句話，愛技術、愛開源、愛linux。

針對腳本的注解和整體構思，我會放到腳本之后為大家詳解。

#!/bin/bash
#
# This script is used to grab the data on the specified industry websites
# Written by sunsky
# Mail : 274546888@qq.com
# Date : 2014-09-14 3:06:00
#
 
if [ `echo $UID` != 0 ];then
  echo 'Please use the root to execute the script!'
fi
if [ ! -f /dataimg/years ];then
  echo 'Please give date file, the file path for/dataimg/years .'
fi
if [ ! -d $TMP_DIR ];then
  mkdir -p $TMP_DIR
fi
if [ ! -d $URL_MD5_DIR ];then
  mkdir -p $URL_MD5_DIR
fi
if [ ! -d $HTML_DIR ];then
  mkdir -p $HTML_DIR
fi
 
ROOT_DIR="/dataimg"                  # 指定腳本運行根目錄
TMP_DIR="$ROOT_DIR/tmp"              # 生成商品詳細頁url之前的臨時數據存放目錄
URL_MD5_DIR="$ROOT_DIR/url_md5"      # 記錄商品詳細頁url的MD5值的目錄
HTML_DIR="$ROOT_DIR/html"            # 存放下載下來的商品詳細頁目錄
URL_MD5="$URL_MD5_DIR/md5.$year"     # 負責記錄商品詳細頁url的md5值
WEB_URL="https://www.redhat.sx/"     # 所爬網站的主頁url
REPORT="$ROOT_DIR/report"            # 負責記錄采集的url綜合信息
CURL="curl -A 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/37.0.2062.102 Safari/537.36' --referer http://www.redhat.sx"
OPT0="/dataimg/years"                                                   # 年份信息 
OPT1="$TMP_DIR/${X1_MD5}"                                               # 品牌信息     
OPT2="$TMP_DIR/${X1_MD5}_${X2_MD5}"                                     # 車型信息
OPT3="$TMP_DIR/${X1_MD5}_${X2_MD5}_${X3_MD5}"                           # 裝飾信息
OPT4="$TMP_DIR/${X1_MD5}_${X2_MD5}_${X3_MD5}_${X4_MD5}"                 # 部位分類信息
OPT5="$TMP_DIR/${X1_MD5}_${X2_MD5}_${X3_MD5}_${X4_MD5}_${URL_LIST_MD5}" # 商品詳情頁url信息
 
FIFO_FILE="/tmp/$$.fifo"
mkfifo $FIFO_FILE
exec 9<>$FIFO_FILE
rm -f $FIFO_FILE
 
num=10
for ((i=0;i<$num;i++));do
echo
done >&9
 
while read X1;do
{
  URL1="${WEB_URL}/model/YMMTSelects.cfc?method=getMakes&PassYear=$X1"
  X1_MD5=`echo $URL1|cksum|cut -d' ' -f1`
  if ! ls $OPT1 >&/dev/null;then
    $CURL -s $URL1|awk 'BEGIN{RS="<"}{print $0}'|awk -F'>' '{print $2}'|sed '1,9d'|sed '$d'|grep -v '^$' > $OPT1
  fi
  while read X2;do
    X2=`echo $X2|sed 's# #%20#g'`
    URL2="${URL1}&PassMakeName=$X2"
    #X2_MD5=`echo $URL|cksum|cut -d' ' -f1`
    if ! ls $OPT2 >&/dev/null;then
      $CURL -s $URL2|awk 'BEGIN{RS="<"}{print $0}'|awk -F'>' '{print $2}'|sed '1,6d'|sed '$d'|grep -v '^$' > $OPT2
    fi
    while read X3;do
      X3=`echo $X3|sed 's#[[:space:]]#%20#g'`
      URL3="${URL2}&PassModel=$X3"
      X3_MD5=`echo $URL3|cksum|cut -d' ' -f1`
      if ! ls $OPT3 >&/dev/null;then
        $CURL -s $URL3|sed 's#[[:space:]]##g'|awk 'BEGIN{RS="<|=|>"}{print $0}'|egrep '^[0-9]+$' > $OPT3
      fi
      while read X4;do
        X4=`echo $X4|sed 's# #%20#g'`
        URL4="${URL3}&PassVehicleID=$X4"
        X4_MD5=`echo $URL4|cksum|cut -d' ' -f1`
        if ! ls "${OPT4}" >&/dev/null;then
          $CURL -s $URL4|awk 'BEGIN{RS="<"}{print $0}'|awk -F'[>;]' '{print $2}'|sed -e '1,3d' -e '$d' -e '/^$/d' > $OPT4
        fi
        while read X5;do
          X5=`echo $X5|sed 's# #%20#g'`
          URL_LIST="${WEB_URL}index.cfm?fuseaction=store.sectionSearch&YMMTyears=$X1&YMMTmakenames=$X2&YMMTmodelnames=$X3&YMMTtrimnames=$X4&YMMTsectionnames=$X5"
          URL_LIST_MD5=`echo "$URL_LIST"|md5sum|awk '{print $1}'`
          if ! grep -q $URL_LIST_MD5 "$URL_MD5" ;then
            $CURL -s "$URL_LIST" > "$URL_MD5_DIR/$URL_LIST_MD5"
            NUM=`grep 'View page' "$URL_MD5_DIR/$URL_LIST_MD5"|wc -l`
            NUM2=$(($NUM/2))
            echo > $OPT5
            grep 'a href="index.cfm?fuseaction=store.PartInfo&PartNumbe' "$URL_MD5_DIR/$URL_LIST_MD5"|cut -d'"' -f2 > $OPT5
            while [ $NUM2 -ge 2 ];do
              URL_LIST=`grep "View page $NUM2" "$URL_MD5_DIR/$URL_LIST_MD5"|awk -F'[" ]'  '{a[$9]=$9}END{for(i in a)print a[i]}'`
              $CURL -s "$URL_LIST"|grep 'a href="index.cfm?fuseaction=store.PartInfo&PartNumbe'|cut -d'"' -f2 >> $OPT5
              NUM2=$(($NUM2-1))
            done
            echo $URL_LIST_MD5 >> "$URL_MD5"
          fi
          while read X6;do
            URL_DETAIL="${WEB_URL}${X6}"
            URL_DETAIL_MD=`echo $URL_DETAIL|md5sum|awk '{print $1}'`
            if ! grep -q $URL_DETAIL_MD "$URL_MD5" >&/dev/null;then # 該判斷以商品列表詳細頁URL的md5值為基準，負責URL的重復項判定
              $CURL -s "$URL_DETAIL" > "$HTML_DIR/$URL_DETAIL_MD"
              LABEL=`grep 'diagram-label' "$HTML_DIR/$URL_DETAIL_MD"|awk -F'[<>]' '{print $5}'`  # 商品標簽
              GIF_URL=`grep -B 10 partInfo "$HTML_DIR/$URL_DETAIL_MD"|grep -o "https.*gif"|awk '{a=$0}END{print a}'` # 產品對應的圖片URL
              PRODUCT_ID=`grep 'productID' "$HTML_DIR/$URL_DETAIL_MD"|awk -F'[<>]' '{print $3}'` # 產品零件號碼
              GIFILE=${GIF_URL#*/}   # 去除了https:/后的圖片URL信息，as:/a/b.gif
              GIF_IMG="${ROOT_DIR}${GIFILE}" # 圖片存到本地后的絕對路徑，as:/dataimg/a/b.gif
              U4=`grep -B 10 '<!-- start opentop -->' "$HTML_DIR/$URL_DETAIL_MD"|grep javascript|awk -F'[<>]' '{print $3}'`
              ! ls $GIF_IMG >& /dev/null && wget -q -m -k -P "$ROOT_DIR" "$GIF_URL"
              echo $URL_DETAIL_MD >> "$URL_MD5"
              echo "$(date +%m%d%T)+++$X1+++$X2+++$X3+++$U4+++$X5+++$URL_DETAIL+++$URL_DETAIL_MD+++$LABEL+++$PRODUCT_ID+++$GIF_IMG+++$URL_LIST" >> "$REPORT"
            fi
          done < $OPT5  # 傳入商品詳細列表url信息，進行循環
        done < $OPT4    # 傳入產品部位分類信息，進行循環
      done < $OPT3      # 傳入裝飾信息，進行循環
    done < $OPT2        # 傳入車型信息，進行循環
  done < $OPT1          # 傳入品牌信息，進行循環
  echo >&9
}&
done < $OPT0            # 傳入年份信息，進行循環
 
wait
 
exec 9<&-

OK!

以上就是腳本的全部內容，整體腳本主要包含了組合目標URL和抓取目標URL兩個大方向，圍繞這兩個大方向，主要是使用 curl 來做數據抓取，是用sed、awk、grep、cut來做興趣數據的抽取。

由于所要抓取的目標URL必須經過幾個選項匹配，最終才能得到想要結果，因此我們在抓取目標URL之前添加了組合目標URL這一操作。整體這2個方向，我通過多層的while循環嵌套，來實現對參數的復用和一層一層的輸入挖掘。

為了優化速度以及控制速度，采用了 shell 的多進程和數據智能判重的方式。

采用 shell 的多進程目的是為了增大操作數來縮短整體完成時間，提高抓取效率。

shell 多進程主要依托循環 + { } + & 來實現。如果多進程的進程數量有指定數值，那么我們可以使用for和while都而已，如果多進程的進程數量沒有指定數值，那么我們最好使用while循環語句。通過將 { }& 嵌套在循環中實現將 {}內的命令群組放到后臺去自動執行，然后完成本次 { }& 操作，使得循環可以進入下一次。

以上并未實現該shell 在后臺開啟進程數的控制，假設你的需要執行一萬次，如果你未控制速度，就可能會導致直接觸發著一萬次操作，同時放到后臺執行，這樣對系統是致命的傷害。另一方面，作為爬蟲，你對目標網站的并發量也不能太大。出于這兩方面的考慮，我們需要控制 shell 多進程每次放入后臺執行的數量。針對這一行為，我們主要通過文件描述符來實現。通過新建一臨時管道文件，然后為該文件打開一個文件描述符，并為其傳遞指定數量的空行（本文傳遞了10個空行），這樣做的目的是為了實現對進程并發量的控制。接著，在下面循環中， { }&操作的前面使用read -u9（這里9為本文使用的文件描述符）來從9這個文件描述符中獲取一行，如果獲取到就能繼續往下執行，如果獲取不到就在這里等待。

通過以上的2者結合，就能實現對 shell 多進程的智能管控。

采用數據智能判重的目的在于，在腳本調試中發現速度的執行瓶頸在于curl的速度，即網絡速度，因此一旦腳本異常中斷后，恢復之后，又要重復進行curl操作，這樣就極大增加了腳本執行時間。因此通過智能判重，完美實現了curl時間消耗過久的以及數據重復采集的問題。以下是數據只能判重的邏輯圖：

針對腳本中變量的取值意義，我已經在上面的腳本中進行了詳細的注釋，這里不在復述。

其它細枝末節的一些使用方法和技巧，這里不再一一解釋。對 shell 感興趣的朋友可以和我一起交流，一起進步。

轉自：http://nolinux.blog.51cto.com/4824967/1552472

原創文章，作者：s19930811，如若轉載，請注明出處：http://www.www58058.com/1945

sed shell awk 網絡爬蟲

贊 (0)

0

MySQL系列之一鍵安裝腳本—-單實例/多實例

上一篇 2016-08-15 12:12

線上多服務管理工具實例剖析

下一篇 2016-08-15 12:12

VIM 詳用！

1、復制/etc/rc.d/rc.sysinit文件至/TMP目錄，將/tmp/rc.sysinit文件的至少一個空白字符開頭的行首加 :%s/^[[:space:]]/#/ 2、復制/boot/grub/grub.conf 至/tmp目錄中，刪除/tmp/grub.conf文件中的行首的空白字符； :%s/[[:space:]]\+// 3、刪除/tmp/…

Linux干貨 2017-08-20
Linux干貨

正則表達式

1、復制/etc/skel目錄為/home/tuser1,要求/home/tuser1及其內部文件的屬組和其他用戶都沒有任何訪問權限 [root@localhost ~]#? mkdir /home/tuser1======>創建/home/tuser1目錄 [root@localhost ~]#? ?cp? -a? /etc/skel/? ?/hom…

2017-10-10
Linux干貨

Windows與linux分區的區別：

對于我們普通人來講，分區就是我們看到的“我的電腦”下面的C盤、D盤、E盤······，每個分區都有自己的區域，無法使用別的分區的空間，這樣可以起到保護分區中文件的作用。其實，這樣很容易理解。可是，對于linux初學者來講，因為使用習慣了windows，到了linux下面，一下子很難轉換過來。 &nb…

2017-07-16
LVM基本原理及使用

LVM簡介 LVM全稱Logical Volume Manager(邏輯卷管理)，是將幾個物理分區(或硬盤)通過軟件組合成一塊看起來是獨立大硬盤(VG)，然后對這塊大硬盤分割成可使用的邏輯卷(LV)，最終能夠掛載使用，以達到對磁盤空間進行彈性管理的目的。 LVM的基本原理基本術語 dm(device mapper)：將一個或多個底層塊設備組織成一個邏輯設備…

Linux干貨 2016-04-17
linux 學習筆記

第二周

Linux干貨 2018-03-16
?rsyslog

rsyslog 概述 rsyslog支持的facility與priority facility：設施、信道： priority：級別 rsyslog程序配置文件配置日志記錄級別和路徑配置日志記錄在遠程rsyslog server rsyslog server端 rsyslog client端測試遠程服務器是否記錄日志 rsyslog記錄在MySQL中…

Linux干貨 2016-10-16

欧美性久久久久