本軟件屬于網(wǎng)絡類應用軟件,在Windows平臺使用的網(wǎng)絡圖片爬取工具,主要功能為根據(jù)提供的網(wǎng)站地址,分析網(wǎng)頁源碼獲取網(wǎng)站的圖片資源,能夠?qū)崿F(xiàn)簡單分類并存儲到數(shù)據(jù)庫和硬盤中。
貝殼圖片爬取工具使用方法
(1)本技術(shù)需配合SQL Server數(shù)據(jù)庫使用,請參考附錄安裝SQL Server 2008。
(2)獲取圖片
在獲取圖片時,需要用戶自己輸入要抓取的根網(wǎng)址,這里的根網(wǎng)址需要保證其真實存在,如果不存在則會提示網(wǎng)頁源代碼獲取失敗,從而導致任務啟動失敗。
(3)搜索參數(shù)設置
在搜索參數(shù)設置的時候,需要慎重考慮其各個參數(shù)之間的制約關(guān)系,有以下幾種情況需要說明。
如果搜索深度設置過大,那么就需要將抓取數(shù)據(jù)容量設置的大一些,否則任務會因為抓取容量不足而被迫停止抓取工作。
如果能夠保證自己的網(wǎng)絡連接正常,則選擇不使用代理服務器。因為使用代理服務器,在任務執(zhí)行過程中,如果代理服務器失效或者停止活動,則需要重新選擇代理服務器,這中間會耗費大量時間來更換代理服務器。
在選擇開始執(zhí)行時間時,不易將執(zhí)行時間設置的過長,因為設置的過長會使任務長期處于等待狀態(tài),建議只有在任務較少的情況下這樣設置。
(4)關(guān)鍵字管理
在關(guān)鍵字管理中,需要注意的是在添加主關(guān)鍵字的時候,要同時添加一個與主關(guān)鍵字名字相同的子關(guān)鍵字,因為在圖片進行分類的時候,首先比對的是子關(guān)鍵字,只有子關(guān)鍵字匹配之后才能確定其分類歸屬。
另外需要注意的是,刪除主關(guān)鍵字時會將與其相關(guān)的所有子關(guān)鍵字一同刪除。
(5)多任務
鑒于對任務耗費資源的考慮,同時執(zhí)行的任務個數(shù)設定為5個,超過5個的任務只能處于等待狀態(tài),只有5個被執(zhí)行任務中有結(jié)束的,處于等待的任務才能被執(zhí)行。
- PC官方版
- 安卓官方手機版
- IOS官方手機版