雖然現(xiàn)在網上類似網頁采集器非常之多,但各有各的優(yōu)點,這里給大家分享一款尊天網頁采集器,功能齊全,反應迅速,最主要是綠色免費的。
功能簡介
本軟件通過互聯(lián)網,采集網頁信息。有兩大特色功能:
1,可以采集js之后的動態(tài)信息。
2,可以設定采集的正則表達式。
另外,本軟件內置多種采集方案,分別對應靜態(tài)網頁和動態(tài)網頁。
官網的圖片(人臉)搜索引擎的數(shù)據都是用這個軟件采集,然后才做索引的。
防止網頁采集:防止采集第一種方法:在文章的頭尾加上隨機不固定的內容。網站采集者在采集時,通常都是指定一個開始位置和一個結束位置,截取中間的內容。
使用步驟
1,輸入網址,正常瀏覽網頁到達采集目標后,點擊工具欄上的“查看js后源碼”圖標,則顯示執(zhí)行js后的網頁內容。如果沒有看到相關內容,可以等待片刻再次點擊,以保證js代碼執(zhí)行完畢。通過瀏覽完整的網頁源碼,我們可以確定使用方案1還是方案2。如果更改網址的頁碼就可以導航到下一頁,則使用方案1;如果是通過腳本動態(tài)更新網頁內容,則使用方案2。
2,點擊工具欄上的“運行采集方案”圖標,根據步驟1,選擇方案1或2。如果已經有方案1和2生成的downloadtotal.txt文件,也可以選擇方案3。填入必要的信息或者表達式,點擊“開始采集”按鈕,系統(tǒng)將自動采集。點擊對話框的“取消”按鈕,則不啟動采集任務直接關閉對話框。
3,點擊工具欄上的“停止采集方案”圖標,系統(tǒng)終止采集任務。
注意事項
1,正則表達式不要保留漢字,漢字盡量用.+?代替掉;
2,時間間隔不要設置太短,過短則腳本可能無法執(zhí)行完畢;
3,方案2如果正則表達式沒有匹配,可能是因為時間間隔過短導致,加長時間間隔或許可以。
4,對于網頁源碼中的換行符號可以不理會,采集器會忽略。
5,網頁URL表達式和js表達式中用*代表變化的參數(shù),就如上例中的pageid=*一樣。
6,正則表達式目前只支持.+?,且只能處理一個表達式。
7,方案1和2生成的downloadtotal.txt文件的第一行為正則表達式中包含的.+?數(shù)目,即采集信息項的數(shù)量。
8,正則表達式不要包含回車和換行符號。
9,如果程序提示配置不對無法運行,則下載安裝微軟的vcredist_x86.exe程序即可。
網頁信息如何修改
單改靜態(tài)頁的可以直接打開那個頁面的源碼,想改哪些文字就哪些,其他的不懂就不動,達到效果就行!
動態(tài)的應該有個后臺管理的吧,涉及到數(shù)據庫的,把你要改的部分換成你想要的
網頁錯誤詳細信息
網頁上有錯誤的一般解決方法:
1、點擊“開始”菜單,打開“運行”。
2、輸入regsvr32 jscript.dll后選擇“確定”。出現(xiàn)提示后,點擊確定。
3、再次輸入regsvr32 vbscript.dll選擇“確定”。再一次出現(xiàn)提示后,確定。
4、經過以上兩次成功提示,說明已成功修復IE組件,清除一下瀏覽器的Cookies和緩存,打開ie瀏覽器-上方的工具->Internet選項->刪除Cookies,還有刪除臨時文件。
- PC官方版
- 安卓官方手機版
- IOS官方手機版