WebMagic是java上面經(jīng)常的需要的一款爬蟲類型的工具了,現(xiàn)在就可以試試最新的0.7.3版本,功能以及使用上面都是完全的免費的,歡迎大家試試!
WebMagic中文版功能
WebMagic是一個簡單靈活的Java爬蟲框架;赪ebMagic,你可以快速開發(fā)出一個高效、易維護的爬蟲。webmagic采用完全模塊化的設計,功能覆蓋整個爬蟲的生命周期(鏈接提取、頁面下載、內(nèi)容抽取、持久化),支持多線程抓取,分布式抓取,并支持自動重試、自定義UA/cookie等功能。
WebMagic常見問題
(1)由于我這個爬蟲的抓取有分頁,而且它的分頁通過js跳轉(zhuǎn)的,抽取出來感覺有點麻煩,我想直接得到所有的信息,發(fā)現(xiàn)可以通過輸入url地址請求得到所有的信息(這是網(wǎng)站的一個小問題,它沒有設置每頁數(shù)據(jù)記錄條數(shù)的范圍),但是需要登錄才可以進行url地址的訪問,就要使用cookie模擬登錄。
(2)下面分析有關(guān)登錄信息的cookie,我使用的是chrome,點擊如圖位置,會看到此網(wǎng)站的cookie,(如果已經(jīng)訪問了一段時間了,可以清除所有cookie然后重新登錄再訪問,否則可能會有很多的cookie,分析起來不方便),由于只有5個cookie,直接加上就可以訪問了
WebMagic 0.7.3更新內(nèi)容
本次更新增加了Downloader模塊的一些功能。
#609 修復HttpRequestBody沒有默認構(gòu)造函數(shù)導致無法反序列化的bug。
#631 HttpRequestBody的靜態(tài)構(gòu)造函數(shù)不再拋出UnsupportedEncodingException受檢異常。
#571 Page對象增加bytes屬性,用于獲取二進制數(shù)據(jù)。下載純二進制頁面時,請設置request.setBinarayContent(true),這樣對于二進制內(nèi)容不會嘗試轉(zhuǎn)換為String,減小開銷。
#629 在HttpUriRequestConverter中會自動對一些導致URI異常的字符進行轉(zhuǎn)移或過濾。
#610 自動識別編碼時,可以識別Content-Type中charset為大寫的情況。
#627 支持為Request單獨設置頁面編碼,兼容同一站點多種編碼方式的情況。
#613 Page對象增加charset屬性,其值為request/site中設置的charset,或者為自動檢測的charset(未定義時)。
#606 升級jsonpath到2.4.0
#608 升級jsoup到1.10.3
- PC官方版
- 安卓官方手機版
- IOS官方手機版