^{<noscript id="r8yqj"></noscript>}

IT網(wǎng)絡(luò)文摘的軟件學(xué)習(xí)筆記

學(xué)習(xí)就是力量

分類導(dǎo)航

從零實現(xiàn)一個高性能網(wǎng)絡(luò)爬蟲（二）應(yīng)對反爬蟲之前端數(shù)據(jù)混淆

發(fā)布時間：2017年05月20日作者：IT網(wǎng)絡(luò)文摘

摘要

上一篇以知乎網(wǎng)為例簡單分享網(wǎng)絡(luò)請求分析。這一篇主要分享一種應(yīng)對反爬蟲的方法，前端數(shù)據(jù)混淆。

目的

之前寫https://github.com/wycm/zhihu-crawler項目的時候，需要用到免費的http代理，然后找到了這個 http://www.goubanjia.com/ 這個網(wǎng)站?，F(xiàn)在需要把這個網(wǎng)站上的ip和port爬取下來，有興趣的朋友也可以嘗試自己爬取一下。

開始

打開這個網(wǎng)站首頁，然后控制臺查看ip和port的對應(yīng)標(biāo)簽。
如上圖（圖一），從控制臺的標(biāo)簽中可以看出ip加了一些無關(guān)不顯示的標(biāo)簽來混淆數(shù)據(jù)，這里混淆的原理其實很簡單，通過標(biāo)簽的style="display:none"屬性來達(dá)到混淆的目的，也就是包含這個屬性的標(biāo)簽是不會顯示在頁面上的。知道了這一點就比較好處理了，只需要在解析的時候把包含style="display:none"屬性的標(biāo)簽去掉。就可以輕松的拿到ip和port數(shù)據(jù)了。
代碼如下

網(wǎng)友評論

更多精彩分享

學(xué)習(xí)是年輕人改變自己的最好方式-Java培訓(xùn)機(jī)構(gòu),青島Java培訓(xùn),青島計算機(jī)培訓(xùn),軟件編程培訓(xùn),seo優(yōu)化培訓(xùn),網(wǎng)絡(luò)推廣培訓(xùn),網(wǎng)絡(luò)營銷培訓(xùn),SEM培訓(xùn),網(wǎng)絡(luò)優(yōu)化,在線營銷培訓(xùn),Java培訓(xùn)

學(xué)習(xí)是年輕人改變自己的最好方式