摘要
上一篇以知乎網(wǎng)為例簡單分享網(wǎng)絡(luò)請求分析。這一篇主要分享一種應(yīng)對反爬蟲的方法,前端數(shù)據(jù)混淆。
目的
之前寫https://github.com/wycm/zhihu-crawler項目的時候,需要用到免費的http代理,然后找到了這個 http://www.goubanjia.com/ 這個網(wǎng)站?,F(xiàn)在需要把這個網(wǎng)站上的ip和port爬取下來,有興趣的朋友也可以嘗試自己爬取一下。
開始
打開這個網(wǎng)站首頁,然后控制臺查看ip和port的對應(yīng)標(biāo)簽。
如上圖(圖一),從控制臺的標(biāo)簽中可以看出ip加了一些無關(guān)不顯示的標(biāo)簽來混淆數(shù)據(jù),這里混淆的原理其實很簡單,通過標(biāo)簽的
style="display:none"
屬性來達(dá)到混淆的目的,也就是包含這個屬性的標(biāo)簽是不會顯示在頁面上的。知道了這一點就比較好處理了,只需要在解析的時候把包含style="display:none"
屬性的標(biāo)簽去掉。就可以輕松的拿到ip和port數(shù)據(jù)了。代碼如下