之前一直不太了解分布式爬蟲(chóng)設(shè)計(jì)思路,于是在github上搜了一個(gè)簡(jiǎn)易的分布式爬蟲(chóng),學(xué)習(xí)了一下實(shí)現(xiàn)思路,并做一下對(duì)應(yīng)筆記

分布式爬蟲(chóng)主要涉及到三個(gè)方面。

1.模擬登錄;

2.master廣度遍歷,將待爬頁(yè)push到隊(duì)列(redis);

3.slave從redis中取出待爬頁(yè),進(jìn)行深度遍歷

下面分三個(gè)方面分別闡述,以知乎為例。

一.模擬登錄

1.首先可以自己手動(dòng)登陸一次,注意登陸時(shí)post的數(shù)據(jù)以及url

這里post數(shù)據(jù)格式為:

Android培訓(xùn),安卓培訓(xùn),手機(jī)開(kāi)發(fā)培訓(xùn),移動(dòng)開(kāi)發(fā)培訓(xùn),云培訓(xùn)培訓(xùn)

        		

網(wǎng)友評(píng)論