分類導航

[開源 .NET 跨平臺 Crawler 數(shù)據(jù)采集爬蟲框架: DotnetSpider] [五] 如何做全站采集?

發(fā)布時間：2017年05月16日作者：IT網(wǎng)絡文摘

如何做全站采集?

很多同學加群都在問, 如何使用DotnetSpider做全站采集呢? 其實很簡單, 只要你們想通爬蟲的整個邏輯就能明白了。簡而言之，步驟如下：

1. 使用指定URL下載HTML

2. 分析, 保存HTML數(shù)據(jù)

3. 從HTML中分析出符合規(guī)則的新的URL, 并用新URL重復 1,2,3步驟, 直到再也無法發(fā)現(xiàn)新的URL

邏輯是簡單的, 但其中涉及到的細節(jié)不少，如多線程、URL去重、遍歷深度等, 但是不用擔心, 這些也正是框架應該去做的事情, 大家只需要關注業(yè)務邏輯就好。