我們先看看維基百科的定義

網(wǎng)絡(luò)爬蟲(英語:web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽維網(wǎng)網(wǎng)絡(luò)機器人。

通俗的說爬蟲就是通過一定的規(guī)則策略自動抓取、下載互聯(lián)網(wǎng)上網(wǎng)頁,在按照某些規(guī)則算法對這些網(wǎng)頁進行數(shù)據(jù)抽取、 索引。  像百度、谷歌、今日頭條、包括各類新聞?wù)径际峭ㄟ^爬蟲來抓取數(shù)據(jù)。

  平面設(shè)計培訓(xùn),網(wǎng)頁設(shè)計培訓(xùn),美工培訓(xùn),游戲開發(fā),動畫培訓(xùn)

題外話

博客園里偶爾看到爬蟲的文章,其實很多都稱不上為爬蟲。 只能叫玩具或者叫http請求下載程序吧。。 嚴(yán)格來說爬蟲是一個系統(tǒng),它包含了爬取策略、更新策略、隊列、排重、存儲模塊等部分。 

 

爬蟲的分類

按照抓取網(wǎng)站對象來分類,可以分為2類爬蟲。

1. 通用爬蟲

  類似百度、谷歌這樣的爬蟲,抓取對象是整個互聯(lián)網(wǎng),對于網(wǎng)頁沒有固定的抽取規(guī)則。 對于所有網(wǎng)頁都是一套通用的處理方法。

網(wǎng)友評論