分類導(dǎo)航

趕集網(wǎng)二手商品信息爬取

發(fā)布時(shí)間：2017年05月11日作者： IT網(wǎng)絡(luò)文摘 (該文來自筆記，點(diǎn)擊查看原文)

快一年沒更新博客了，現(xiàn)在總結(jié)一下這大半年來研究、學(xué)習(xí)的知識(shí)，博客陸續(xù)更新中。。。

這個(gè)爬蟲項(xiàng)目是去年4、5月份做的，主要技術(shù)是BeautifulSoup、select、requests、MongoDB、highchart

首先，我們登陸趕集網(wǎng)可以看到二手商品信息的首頁，即爬蟲的起始url是：http://sh.ganji.com/wu/，分析網(wǎng)頁結(jié)構(gòu)可以看到二手商品信息分類中有：手機(jī)、手機(jī)配件、手機(jī)號(hào)碼、筆記本電腦、臺(tái)式機(jī)等20多個(gè)商品分類子頻道，分別打開每個(gè)子頻道的url，可以看到對(duì)應(yīng)的二手商品列表，每個(gè)二手商品列表中的url對(duì)應(yīng)一個(gè)詳細(xì)頁面，我們要獲取的就是每個(gè)詳細(xì)頁面上的信息。

首先，我們定義 headers 部分，headers 包含 User-Agent、Cookie、Referer等信息，這是為了偽裝成瀏覽器的形式，以應(yīng)對(duì)反爬蟲措施。

requests.get解析url：

wb_data = requests.get(url, headers=headers)

BeautifulSoup的lxml解析文本：

soup = BeautifulSoup(wb_data.text, 'lxml')

關(guān)于BeautifulSoup中的各種html解析器，我做了一個(gè)小的研究，html.parser：這是python自帶的，速度上當(dāng)然是沒問題的，但是兼容性不好， python2.7.3以前的版本不兼容；lxml：解析速度很快、兼容性好，但是正因?yàn)槠浣馕鏊俣瓤?，有時(shí)會(huì)出現(xiàn)解析不到數(shù)據(jù)的情況；html5lib：兼容性非常好，解析成功率非常高(有時(shí)用lxml解析不到時(shí)，用html5lib卻能解析到)，但是速度非常慢；綜合這三種html解析器，我覺得lxml是最為折中的。

select選擇器定位文本：

links = soup.select('div.main-pop  dl dt a')

獲取詳細(xì)信息：

        		延伸閱讀
        		
        			
        			ssh框架
        			2016-09-30
        			
        			
        			
        			阿里移動(dòng)安全 [無線安全]玩轉(zhuǎn)無線電——不安全的藍(lán)牙鎖
        			2017-07-26
        			
        			
        			
        			消息隊(duì)列NetMQ 原理分析4-Socket、Session、Option和Pipe
        			2024-03-26
        			
        			
        			
        			Selective Search for Object Recognition 論文筆記【圖片目標(biāo)分割】
        			2017-07-26
        			
        			
        			
        			詞向量-LRWE模型-更好地識(shí)別反義詞同義詞
        			2017-07-26
        			
        			
        			
        			從棧不平衡問題 理解 calling convention
        			2017-07-26
        			
        			
        			
        			php imagemagick 處理 圖片剪切、壓縮、合并、插入文本、背景色透明
        			2017-07-26
        			
        			
        			
        			Swift實(shí)現(xiàn)JSON轉(zhuǎn)Model - HandyJSON使用講解
        			2017-07-26
        			
        			
        			
        			阿里移動(dòng)安全 Android端惡意鎖屏勒索應(yīng)用分析
        			2017-07-26
        			
        			
        			
        			集合結(jié)合數(shù)據(jù)結(jié)構(gòu)來看看(二)
        			2017-07-26
        			
        			
        			
        		
        		
        		學(xué)習(xí)是年輕人改變自己的最好方式

分類導(dǎo)航

趕集網(wǎng)二手商品信息爬取

延伸閱讀

我想了解如何學(xué)習(xí)