一、前言
上一篇演示了如何使用requests模塊向網(wǎng)站發(fā)送http請求,獲取到網(wǎng)頁的HTML數(shù)據(jù)。這篇來演示如何使用BeautifulSoup模塊來從HTML文本中提取我們想要的數(shù)據(jù)。
update on 2016-12-28:之前忘記給BeautifulSoup的官網(wǎng)了,今天補上,順便再補點BeautifulSoup的用法。
二、運行環(huán)境
我的運行環(huán)境如下:
系統(tǒng)版本
Windows10。Python版本
Python3.5,推薦使用Anaconda 這個科學(xué)計算版本,主要是因為它自帶一個包管理工具,可以解決有些包安裝錯誤的問題。去Anaconda官網(wǎng),選擇Python3.5版本,然后下載安裝。IDE
我使用的是PyCharm,是專門為Python開發(fā)的IDE。這是JetBrians的產(chǎn)品,點我下載。