更新時(shí)間:2021-04-12 來(lái)源:黑馬程序員 瀏覽量:
了解了網(wǎng)頁(yè)的數(shù)據(jù)和結(jié)構(gòu)以后,我們可以借助網(wǎng)頁(yè)解析器(用于解析網(wǎng)頁(yè)的工具)從網(wǎng)頁(yè)中解析和提取出有價(jià)值的數(shù)據(jù),或者是新的URL列表,過(guò)程如圖1所示。為此,Python支持一些解析網(wǎng)頁(yè)的技術(shù),分別為正則表達(dá)式、XPath、Beautiful Soup和JSONPath,其中:
針對(duì)文本的解析,有正則表達(dá)式;
針對(duì)HTML/XML的解析,有XPath、Beautiful Soup、正則表達(dá)式;
針對(duì)JSON的解析,有JSONPath。
圖1 解析網(wǎng)頁(yè)的示意圖
那么,這幾種技術(shù)有什么區(qū)別呢?
正則表達(dá)式基于文本的特征來(lái)匹配或查找指定的數(shù)據(jù),它可以處理任何格式的字符串文檔,類似于模糊匹配的效果。
XPath和Beautiful Soup基于HTML/XML文檔的層次結(jié)構(gòu)來(lái)確定到達(dá)指定節(jié)點(diǎn)的路徑,所以它們更適合處理層級(jí)比較明顯的數(shù)據(jù)。
JSONPath專門用于JSON文檔的數(shù)據(jù)解析。
針對(duì)不同的網(wǎng)頁(yè)解析技術(shù),Python分別提供了不同的模塊或者庫(kù)來(lái)支持。其中,re模塊支持正則表達(dá)式語(yǔ)法的使用,lxml庫(kù)支持XPath語(yǔ)法的使用,json模塊支持JSONPath語(yǔ)法的使用。此外,Beautiful Soup本身就是一個(gè)Python庫(kù),官方推薦使用beautifulsoup4進(jìn)行開(kāi)發(fā)。
正則表達(dá)式、XPath和Beautiful Soup都能實(shí)現(xiàn)網(wǎng)頁(yè)的解析,那么實(shí)際開(kāi)發(fā)中應(yīng)該如何選擇呢?接下來(lái),通過(guò)一張表來(lái)比較一下re、lxml和beautifulsoup4的性能,如表1所示。
表1 解析工具的性能比較
抓取工具 | 速度 | 使用難度 | 安裝難度 |
---|---|---|---|
re | 最快 | 困難 | 無(wú)(內(nèi)置) |
lxml | 快 | 簡(jiǎn)單 | 一般 |
beautifulsoup4 | 慢 | 最簡(jiǎn)單 | 簡(jiǎn)單 |
此外,lxml只能局部遍歷樹(shù)結(jié)構(gòu),而beautifulsoup4是載入整個(gè)文檔,并轉(zhuǎn)換成整個(gè)樹(shù)結(jié)構(gòu)。因此,beautifulsoup4需要花費(fèi)更多的時(shí)間和內(nèi)存,性能會(huì)稍低于lxml。
通過(guò)表1中對(duì)三種技術(shù)的比較,大家在實(shí)際開(kāi)發(fā)中可根據(jù)具體情況選擇適合自己的技術(shù)。
猜你喜歡:
Python爬蟲(chóng)難學(xué)嗎?學(xué)會(huì)需要多久?
網(wǎng)絡(luò)爬蟲(chóng)獲取數(shù)據(jù)的5種方式【Python爬蟲(chóng)】
什么是文件拷貝?文件拷貝的原理是什么?
2021-04-12Python怎樣向文件中寫(xiě)入數(shù)據(jù)和字符串序列?
2021-04-12while循環(huán)嵌套和for循環(huán)嵌套語(yǔ)法格式介紹【Python學(xué)習(xí)教程】
2021-04-12python培訓(xùn)哪個(gè)靠譜?【百度云資源】python視頻教程完整版
2021-04-08Redis中l(wèi)ist底層的實(shí)現(xiàn)方式與區(qū)別【pytho面試題】
2021-04-02pymongo常用的幾種交互對(duì)象【Python技術(shù)文章】
2021-04-01