全國(guó)咨詢(xún)/投訴熱線:400-618-4000

首頁(yè)常見(jiàn)問(wèn)題正文

通用網(wǎng)絡(luò)爬蟲(chóng)和聚焦網(wǎng)絡(luò)爬蟲(chóng)有什么區(qū)別?

更新時(shí)間:2023-05-09 來(lái)源:黑馬程序員 瀏覽量:

IT培訓(xùn)班

通用網(wǎng)絡(luò)爬蟲(chóng)

  通用網(wǎng)絡(luò)爬蟲(chóng)(General Purpose Web Crawler)又稱(chēng)全網(wǎng)爬蟲(chóng)(Scalable Web Crawler),是指訪問(wèn)全互聯(lián)網(wǎng)資源的網(wǎng)絡(luò)爬蟲(chóng)。通用網(wǎng)絡(luò)爬蟲(chóng)是“互聯(lián)網(wǎng)時(shí)代”早期出現(xiàn)的傳統(tǒng)網(wǎng)絡(luò)爬蟲(chóng),它是搜索引擎(如百度、谷歌、雅虎等)抓取系統(tǒng)的重要組成部分,主要用于將互聯(lián)網(wǎng)中的網(wǎng)頁(yè)下載到本地,形成一個(gè)互聯(lián)網(wǎng)網(wǎng)頁(yè)的鏡像備份。進(jìn)用網(wǎng)絡(luò)爬蟲(chóng)的目標(biāo)是全互聯(lián)網(wǎng)資源,數(shù)量巨大且范圍廣泛。

這類(lèi)網(wǎng)絡(luò)爬蟲(chóng)對(duì)爬行速度和存儲(chǔ)空間的要求是非常高的,但是對(duì)抓取網(wǎng)頁(yè)的順序的要求相對(duì)較低。

聚焦網(wǎng)絡(luò)爬蟲(chóng)

  聚焦網(wǎng)絡(luò)爬蟲(chóng)(Focused Web Crawler)又稱(chēng)主題網(wǎng)絡(luò)爬蟲(chóng)(Topical Web Crawler),是指有選擇性地訪問(wèn)那些與預(yù)定主題相關(guān)的網(wǎng)頁(yè)的網(wǎng)絡(luò)爬蟲(chóng)。它根據(jù)預(yù)先定義好的目標(biāo),有選擇性地訪問(wèn)與目標(biāo)主題相關(guān)的網(wǎng)頁(yè),獲取所需要的數(shù)據(jù)。

與通用網(wǎng)絡(luò)爬蟲(chóng)相比,聚焦網(wǎng)絡(luò)爬蟲(chóng)只需要訪問(wèn)與預(yù)定主題相關(guān)的網(wǎng)頁(yè),這不僅減少了訪問(wèn)和保存的頁(yè)面數(shù)量口而且提高了網(wǎng)頁(yè)的更新速度??梢?jiàn),聚焦網(wǎng)絡(luò)爬蟲(chóng)在一定程度上節(jié)省了網(wǎng)絡(luò)資源,能滿(mǎn)足一些特定人群采集特定領(lǐng)域數(shù)據(jù)的需求。


分享到:
在線咨詢(xún) 我要報(bào)名
和我們?cè)诰€交談!