更新時間:2022-10-14 來源:黑馬程序員 瀏覽量:
1.Jsoup介紹
- 官網文檔:https://jsoup.org
- Jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數(shù)據。
2. Jsoup快速入門
- 獲取網頁標題
String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1"; Document document = Jsoup.connect(url).get(); String title = document.select("title").text(); System.out.println(title); ```
- 運行效果:手機 - 商品搜索 - 京東
3. 網站數(shù)據分析
3.1 分析網站的訪問地址
- 以京東商城為例,商品分頁列表的url地址,需要帶如下幾個參數(shù),因此,在發(fā)送http請求時,需要攜帶正確的參數(shù)。
- URL:https://search.jd.com/Search?keyword=手機&wq=手機&page=1
3.2 分析網站的頁面結構
- 通過瀏覽器的開發(fā)者工具,可以分析出頁面中我們需要的html結構。
<img src="assets/image-20220717171103097.png" alt="image-20220717171103097" style="zoom:67%;" />
- 可以看出,我們需要的商品數(shù)據,封裝在一個id=J_goodsList的div標簽中,我們可以方便的通過DOM解析出這塊數(shù)據。
4. 實戰(zhàn)實現(xiàn)過程
- 獲取第1頁的商品基本數(shù)據
public static void main(String[] args) throws Exception { //第1頁地址 String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=1"; //發(fā)送http請求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽 Elements lis = document.select("div[id=J_goodsList] li[data-sku]"); lis.forEach( li -> { //獲取商品sku String sku = li.attr("data-sku"); //獲取商品name String name = li.select("div[class='p-name p-name-type-2'] a em").text(); //獲取商品圖片地址 String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img"); System.out.println(String.format("%s, %s, %s", sku, name, img)); } ); }
- 效果預覽
- 改造為分頁獲取
public static void main(String[] args) throws Exception { //第N頁地址 String url = "https://search.jd.com/Search?keyword=手機&wq=手機&page=" + i; //發(fā)送http請求 Document document = Jsoup.connect(url).get(); //在id=J_goodsList的div下,獲取所有帶有data-sku屬性的li標簽 Elements lis = document.select("div[id=J_goodsList] li[data-sku]"); lis.forEach( li -> { //獲取商品sku String sku = li.attr("data-sku"); //獲取商品name String name = li.select("div[class='p-name p-name-type-2'] a em").text(); //獲取商品圖片地址 String img = li.select("div[class=p-img] a img[data-lazy-img]").attr("data-lazy-img"); System.out.println(String.format("%s, %s, %s", sku, name, img)); } ); }