使用 Jsoup 解析特定菜单组中的元素_技术教程

本文档旨在指导开发者如何使用 Jsoup 库从 HTML 页面中提取特定菜单组下的元素，尤其是在页面结构复杂，包含多个相似的卡片式结构时。通过精确定位目标菜单组，并利用其唯一的标识符，我们可以有效地提取所需的数据，避免抓取整个页面的信息。

目标

假设我们需要从一个包含多个菜单组的网页中，仅提取特定菜单组（例如 "Freshen's"）下的所有 row recipe_container div 元素。网页结构如下：

  
    
      
      
        ...
        
          
            
              
                
                  
                    " Freshen's "
                  
                
              
              
                
                  ...
                  ...
                  ...
                  ...
                  ...
                  ...

解决方案

以下是使用 Jsoup 实现此目标的 Java 代码：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;

public class JsoupMenuScraper {

    public static void main(String[] args) throws IOException {
        String pageUrl = "your_page_url_here"; // 替换为你的网页URL
        String inputMenuHeading = "Freshen's";

        // 1. 连接到网页并解析 HTML
        Document doc = Jsoup.connect(pageUrl).get();

        // 2. 找到包含目标菜单标题的 card-header 元素，并提取 data-target 属性
        String targetId = doc.select("[class=card-header][id*=menu_group_heading]")
                .stream()
                .filter(e -> e.html().contains(inputMenuHeading))
                .findFirst()
                .map(e -> e.select("a").attr("data-target"))
                .orElse(null);

        // 3. 如果找到了目标 ID，则选择目标菜单组下的所有 row recipe_container 元素
        if (targetId != null && !targetId.isEmpty()) {
            Elements result = doc.select(String.format("%s .card-body .row.recipe_container", targetId));

            // 4. 打印结果或进行其他处理
            System.out.println("Found " + result.size() + " recipe containers for " + inputMenuHeading + ":");
            for (Element element : result) {
                System.out.println(element.outerHtml()); // 打印整个元素
                // 或者提取特定数据
                // System.out.println(element.text()); // 打印文本内容
            }
        } else {
            System.out.println("Menu heading '" + inputMenuHeading + "' not found.");
        }
    }
}

代码解释：

连接并解析 HTML： 使用 Jsoup.connect(pageUrl).get() 连接到目标网页并将其解析为 Document 对象。
查找目标菜单标题：
- doc.select("[class=card-header][id*=menu_group_heading]") 选择所有 class 为 card-header 且 id 包含 menu_group_heading 的元素。
- .stream().filter(e -> e.html().contains(inputMenuHeading)) 过滤出包含指定菜单标题的元素。
- .findFirst().map(e -> e.select("a").attr("data-target")) 获取第一个匹配元素的 a 标签的 data-target 属性值。
- .orElse(null) 如果没有找到匹配的元素，则返回 null。
选择目标元素：
- doc.select(String.format("%s .card-body .row.recipe_container", targetId)) 使用 targetId 构建 CSS 选择器，选择指定 ID 下的 card-body 元素内部的所有 class 同时包含 row 和 recipe_container 的元素。
打印结果： 遍历 result 集合，打印每个元素的 HTML 或提取所需的数据。

注意事项：

URL 替换： 将 your_page_url_here 替换为实际的网页 URL。
异常处理： 在实际应用中，需要添加适当的异常处理，例如 try-catch 块，以处理网络连接错误或 HTML 解析错误。
CSS 选择器： 根据实际网页结构调整 CSS 选择器。
orElse(null)： 确保在找不到目标菜单标题时，程序不会抛出 NoSuchElementException 异常。
数据提取： element.outerHtml() 打印整个元素的 HTML，你可以使用其他 Jsoup 方法（如 element.text()、element.attr("属性名")）提取特定的数据。
网页结构变化： 网页结构可能会发生变化，需要定期检查并更新代码。