使用 goquery 精确匹配多值 HTML class(含空格)的正确方法

html 中 `class="text title"` 表示元素同时拥有 `text` 和 `title` 两个独立 class,而非一个含空格的字符串;goquery 的 css 选择器语法要求用 `.text.title`(无空格、连续点号)来匹配同时具备多个 class 的元素。

在使用 goquery 进行 HTML 解析时,一个常见误区是将 class 属性中的空格误认为是 class 名称的一部分。实际上,根据 HTML 规范,class 属性值是一个以空格分隔的 class 名列表。例如:

Go 

等价于该元素同时具有 text 和 title 两个 class,语义上类似于“属于 text 类别,也属于 title 类别”。

因此,若想用 goquery 精确查找同时拥有 text 和 title 两个 class 的元素,必须使用符合 CSS 选择器标准的写法:.text.title(注意:中间无空格,每个 class 前加 .,连续拼接)。错误写法如 .text title(含空格)会被解析为“后代选择器”,即查找

标签在 .text 元素内部的子元素,显然不符合预期。<p>✅ 正确示例:</p><pre class="brush:php;toolbar:false;">doc.Find(".text.title").Each(func(i int, s *goquery.Selection) { class, _ := s.Attr("class") fmt.Printf("class=%q, text=%q\n", class, s.Text()) }) // 输出:class="text title", text="Go "</pre><p>✅ 若只需匹配任意包含 title 的元素(不管是否还有其他 class),可单独使用:</p><pre class="brush:php;toolbar:false;">doc.Find(".title").Each(func(i int, s *goquery.Selection) { class, _ := s.Attr("class") fmt.Printf("class=%q, text=%q\n", class, s.Text()) }) // 输出:class="text title", text="Go "</pre><p>⚠️ 注意事项:</p> <ul> <li>goquery 完全遵循 W3C CSS 选择器规范,不支持自定义或模糊匹配(如正则、子串匹配);</li> <li>不要尝试 ".text title"(带空格)或 ".text\ title"(转义空格)——这些均无效;</li> <li>如需更复杂的 class 匹配逻辑(例如:class 值中<strong>确实包含空格且作为整体名称</strong>,这在标准 HTML 中非法,但某些非规范场景可能出现),应改用 Filter() 配合 strings.Contains() 或正则手动筛选:<pre class="brush:php;toolbar:false;">doc.Find("span").Filter(func(i int, s *goquery.Selection) bool { class, exists := s.Attr("class") return exists && strings.Contains(class, "text title") // 仅当 class 属性值字面量含该子串时成立 }).Each(/* ... */)</pre></li> </ul> <p>总结:理解 HTML class 属性的语义本质(空格分隔的 token 列表)是正确使用 goquery 选择器的前提;多 class 精确匹配 = 连续点号语法(.a.b.c),零空格、零歧义。</p>