Java怎么把XML字符串转换成Document对象

Java将XML字符串转Document需用安全配置的DOM解析器:禁用DOCTYPE和外部实体,用ByteArrayInputStream包装UTF-8字节数组解析。

用Java把XML字符串转成Document对象,核心是用DOM解析器(DocumentBuilder),关键在于正确配置解析器并处理字符串输入流。

准备一个安全的DocumentBuilder

不要直接用DocumentBuilderFactory.newInstance()默认实例——它可能有XXE漏洞或不支持命名空间。要显式禁用外部DTD和实体解析:

  • 调用setFeature("http://apache.org/xml/features/disallow-doctype-decl", true)
  • 调用setFeature("http://xml.org/sax/features/external-general-entities", false)
  • 调用setFeature("http://xml.org/sax/features/external-parameter-entities", false)
  • 可选:调用setNamespaceAware(true)(如果XML含命名空间)

把字符串转成InputStream再解析

DocumentBuilder.parse()不直接接受字符串,需先转为字节流。推荐用ByteArrayInputStream,并指定UTF-8编码避免乱码:

  • xmlString.getBytes(StandardCharsets.UTF_8)获取字节数组
  • 包装成new ByteArrayInputStream(bytes)
  • 传给builder.parse(inputStream)

完整示例代码

以下是一个简洁、健壮的工具方法:

public static Document stringToDocument(String xml) throws Exception {
    DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
    factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
    factory.setFeature("http://xml.org/sax/features/external-general-entities", false);
    factory.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
    factory.setNamespaceAware(false);

    DocumentBuilder builder = factory.newDocumentBuilder();
    return builder.parse(new ByteArrayInputStream(xml.getBytes(StandardCharsets.UTF_8)));
}

调用时捕获ParserConfigurationExceptionSAXExceptionIOException即可。

注意点

如果XML字符串开头有BOM(如UTF-8 BOM \uFEFF),可能导致解析失败。可在解析前用xml.stripLeading()(Java 11+)或正则去掉首部不可见字符;或者用InputStreamReader配合InputSource更精细控制编码。

基本上就这些。不复杂但容易忽略安全配置和编码处理。