Java将XML字符串转Document需用安全配置的DOM解析器:禁用DOCTYPE和外部实体,用ByteArrayInputStream包装UTF-8字节数组解析。
用Java把XML字符串转成Document对象,核心是用DOM解析器(DocumentBuilder),关键在于正确配
置解析器并处理字符串输入流。
准备一个安全的DocumentBuilder
不要直接用DocumentBuilderFactory.newInstance()默认实例——它可能有XXE漏洞或不支持命名空间。要显式禁用外部DTD和实体解析:
- 调用
setFeature("http://apache.org/xml/features/disallow-doctype-decl", true) - 调用
setFeature("http://xml.org/sax/features/external-general-entities", false) - 调用
setFeature("http://xml.org/sax/features/external-parameter-entities", false) - 可选:调用
setNamespaceAware(true)(如果XML含命名空间)
把字符串转成InputStream再解析
DocumentBuilder.parse()不直接接受字符串,需先转为字节流。推荐用ByteArrayInputStream,并指定UTF-8编码避免乱码:
- 用
xmlString.getBytes(StandardCharsets.UTF_8)获取字节数组 - 包装成
new ByteArrayInputStream(bytes) - 传给
builder.parse(inputStream)
完整示例代码
以下是一个简洁、健壮的工具方法:
public static Document stringToDocument(String xml) throws Exception {
DocumentBuilderFactory factory = DocumentBuilderFactory.newInstance();
factory.setFeature("http://apache.org/xml/features/disallow-doctype-decl", true);
factory.setFeature("http://xml.org/sax/features/external-general-entities", false);
factory.setFeature("http://xml.org/sax/features/external-parameter-entities", false);
factory.setNamespaceAware(false);
DocumentBuilder builder = factory.newDocumentBuilder();
return builder.parse(new ByteArrayInputStream(xml.getBytes(StandardCharsets.UTF_8)));
}
调用时捕获ParserConfigurationException、SAXException、IOException即可。
注意点
如果XML字符串开头有BOM(如UTF-8 BOM \uFEFF),可能导致解析失败。可在解析前用xml.stripLeading()(Java 11+)或正则去掉首部不可见字符;或者用InputStreamReader配合InputSource更精细控制编码。
基本上就这些。不复杂但容易忽略安全配置和编码处理。








