如何使用Golang net/mail解析邮件内容_获取头信息和正文

Go 标准库 net/mail 可解析 RFC 5322 邮件头和原始正文,但不支持 MIME 解码与 multipart 展开;需结合 mime、base64 等包手动解码头字段、识别 Content-Type、拆分 multipart、解码传输编码并按 charset 转字符串。

Go 标准库 net/mail 提供了轻量、可靠的方式解析 RFC 5322 格式的邮件(如 .eml 文件或原始邮件字符串),但不支持 MIME 解码(如 base64、quoted-printable)或多部分(multipart)结构的自动展开。要正确提取头信息和正文,需结合 net/textprotomime 包处理编码与结构。

读取并解析邮件头和原始正文

使用 mail.ReadMessage 可快速获取头字段和未解码的正文字节:

  • 传入一个 io.Reader(如 strings.NewReader(rawEmail) 或文件流)
  • 返回 *mail.Message,其 Header 是映射(key 不区分大小写,值为字符串切片)
  • Bodyio.Reader,读出的是原始(可能编码、含 MIME 边界)内容,不是可读文本

示例:
  msg, err := mail.ReadMessage(strings.NewReader(emlData))
  if err != nil { panic(err) }
  from := msg.Header.Get("From") // 自动合并多行、去空格
  subject := msg.Header.Get("Subject") // 含编码时仍是原始值(如 =?UTF-8?B?...?=)

解码邮件头中的 MIME 编码字段(如 Subject、To)

很多中文/特殊字符的头字段使用 encoded-word(RFC 2047),需用 mime.DecodeWord 逐个解码:

  • Header.Get("Subject") 等结果调用 mime.DecodeWord
  • 它返回解码后的字符串和剩余未处理部分;需循环处理直到无剩余
  • 推荐封装为辅助函数,如 decodeHeader(s string) (string, error)

注意:标准库不自动解码头字段,必须手动处理,否则看到的是乱码或编码串。

安全提取纯文本正文(处理 multipart 和编码)

net/mail 不解析 MIME 结构,因此遇到 Content-Type: multipart/mixedtext/html 时,msg.Body 就是原始边界内容。需:

  • 先从 Header.Get("Content-Type") 获取类型,并用 mime.ParseMediaType 解析参数(如 charset
  • 若为 multipart/*,用 mime.Reader 拆分各部分,遍历寻找 text/plain 部分
  • 对每个 part 的 Body,检查 Content-Transfer-Encoding(如 base64),用 base64.NewDecoderquotedprintable.NewReader 解码
  • 最后按 charset(如 utf-8)将字节转为字符串

小提示:优先找 text/plain,没有则降级用 text/html 并简单去标签(或交给专门 HTML 清洗库)。

实用建议与常见陷阱

  • 不要直接 io.ReadAll(msg.Body) 处理 multipart 邮件——会得到带边界的乱码
  • Header.Get 返回的值已自动折叠换行、去除前后空格,但未解码 MIME 单词
  • 日期字段(Date)可用 time.Parse(time.RFC1123Z, header.Get("Date")) 解析,注意时区
  • 附件名、发件人昵称等也常被 MIME 编码,同样需 mime.DecodeWord
  • 若需完整 MIME 支持(如嵌套 multipart、附件提取),建议用第三方库如 go-message