如何使用 JSONata 对 JSON 响应进行分组聚合与结构重组

本文详解如何利用 jsonata 的上下文变量(特别是 $$)对嵌套数组按字段分组、聚合数值,并重构为全新结构,解决常见聚合失效问题。

在 API 响应处理或 ETL 场景中,常需将扁平化的原始 JSON 数组按某字段(如 enterpriseid)分组,并对数值字段(如 bookingvalue)求和,最终输出结构清晰的聚合结果。JSONata 是专为 JSON 转换设计的轻量级查询语言,其函数式语法强大但上下文敏感——尤其在嵌套操作中,当前上下文($)易被隐式切换,导致路径解析失败

以原始数据为例:

{
  "response": [
    {"enterpriseid": 53898, "enterprise": " Absolute F and B Facilities Management LLC ", "bookingvalue": 46},
    {"enterpriseid": 53898, "enterprise": " Absolute F and B Facilities Management LLC ", "bookingvalue": 275},
    {"enterpriseid": 53898, "enterprise": " Absolute F and B Facilities Management LLC ", "bookingvalue": 199.5},
    {"enterpriseid": 53899, "enterprise": " testing Buyer ", "bookingvalue": 200}
  ]
}

目标是按 enterpriseid 合并重复项,累加 bookingvalue,并包裹进 "output" 数组。

✅ 正确写法:用 $$ 显式锚定根上下文

错误写法(如题中所试):

{
  "output": $distinct(response.{
    "enterpriseid": enterpriseid,
    "enterprise": enterprise,
    "bookingvalue": $sum($filter(response, function($item) {$item.enterpriseid = enterpriseid}).bookingvalue)
  })
}

问题在于:$filter(response, ...) 中的 response 在 $distinct 内部执行时,$ 指向的是当前迭代对象(即单个 {enterpriseid, enterprise, bookingvalue}),而非原始根对象,因此 response 未定义,$sum 返回 null。

正确解法是使用 $$ 引用原始输入根节点

{
  "output": $distinct(response.{
    "enterpriseid": enterpriseid,
    "enterprise": enterprise,
    "bookingvalue": $sum($filter($$.response, function($item) { $item.enterpriseid = enterpriseid }).bookingvalue)
  })
}
  • $$ → 指向最外层输入 JSON(即包含 "response" 的整个对象)
  • $$.response → 稳定获取原始响应数组,不受内部迭代影响
  • $filter(...).bookingvalue → 提取所有匹配 enterpriseid 的 bookingvalue 值
  • $sum(...) → 对提取值进行数值累加(自动忽略非数字项)

? 执行效果

该表达式输出完全符合预期:

{
  "output": [
    {
      "enterpriseid": 53898,
      "enterprise": " Absolute F and B Facilities Management LLC ",
      "bookingvalue": 520.5
    },
    {
      "enterpriseid": 53899,
      "enterprise": " testing Buyer ",
      "bookingvalue": 200
    }
  ]
}

⚠️ 注意事项与最佳实践

  • $$ 不是万能钥匙:仅在需跳出当前上下文访问原始数据时使用;过度依赖会降低可读性。
  • 字符串空格处理:示例中 enterprise 字段含首尾空格(如 " testing Buyer "),若需标准化,可追加 $trim(enterprise)。
  • 类型安全:$sum 会自动跳过非数字值,但建议确保 bookingvalue 字段为数字类型;若为字符串,先用 $number(bookingvalue) 转换。
  • 性能

    提示
    :对大数据集,$filter + $sum 属 O(n²) 复杂度;如需更高性能,可先用 $groupby(JSONata v1.8+)优化:
    {
      "output": $$.response.$groupby(enterpriseid).{
        "enterpriseid": $key,
        "enterprise": $first(enterprise),
        "bookingvalue": $sum(bookingvalue)
      }
    }

掌握 $$ 的语义与适用场景,是写出健壮、可维护 JSONata 表达式的关键一步。推荐在 JSONata Exerciser 中实时验证逻辑,快速定位上下文问题。