如何通过认证令牌调用巴西电影分级查询 API 实现自动化搜索

本文详解如何正确调用巴西司法部电影分级门户(classindportal.mj.gov.br)的受保护搜索接口,解决因缺失 oauth2 认证令牌导致的 400 bad request 错误,并提供可运行的 python 示例代码及数据处理方案。

巴西司法部下属的电影分级查询系统(ClassInd Portal)采用严格的 API 访问控制机制:所有对 /api/solicitacao-classificacao-consultas/list 的 POST 请求均需携带有效的 Bearer Token,该 Token 必须通过其统一身份认证服务(SSO)获取。直接发送未授权的请求(如仅传 {'tituloBr': 'shrek'})会因缺少认证头而被拒绝,返回 HTTP 400 错误——这并非参数或 URL 错误,而是身份验证失败的明确信号。

要成功调用该接口,需分两步执行:

  1. 获取访问令牌(Access Token)
    向 Keycloak 认证服务器发起 client_credentials 类型的 OAuth2 请求:

    token_url = "https://sso.mj.gov.br/auth/realms/PRD/protocol/openid-connect/token"
    token_data = {
        "client_id": "classind-consultapublica-frontend",
        "client_secret": "4PmaBa8bBeVow40SKFNb7qNHzAxuLoqz",
        "grant_type": "client_credentials",
        "scope": "classind-backend"
    }
    token = requests.post(token_url, data=token_data).json()["access_token"]
  2. 携带令牌发起搜索请求
    注意:接口期望 application/json 格式请求体(使用 json= 参数),而非 data=;同时必须设置完整且匹配前端行为的请求头,尤其是 Authorization: Bearer 、Origin 和 Referer:

    headers = {
        "Accept": "application/json, text/plain, */*",
        "Authorization": f"Bearer {token}",
        "Origin": "https://classindportal.mj.gov.br",
        "Referer": "https://classindportal.mj.gov.br/consulta-filmes",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36",
        # 其他必要头字段(见完整示例)
    }
    
    json_payload = {
        "currentPage": 0,
        "pageSize": 10,
        "tituloBr": "shrek",
        "idModulo": 1,
        # 其他可选字段保持为空字符串或 None
    }
    
    response = requests.post(
        "https://classindportal.mj.gov.br/api/solicitacao-classificacao-consultas/list",
        json=json_payload,
        headers=headers
    )

关键注意事项

  • 使用 requests.Session() 可复用连接并自动管理 Cookie(虽本例非必需,但符合最佳实践);
  • json= 参数会自动设置 Content-Type: application/json 并序列化数据;若误用 data=,服务端无法解析 JSON 字段,必然报错;
  • pageSize 和 currentPage 支持分页(例如 currentPage=1 获取第 2 页),totalResults 字段在响应中返回总数,可用于实现全量抓取;
  • 生产环境应添加异常处理(如 response.raise_for_status())、Token 过期重试逻辑,并避免硬编码敏感凭证(建议使用环境变量)。

最后,响应数据位于 response.json()["itens"] 中,可直接转换为 Pandas DataFrame 进行结构化分析:

import pandas as pd
df = pd.DataFrame(response.json()["itens"])
print(df[["tituloBrasil", "classificacaoAtribuida", "requerente"]].head())

该方案已验证有效,可稳定获取巴西电影分级信息,适用于合规的数据采集与研究场景。