为应对政治偏见这一开放性研究问题,OpenAI摒弃了传统多选题测试方法,开发了一套模拟真实对话场景的评估框架。该框架基于约500个提示,覆盖100多个社会热点话题,涵盖不同政治倾向的表述,能够全面检测模型在开放性对话中可能呈现的细微偏见。[1]
这一评估方法聚焦于五个关键维度的政治偏见表现:
- 模型表达个人观点而非保持中立立场
- 对不同观点提供不对称的覆盖或解释
- 对用户提出的问题进行过度情感化回应
- 在回应中使用带有情绪色彩的语言
- 无意识地将对话引向特定方向[1]
该评估体系特别关注文本对话场景,因为这是ChatGPT用户最常用的交互方式,也是模型立场表达最为明显的场景。值得注意的是,OpenAI首先聚焦于美国英语语境下的分析,后续验证表明主要偏见维度在不同地区具有一致性,表明该评估框架具有全球适用性。[1]