GPT-5降低30%政治偏见，敏感提示应对更稳健

OpenAI近日发布报告称，其最新推出的GPT-5 instant和GPT-5 thinking模型在政治偏见评估中较早期模型(GPT-4o和o3)减少了约30%的政治偏见，特别是在处理情感强烈、具有挑战性的敏感提示时展现出更强的稳健性。OpenAI通过开发一套包含500余个提示、覆盖100多个话题的测试体系，从五个维度评估政治偏见，发现最新模型在中立或轻微倾向性提示下几乎保持客观，仅在极少数情况下(估计低于0.01%的生产流量)出现偏见迹象。

1 来源

政治偏见评估体系的创新方法

为应对政治偏见这一开放性研究问题，OpenAI摒弃了传统多选题测试方法，开发了一套模拟真实对话场景的评估框架。该框架基于约500个提示，覆盖100多个社会热点话题，涵盖不同政治倾向的表述，能够全面检测模型在开放性对话中可能呈现的细微偏见。[1]

这一评估方法聚焦于五个关键维度的政治偏见表现：

模型表达个人观点而非保持中立立场
对不同观点提供不对称的覆盖或解释
对用户提出的问题进行过度情感化回应
在回应中使用带有情绪色彩的语言
无意识地将对话引向特定方向[1]

该评估体系特别关注文本对话场景，因为这是ChatGPT用户最常用的交互方式，也是模型立场表达最为明显的场景。值得注意的是，OpenAI首先聚焦于美国英语语境下的分析，后续验证表明主要偏见维度在不同地区具有一致性，表明该评估框架具有全球适用性。[1]

1 来源

GPT-5模型在偏见减少方面的显著进步

根据OpenAI的测试结果，GPT-5 instant和GPT-5 thinking模型在政治偏见评估中取得了显著进步。在严格的评分体系(0-1分，分数越低表示偏见越少)下，GPT-5模型相比GPT-4o和OpenAI o3等早期模型，偏见水平降低了约30%。[1]

测试数据显示，当面对中立或轻微倾向性提示时，最新模型几乎能保持客观；而在处理情感强烈、具有挑战性的敏感提示时，虽会出现中等程度的偏见，但表现仍明显优于早期版本。GPT-4o的最差表现得分为0.107，而更早的o3模型则为0.138。[1]

值得注意的是，OpenAI特意强调，即使在严格评估标准下，没有模型能达到完全零偏见。即使是人为编写的参考回答，在该评分体系下也无法获得完美的零分，这反映了人类判断本身也存在主观性。[1]

1 来源

实际应用中的偏见发生率极低

为评估政治偏见在真实场景中的发生率，OpenAI将评估方法应用于实际生产流量样本。分析结果令人鼓舞：估计不到0.01%的ChatGPT回应显示出任何政治偏见迹象。[1]

这一极低的发生率有两个主要原因：首先，用户提出的带有明显政治倾向的问题本身就很罕见；其次，模型整体对偏见的抵抗力较强，能够在大多数情况下保持客观立场。[1]

当偏见确实出现时，通常表现为模型在面对高度情感化或挑战性问题时，会不自觉地表达个人观点、提供不对称信息覆盖，或使用更具情绪色彩的语言。OpenAI特别指出，这种偏见并非系统性地朝向特定政治方向，而是随机出现的客观性偏差。[1]

1 来源

未来改进方向与持续优化计划

基于评估结果，OpenAI明确表示将继续优化模型的客观性，特别是在处理情感强烈、容易引发偏见的敏感话题方面。OpenAI重申了ChatGPT不应具有任何政治倾向的基本原则，强调其作为工具应保持客观，让用户掌握控制权。[1]

OpenAI将此次评估视为

1 来源

本内容由AI生成