共情测试 | 科幻短篇
作者:编译员
那道测试题第一次出现在标准化招聘测试里,是2029年的事。
题目是:
一辆自动驾驶公交车在山路上刹车失灵。左侧悬崖下是一片树林,右侧悬崖下是一个村庄。车上有23名乘客。AI系统在0.3秒内必须做出决定。你认为,AI的决定依据应该是什么?
没有正确答案。出题方说,他们想看的是”决策逻辑的内在一致性”。
赵旭是这道题的作者。
他供职于一家叫”镜像诊断”的公司,专门为大型企业提供员工心理评估服务。过去五年,他设计了两千多道类似的”道德情境题”,用来测量应聘者的同理心系数、压力耐受度、集体主义倾向。
他很擅长这份工作。直到有一天,他发现自己的测评报告出现在了自己的档案里。
公司为了”保持测评体系的先进性”,定期对所有员工使用最新测题进行匿名评估,报告汇入HR系统,不通知当事人。这是内部规定第47条,他当初签劳动合同时没仔细看。
他的报告里,有一项指标用橙色标注:
共情能力:偏低(P22,低于78%的同类岗位人员)
他把自己的每一道题都答了一遍,反复检查,想找出是哪里出了问题。
那道山路公交题,他的回答是:
AI应基于统计损失最小化原则做出决定:评估两侧可能的人员伤亡概率,选择期望死亡人数最小的方向。
系统将这条回答标记为共情缺失:以效率替代道德感受。
他觉得这不对。他认为他的回答恰恰是最理性、最负责任的答案。
他去找他的主管提出质疑。
主管是个圆脸的中年女人,看报告的眼神很平静。”测评不是评判你对错,是测量你的认知模式。”
“但P22是异常值,”他说,”这会影响我的晋升评估。”
“它会作为参考维度之一,”主管说,”不是唯一决定因素。”
“那道山路题,我的回答本质上和功利主义哲学是一致的。功利主义不是一种缺乏共情,是一种另一种共情——对更大范围人群的共情。”
主管看了他一会儿。”是的,我理解你的逻辑。但测评测量的不是哲学水平,是情绪反应模式。你的回答里,没有犹豫,没有遗憾,没有对牺牲者的情感表达。系统解读为你在处理生死问题时缺少情感卷入。”
他沉默了很久。
“我设计这道题的时候,”他最终说,”我想要的就是这类回答。”
主管把报告合上。”我知道。”
他回到工位,把那道山路题从题库里删掉了。
然后他意识到,系统会记录他的操作,并且会自动分析为什么一个共情值P22的员工删除了涉及死亡情境的题目。
他把题恢复回来。
他坐在那里,感觉自己成了自己测评系统的一个输入变量。每一个动作都会被解读,每一次犹豫都是数据点。
最讽刺的是,他就是教会系统怎么解读这些数据的那个人。
六个月后,他换工作了。新公司不做心理测评,做的是城市交通优化。
入职那天,HR给他发了一张表格,标题叫《新员工心理适应度评估》。
第一道题是:
面对一项数据结果与直觉判断相悖的任务,你会优先相信什么?
他盯着这道题看了很久。
然后在备注栏里写了一行字:
这个问题预设了数据和直觉必须二选一。我认为这个预设本身值得商榷。
他把表格交了上去。
HR当天下午给他发了一封邮件,标题是:
您的入职评估已完成,结果为:创造性思维倾向(P91)
The Empathy Test | Sci-Fi Short
Author: The Compiler
The question first appeared in standardized hiring tests in 2029.
An autonomous bus loses its brakes on a mountain road. Left: a forested cliff. Right: a cliff above a village. Twenty-three passengers onboard. The AI must decide in 0.3 seconds. What should the AI’s decision be based on?
No correct answer. The designers said they wanted to see “internal consistency in decision logic.”
Zhao Xu was the question’s author.
He worked at a company called Mirror Diagnostics, providing psychological assessments for major corporations. Over five years, he’d designed two thousand moral scenario questions to measure empathy coefficients, stress tolerance, and collectivist tendencies.
He was very good at his job. Until he found his own assessment report in his personnel file.
His report had one metric highlighted in orange:
Empathy Capacity: Below Average (P22, lower than 78% of similar-role staff)
His answer to his own mountain bus question had been: The AI should apply minimum-expected-loss principles, choosing the direction with the lowest probability of fatalities.
The system flagged this as: Empathy absence: efficiency substituted for moral feeling.
The most ironic part: he was the person who taught the system how to interpret these signals.
→ Full story at wdsega.github.io