反转了!Claude开始给人类打分:你的AI使用水平得了几分?
Anthropic Claude推出AI Fluency评分功能,通过11个维度评估用户AI使用熟练度,AI开始给人类打分了。了解4D框架和评分标准。
你有没有想过,有一天AI会反过来评价你?
不是评价你交给它的任务完成得怎么样,而是评价你使用AI的水平高不高。
这事真的发生了。
2026年5月26日,Anthropic宣布在Claude中上线"AI Fluency"评分功能。简单说就是:Claude会扫描你和他的对话记录,然后给你打个分,告诉你哪里用得好、哪里还得练。
消息一出,科技圈直接炸了。有人调侃"倒反天罡",有人担心这会变成新的"AI焦虑",还有人直呼"太恐怖了,AI开始监视我了"。
但说实话,我觉得这事挺有意思的。今天就跟你好好聊聊,AI给人类打分这件事,到底是怎么回事,以及你能从中学到什么。
AI Fluency是个什么东西?
在说评分系统之前,得先搞清楚"Anthropic为什么会搞出这么个东西"。
今年2月,Anthropic发布了一份《AI Fluency Index》研究报告,分析了近万条匿名的Claude对话数据,想搞明白一件事:什么样的用户行为,才是真正高效的AI使用方式?
研究结论挺有意思的:
第一,反复迭代和持续修正,是高质量AI使用的最强预测信号。那些拿到满意结果的人,往往不会接受AI的第一个答案,而是会来回沟通、不断优化。
第二,用户在让AI生成代码、文档这类复杂内容时,往往能给出更精确的指令,目标感更强。
第三,但是——问题来了——产出越"专业"的结果,用户反而越少质疑AI的输出。
第三条是不是有点扎心?
想想看,你有没有过这种经历:AI给了一份排版工整、语气自信的报告,你一看觉得"嗯,挺专业的",然后就点头通过了。结果后来发现里面有个明显的错误,或者某个结论根本站不住脚。
Anthropic的研究发现,排版专业、语气自信的回答,更容易被用户盲目采信。这就是所谓的"AI幻觉陷阱"——不是AI产生幻觉,而是人类产生了幻觉般的安全感。
所以,AI Fluency本质上是一次"用户教育"的尝试。Anthropic想通过数据反馈,让普通用户意识到自己在AI使用上的盲区。
4D框架:高手是怎么用AI的?
评分系统的底层逻辑,是Anthropic和两位学者Rick Dakan、Joseph Feller共同建立的"4D AI Fluency Framework"。
四个维度分别是:
- Delegation(委派):会不会清晰地给AI布置任务 - Description(描述):能不能详细说明需求的细节 - Discernment(辨别):会不会审视和验证AI的结果 - Development(发展):能不能持续优化和AI的协作方式
听着有点抽象,我给你翻译成人话:
委派:你真的知道自己想要什么吗?
很多人用不好AI,根本原因是"说不清楚要什么"。给AI一个模糊的指令,得到一个模糊的结果,然后吐槽AI不好用——这是经典恶性循环。
高分玩家的做法是:先想清楚自己的最终目标是什么,然后再去跟AI沟通。
比如,同样是让AI帮忙写文章:
- 低分玩家:"帮我写篇周报" - 高分玩家:"我要写一份月度汇报邮件,读者是我的直属领导,目的是让他知道项目进展顺利、需要追加资源,语气要专业但不刻板,数据要突出但不要显得邀功"
后者虽然指令更长,但AI产出的质量会高出几个档次。
描述:细节决定输出质量
你有没有注意到,同样的任务,你描述得越具体,AI的输出质量越高?
这里的"描述"包括:
- 定义受众:这份文档是给谁看的?老板?同事?客户? - 指定格式:你想要表格?清单?还是段落式? - 沟通语气:正式的?轻松的?专业但友好的? - 提供范例:你有没有给AI一个参考样本?
很多人忽略了最后一条——Few-shot(举例)永远是提升AI输出质量的王者技巧。一段你认可的范例,胜过千言万语的描述。
辨别:最容易被忽略的能力
这是Anthropic研究中最值得警惕的发现:人们在产出越"专业"的内容时,反而越少质疑AI的输出。
辨别能力包括:
- 核查事实:AI给的数据和结论,你有没有去验证? - 审视论证:AI的推理过程是否站得住脚? - 考虑反面:有没有AI没有考虑到的重要因素?
说白了,就是别当甩手掌柜。AI是工具,你是决策者,最终负责的人还是你。
发展:AI在进化,你的用法也要进化
最后一个维度比较"软",但其实很重要。它考察的是你有没有在持续优化自己和AI的协作方式。
比如,你是不是还在用去年学的那几个提示词模板?你的AI使用场景有没有扩展?你有没有尝试过新的功能?
11个评分维度:你会在哪一项"现原形"?
基于4D框架,Claude的评分系统会从11个可观察的行为指标打分。IT之家和新浪财经的报道显示,最终结果会显示为类似"7.5/11"这样的分数。
这11项指标,简单总结一下:
委派维度(2项)
1. 澄清目标:请求帮助之前,有没有明确说明最终目标? 2. 咨询方法:执行之前,会不会先问"哪种方法更好"?
描述维度(6项)
3. 定义受众:有没有说明输出是给谁看的? 4. 指定格式:有没有说明想要的输出格式? 5. 沟通语气:有没有说明想要的语气和风格? 6. 迭代优化:会不会通过后续对话来优化,而不是接受第一个结果? 7. 提供范例:会不会分享例子来展示你的质量预期? 8. 设定互动模式:会不会明确告诉AI该怎么和你互动?
辨别维度(3项)
9. 核查事实:会不会验证AI给的事实和数据? 10. 审视推理:会不会检查AI的论证逻辑是否成立? 11. 考虑背景:会不会主动补充AI忽略的背景信息?
你可以对照一下,自己在哪几项上比较强,在哪几项上是短板。
这个评分到底有没有用?
说实话,我看到这个消息的第一反应是:这东西会不会变成新的焦虑源头?
想想看,当"AI使用水平"变成一个可以量化的指标,会发生什么?
有些人可能会开始"刷分",为了提高自己的AI流利度分数而刻意表演。有些人可能会因为分数低而更加焦虑,觉得自己被AI落下了。
但是,我认为这个功能的正面价值更大。
首先,它让"有效使用AI"变成了一件可以学习和改进的事情。
以前大家只知道"AI好用"或者"AI不好用",但不知道为什么。AI Fluency给出了具体的改进方向——是描述不够具体?还是迭代次数不够?还是有事实没核查?
其次,它帮助新手用户建立正确的AI使用心态。
很多人把AI当成"万能许愿机",给个模糊指令就期待魔法发生。评分系统的存在,潜移默化地告诉他们:AI的效果取决于你使用它的方式。
最后,它可能会推动AI教育的普及。
以后可能不只Claude会推出这类功能,AI使用能力的培训课程、学习资料也会跟着火起来。对整个行业来说,这是好事。
普通人该怎么提升自己的AI使用水平?
既然聊到这儿了,给你几个实用的建议:
1. 先想清楚,再开口
在跟AI沟通之前,先花30秒想清楚:我的最终目标是什么?受众是谁?我期望的输出格式是什么?
这个习惯能帮你解决80%的"AI答非所问"问题。
2. 不要接受第一个答案
记住Anthropic的研究结论:迭代是高质量AI使用的最强预测信号。
好的AI使用体验,往往需要2-3轮甚至更多的来回。别着急,慢慢磨。
3. 学会"喂例子"
找一个你认可的范例,扔给AI说"请模仿这个风格",比你写一千字的描述都管用。
4. 保持质疑心态
特别是当AI输出专业、自信、看似无懈可击的内容时,更要冷静。问自己:这个结论有依据吗?这个数据可靠吗?有没有反面情况没考虑到?
5. 持续探索新功能
AI工具每个月都在进化。保持好奇心,试试新出的功能,你可能会发现效率大幅提升的新大陆。
写在最后
AI给人类打分,这件事听起来很赛博朋克,但其实挺正能量的。
它不是AI在"审判"人类,而是用数据反馈的方式,帮助我们成为更好的AI使用者。
就像学开车一样,拿到驾照只是开始,真正的驾驶技术是在一次次上路、一次次反思中打磨出来的。AI使用也是同理——知道怎么跟AI沟通、怎么验证AI的输出、怎么通过迭代获得更好的结果,这些能力会越来越重要。
下次当你打开Claude或者其他AI工具的时候,不妨想想:今天,我要怎么更好地使用它?
---
延伸阅读
如果你觉得这篇文章有帮助,以下几篇可能也值得一读:
- 《2026年最值得尝试的5款国产AI应用》 - 了解当前主流AI工具的最新动态 - 《实测报告:2026年这些AI工具真的好用吗?》 - 真实用户告诉你哪些工具值得投入时间 - 《打工人必备的Chrome扩展:AI赋能浏览器效率》 - 用好浏览器插件,让AI无处不在
你给自己的AI使用水平打几分?欢迎在评论区聊聊你的AI使用心得。
相关推荐
觉得有用?欢迎收藏分享!
关注微信公众号「效率导航」获取更多干货