反转了！Claude开始给人类打分：你的AI使用水平得了几分？

你有没有想过，有一天AI会反过来评价你？

不是评价你交给它的任务完成得怎么样，而是评价你使用AI的水平高不高。

这事真的发生了。

2026年5月26日，Anthropic宣布在Claude中上线"AI Fluency"评分功能。简单说就是：Claude会扫描你和他的对话记录，然后给你打个分，告诉你哪里用得好、哪里还得练。

消息一出，科技圈直接炸了。有人调侃"倒反天罡"，有人担心这会变成新的"AI焦虑"，还有人直呼"太恐怖了，AI开始监视我了"。

但说实话，我觉得这事挺有意思的。今天就跟你好好聊聊，AI给人类打分这件事，到底是怎么回事，以及你能从中学到什么。

AI Fluency是个什么东西？

在说评分系统之前，得先搞清楚"Anthropic为什么会搞出这么个东西"。

今年2月，Anthropic发布了一份《AI Fluency Index》研究报告，分析了近万条匿名的Claude对话数据，想搞明白一件事：什么样的用户行为，才是真正高效的AI使用方式？

研究结论挺有意思的：

第一，反复迭代和持续修正，是高质量AI使用的最强预测信号。那些拿到满意结果的人，往往不会接受AI的第一个答案，而是会来回沟通、不断优化。

第二，用户在让AI生成代码、文档这类复杂内容时，往往能给出更精确的指令，目标感更强。

第三，但是——问题来了——产出越"专业"的结果，用户反而越少质疑AI的输出。

第三条是不是有点扎心？

想想看，你有没有过这种经历：AI给了一份排版工整、语气自信的报告，你一看觉得"嗯，挺专业的"，然后就点头通过了。结果后来发现里面有个明显的错误，或者某个结论根本站不住脚。

Anthropic的研究发现，排版专业、语气自信的回答，更容易被用户盲目采信。这就是所谓的"AI幻觉陷阱"——不是AI产生幻觉，而是人类产生了幻觉般的安全感。

所以，AI Fluency本质上是一次"用户教育"的尝试。Anthropic想通过数据反馈，让普通用户意识到自己在AI使用上的盲区。

4D框架：高手是怎么用AI的？

评分系统的底层逻辑，是Anthropic和两位学者Rick Dakan、Joseph Feller共同建立的"4D AI Fluency Framework"。

四个维度分别是：

- Delegation（委派）：会不会清晰地给AI布置任务 - Description（描述）：能不能详细说明需求的细节 - Discernment（辨别）：会不会审视和验证AI的结果 - Development（发展）：能不能持续优化和AI的协作方式

听着有点抽象，我给你翻译成人话：

委派：你真的知道自己想要什么吗？

很多人用不好AI，根本原因是"说不清楚要什么"。给AI一个模糊的指令，得到一个模糊的结果，然后吐槽AI不好用——这是经典恶性循环。

高分玩家的做法是：先想清楚自己的最终目标是什么，然后再去跟AI沟通。

比如，同样是让AI帮忙写文章：

- 低分玩家："帮我写篇周报" - 高分玩家："我要写一份月度汇报邮件，读者是我的直属领导，目的是让他知道项目进展顺利、需要追加资源，语气要专业但不刻板，数据要突出但不要显得邀功"

后者虽然指令更长，但AI产出的质量会高出几个档次。

描述：细节决定输出质量

你有没有注意到，同样的任务，你描述得越具体，AI的输出质量越高？

这里的"描述"包括：

- 定义受众：这份文档是给谁看的？老板？同事？客户？ - 指定格式：你想要表格？清单？还是段落式？ - 沟通语气：正式的？轻松的？专业但友好的？ - 提供范例：你有没有给AI一个参考样本？

很多人忽略了最后一条——Few-shot（举例）永远是提升AI输出质量的王者技巧。一段你认可的范例，胜过千言万语的描述。

辨别：最容易被忽略的能力

这是Anthropic研究中最值得警惕的发现：人们在产出越"专业"的内容时，反而越少质疑AI的输出。

辨别能力包括：

- 核查事实：AI给的数据和结论，你有没有去验证？ - 审视论证：AI的推理过程是否站得住脚？ - 考虑反面：有没有AI没有考虑到的重要因素？

说白了，就是别当甩手掌柜。AI是工具，你是决策者，最终负责的人还是你。

发展：AI在进化，你的用法也要进化

最后一个维度比较"软"，但其实很重要。它考察的是你有没有在持续优化自己和AI的协作方式。

比如，你是不是还在用去年学的那几个提示词模板？你的AI使用场景有没有扩展？你有没有尝试过新的功能？

11个评分维度：你会在哪一项"现原形"？

基于4D框架，Claude的评分系统会从11个可观察的行为指标打分。IT之家和新浪财经的报道显示，最终结果会显示为类似"7.5/11"这样的分数。

这11项指标，简单总结一下：

委派维度（2项）

1. 澄清目标：请求帮助之前，有没有明确说明最终目标？ 2. 咨询方法：执行之前，会不会先问"哪种方法更好"？

描述维度（6项）

3. 定义受众：有没有说明输出是给谁看的？ 4. 指定格式：有没有说明想要的输出格式？ 5. 沟通语气：有没有说明想要的语气和风格？ 6. 迭代优化：会不会通过后续对话来优化，而不是接受第一个结果？ 7. 提供范例：会不会分享例子来展示你的质量预期？ 8. 设定互动模式：会不会明确告诉AI该怎么和你互动？

辨别维度（3项）

9. 核查事实：会不会验证AI给的事实和数据？ 10. 审视推理：会不会检查AI的论证逻辑是否成立？ 11. 考虑背景：会不会主动补充AI忽略的背景信息？

你可以对照一下，自己在哪几项上比较强，在哪几项上是短板。

这个评分到底有没有用？

说实话，我看到这个消息的第一反应是：这东西会不会变成新的焦虑源头？

想想看，当"AI使用水平"变成一个可以量化的指标，会发生什么？

有些人可能会开始"刷分"，为了提高自己的AI流利度分数而刻意表演。有些人可能会因为分数低而更加焦虑，觉得自己被AI落下了。

但是，我认为这个功能的正面价值更大。

首先，它让"有效使用AI"变成了一件可以学习和改进的事情。

以前大家只知道"AI好用"或者"AI不好用"，但不知道为什么。AI Fluency给出了具体的改进方向——是描述不够具体？还是迭代次数不够？还是有事实没核查？

其次，它帮助新手用户建立正确的AI使用心态。

很多人把AI当成"万能许愿机"，给个模糊指令就期待魔法发生。评分系统的存在，潜移默化地告诉他们：AI的效果取决于你使用它的方式。

最后，它可能会推动AI教育的普及。

以后可能不只Claude会推出这类功能，AI使用能力的培训课程、学习资料也会跟着火起来。对整个行业来说，这是好事。

普通人该怎么提升自己的AI使用水平？

既然聊到这儿了，给你几个实用的建议：

1. 先想清楚，再开口

在跟AI沟通之前，先花30秒想清楚：我的最终目标是什么？受众是谁？我期望的输出格式是什么？

这个习惯能帮你解决80%的"AI答非所问"问题。

2. 不要接受第一个答案

记住Anthropic的研究结论：迭代是高质量AI使用的最强预测信号。

好的AI使用体验，往往需要2-3轮甚至更多的来回。别着急，慢慢磨。

3. 学会"喂例子"

找一个你认可的范例，扔给AI说"请模仿这个风格"，比你写一千字的描述都管用。

4. 保持质疑心态

特别是当AI输出专业、自信、看似无懈可击的内容时，更要冷静。问自己：这个结论有依据吗？这个数据可靠吗？有没有反面情况没考虑到？

5. 持续探索新功能

AI工具每个月都在进化。保持好奇心，试试新出的功能，你可能会发现效率大幅提升的新大陆。

写在最后

AI给人类打分，这件事听起来很赛博朋克，但其实挺正能量的。

它不是AI在"审判"人类，而是用数据反馈的方式，帮助我们成为更好的AI使用者。

就像学开车一样，拿到驾照只是开始，真正的驾驶技术是在一次次上路、一次次反思中打磨出来的。AI使用也是同理——知道怎么跟AI沟通、怎么验证AI的输出、怎么通过迭代获得更好的结果，这些能力会越来越重要。

下次当你打开Claude或者其他AI工具的时候，不妨想想：今天，我要怎么更好地使用它？

---

延伸阅读

如果你觉得这篇文章有帮助，以下几篇可能也值得一读：

- 《2026年最值得尝试的5款国产AI应用》 - 了解当前主流AI工具的最新动态 - 《实测报告：2026年这些AI工具真的好用吗？》 - 真实用户告诉你哪些工具值得投入时间 - 《打工人必备的Chrome扩展：AI赋能浏览器效率》 - 用好浏览器插件，让AI无处不在

你给自己的AI使用水平打几分？欢迎在评论区聊聊你的AI使用心得。