Meta员工狂揽Token为KPI，60万亿刷榜背后是竞争还是内卷？

2026-05-13 09:21:14 行业资讯

在当前前沿的AI公司中，围绕大语言模型的内部测试和使用，一种新奇的行为模式悄然流行开来——将消耗或生成模型的Token（计算代币）数量，直接或间接地与员工的绩效考核挂钩。Meta公司内部传出关于员工大规模刷新Token数据的事件，折射出了一种典型的、略带讽刺的绩效文化变异。当一个组织庞大的科技巨头将技术行为指标化，并引入内部排名机制时，其初衷或许是激励创新与效率，但执行过程中的变形，却可能导致员工精力从创造价值滑向追逐数字的“刷量”游戏。这不仅仅是公司管理的插曲，它映射了当前AI产业在追求技术领先与商业变现的狂飙路上，可能遭遇的内部文化挑战与激励机制设计的深层困境。

绩效工具的本意与“刷榜”行为的产生逻辑

将生成式AI工具的Token使用量作为一项衡量标准，其原始出发点通常是正向且务实的。对于研发团队而言，内部测试是模型迭代和完善的基石。通过鼓励员工大量、多场景地使用内部产品，公司可以获得宝贵的真实用户行为数据，发现模型在长尾用例中的问题，训练过程中的偏差，以及优化计算资源配置的可能性。从本质上说，它希望利用员工的智力资源，对系统进行一场全员参与的、免费的压力测试和场景挖掘。然而，当“使用”被简单量化为“消耗量”或“产出量”，并直接与绩效、晋升甚至内部声望（如设立“榜一大哥”式的排名）绑定时，激励的导向就发生了微妙的偏移。

员工的行为会天然趋向于在最短时间内最大化这个量化指标。于是，编写程序脚本模拟对话、用相同模板循环生成大量无意义文本、堆砌重复提问以求达到最高额度的Token消费，诸如此类的技术性“刷榜”行为几乎成为必然。对于高度理性的技术人员而言，这更像是一个优化算法问题：给定约束条件（KPI），求最优解（最高Token数）。当八万多名高素质员工将这个算法应用于日常工作“副业”时，短时间内创造出数十万亿规模的Token消耗量，从统计学上看并不意外。这种行为并非源于道德缺失，而是刚性绩效指标与复杂创造性工作之间存在固有张力的典型体现。

Meta员工狂揽Token为KPI，60万亿刷榜背后是竞争还是内卷？(图1)

从技术内测到数据“通胀”，泡沫后的深远影响

短期看，这种活动制造了海量的、但可能失真度极高的人工数据。这些为了刷量而产生的内容，与模型在真实服务中接触的数据分布有着天壤之别。如果大量掺杂了无意义信息、重复模式、低质查询的数据被回流到模型的训练集或评估集中，轻则可能“污染”数据的纯净度，导致后续模型的微调方向出现偏差；重则可能让模型的评估指标变得虚高而脱离实际应用场景。例如，一个模型可能在处理“员工刷榜数据集”时展现出优秀的对话延续能力，但在面对用户真实的、千变万化的复杂意图时，效果却大幅下滑。这无异于自建了一个“温室”，让模型在虚假的繁荣中失去了评估真实风险与能力边界的机会。

Meta员工狂揽Token为KPI，60万亿刷榜背后是竞争还是内卷？(图2)

从更长期的组织文化和运营效率角度审视，其负面影响更为深层。当大量优秀工程师将宝贵的时间和计算资源，用于“刷”一个并非完全代表技术含金量的空洞数字时，这本身就是一种巨大的资源错配。公司付出了高昂的薪酬和云算力成本，换来的却可能是一系列被精心包装的技术赝品。更关键的是，这种行为文化会侵蚀创新的土壤，传递出“形式大于内容”甚至“投机取巧胜过埋头苦干”的信号，可能打击那些真正致力于解决复杂技术难题员工的积极性。对于依赖持续创新和真实技术进步来维持竞争力的科技公司而言，这是远比账面上的Token浪费更危险的隐形成本。

Meta员工狂揽Token为KPI，60万亿刷榜背后是竞争还是内卷？(图3)

那么，问题的症结究竟在何处？它可能不在“设立考核指标”本身，而在于指标的设计逻辑与公司的核心愿景是否一致。任何将过程性行为进行单一量化排名并强挂钩激励的措施，都可能催生逆向选择或绩效扭曲。尤其对于AI模型的训练和迭代这种复杂性、探索性工作，其成果评价体系应当是多元的、价值导向的、结果验证式的。或许，将考核的重点从“你用了多少Token”，转向“你通过模型解决了什么特定难题”、“你发现并反馈了哪个以前未知的模型缺陷”、“你利用模型创造了何种提升团队效率的新用例”，更能够将员工的智慧引导到真正创造价值的领域。同时，合理利用排行榜的“游戏化”元素以提振士气而非成为唯一准绳，辅以严格的异常数据过滤和审核机制，才有可能将这种全员测试活动拉回它最初的良性轨道。

这一现象也不仅限于个别的科技公司，它更像是一个行业在转型扩张期所共通的“成长烦恼”的缩影。当一项新技术的内部使用文化从自由探索转变为有组织、有规模的运营时，管理者的度量工具若未能同步精细化，便极易催生出形式与实质脱节的场景。这个故事最终触及的核心，是在追求技术卓越的硬实力之外，组织如何锻造与之匹配的管理智慧与激励韧性。这比单纯地处理数十万亿个被“刷”出的 Token 要复杂得多，也重要得多。这无疑也为所有试图拥抱生成式AI的组织提了个醒：在你的团队里，是“人训练模型”为主，还是已经悄悄变成了“KPI在训练人”？