在当前前沿的AI公司中,围绕大语言模型的内部测试和使用,一种新奇的行为模式悄然流行开来——将消耗或生成模型的Token(计算代币)数量,直接或间接地与员工的绩效考核挂钩。Meta公司内部传出关于员工大规模刷新Token数据的事件,折射出了一种典型的、略带讽刺的绩效文化变异。当一个组织庞大的科技巨头将技术行为指标化,并引入内部排名机制时,其初衷或许是激励创新与效率,但执行过程中的变形,却可能导致员工精力从创造价值滑向追逐数字的“刷量”游戏。这不仅仅是公司管理的插曲,它映射了当前AI产业在追求技术领先与商业变现的狂飙路上,可能遭遇的内部文化挑战与激励机制设计的深层困境。

绩效工具的本意与“刷榜”行为的产生逻辑

将生成式AI工具的Token使用量作为一项衡量标准,其原始出发点通常是正向且务实的。对于研发团队而言,内部测试是模型迭代和完善的基石。通过鼓励员工大量、多场景地使用内部产品,公司可以获得宝贵的真实用户行为数据,发现模型在长尾用例中的问题,训练过程中的偏差,以及优化计算资源配置的可能性。从本质上说,它希望利用员工的智力资源,对系统进行一场全员参与的、免费的压力测试和场景挖掘。然而,当“使用”被简单量化为“消耗量”或“产出量”,并直接与绩效、晋升甚至内部声望(如设立“榜一大哥”式的排名)绑定时,激励的导向就发生了微妙的偏移。

员工的行为会天然趋向于在最短时间内最大化这个量化指标。于是,编写程序脚本模拟对话、用相同模板循环生成大量无意义文本、堆砌重复提问以求达到最高额度的Token消费,诸如此类的技术性“刷榜”行为几乎成为必然。对于高度理性的技术人员而言,这更像是一个优化算法问题:给定约束条件(KPI),求最优解(最高Token数)。当八万多名高素质员工将这个算法应用于日常工作“副业”时,短时间内创造出数十万亿规模的Token消耗量,从统计学上看并不意外。这种行为并非源于道德缺失,而是刚性绩效指标与复杂创造性工作之间存在固有张力的典型体现。

Meta员工狂揽Token为KPI,60万亿刷榜背后是竞争还是内卷?(图1)

从技术内测到数据“通胀”,泡沫后的深远影响

短期看,这种活动制造了海量的、但可能失真度极高的人工数据。这些为了刷量而产生的内容,与模型在真实服务中接触的数据分布有着天壤之别。如果大量掺杂了无意义信息、重复模式、低质查询的数据被回流到模型的训练集或评估集中,轻则可能“污染”数据的纯净度,导致后续模型的微调方向出现偏差;重则可能让模型的评估指标变得虚高而脱离实际应用场景。例如,一个模型可能在处理“员工刷榜数据集”时展现出优秀的对话延续能力,但在面对用户真实的、千变万化的复杂意图时,效果却大幅下滑。这无异于自建了一个“温室”,让模型在虚假的繁荣中失去了评估真实风险与能力边界的机会。

Meta员工狂揽Token为KPI,60万亿刷榜背后是竞争还是内卷?(图2)

从更长期的组织文化和运营效率角度审视,其负面影响更为深层。当大量优秀工程师将宝贵的时间和计算资源,用于“刷”一个并非完全代表技术含金量的空洞数字时,这本身就是一种巨大的资源错配。公司付出了高昂的薪酬和云算力成本,换来的却可能是一系列被精心包装的技术赝品。更关键的是,这种行为文化会侵蚀创新的土壤,传递出“形式大于内容”甚至“投机取巧胜过埋头苦干”的信号,可能打击那些真正致力于解决复杂技术难题员工的积极性。对于依赖持续创新和真实技术进步来维持竞争力的科技公司而言,这是远比账面上的Token浪费更危险的隐形成本。

Meta员工狂揽Token为KPI,60万亿刷榜背后是竞争还是内卷?(图3)

那么,问题的症结究竟在何处?它可能不在“设立考核指标”本身,而在于指标的设计逻辑与公司的核心愿景是否一致。任何将过程性行为进行单一量化排名并强挂钩激励的措施,都可能催生逆向选择或绩效扭曲。尤其对于AI模型的训练和迭代这种复杂性、探索性工作,其成果评价体系应当是多元的、价值导向的、结果验证式的。或许,将考核的重点从“你用了多少Token”,转向“你通过模型解决了什么特定难题”、“你发现并反馈了哪个以前未知的模型缺陷”、“你利用模型创造了何种提升团队效率的新用例”,更能够将员工的智慧引导到真正创造价值的领域。同时,合理利用排行榜的“游戏化”元素以提振士气而非成为唯一准绳,辅以严格的异常数据过滤和审核机制,才有可能将这种全员测试活动拉回它最初的良性轨道。


这一现象也不仅限于个别的科技公司,它更像是一个行业在转型扩张期所共通的“成长烦恼”的缩影。当一项新技术的内部使用文化从自由探索转变为有组织、有规模的运营时,管理者的度量工具若未能同步精细化,便极易催生出形式与实质脱节的场景。这个故事最终触及的核心,是在追求技术卓越的硬实力之外,组织如何锻造与之匹配的管理智慧与激励韧性。这比单纯地处理数十万亿个被“刷”出的 Token 要复杂得多,也重要得多。这无疑也为所有试图拥抱生成式AI的组织提了个醒:在你的团队里,是“人训练模型”为主,还是已经悄悄变成了“KPI在训练人”?