年轻人在上班和上进之间选择了上香,成了最近的网络流行语。甚至老人都开始不上香了,为什么年轻人开始返祖呢,这引起了我的思考。

随机性

先从随机性开始说起吧,从小我们就开始抛掷硬币来辅助做一些随机决定,因为我们的认知中这个过程是随机的,是无法被我们预测的,然而 Diaconis等人(2007)研究了若干投掷机器(coin tossing machine),如下图所示:

tossing-machine

他们发现,在“精确调整”这种装置时,可以使“起始正面朝上 → 落下时正面朝上”几乎 100 % 地成立(即可控性非常好)——这说明:如果初始状态(位置、角动量、线速度等)精确且重现性高,是可以“决定”结果的。尽管实验室中可以严格控制,在实际操作中,要保证每次抛掷的初始条件足够精确仍然是及其困难的,因此仍然有一定的随机性。

其实,所谓随机性,多半来自我们不知道成因、也无法控制那些微小的因子。一旦能知道原因、掌控变量,“随机”就不复存在,一切都会变得可预期、可重复,尽在人类掌握。

古代崇拜

对于古人来说,这一趟出去打猎或者捕鱼,其实是个随机事件,能否打到猎物纯粹看天(概率)。种粮食后,什么时候能下雨,粮食会不会有收成,依然是不确定的,说不定就干旱了,又说不定就洪涝了。这种不确定的力量,只能让古人对未知的神秘力量产生崇拜,祭天拜地,祈求来年的风调雨顺。今天的人类弄明白了很多原理,只要像上方投掷筛子的机器那样,控制好变量,就会有确定的结果,于是人类不再盲目崇拜了。

以前的基督徒,吃饭之前都要祷告,桌上的一切都是上天的赏赐。今天的人类很难再有同等的感慨,牛排可以去超市买到,粮食可以超市买到,对于这些轻易可以获得的东西,人类再难有崇拜之心了。

现代崇拜

大语言模型的不确定性

基本的吃饭问题解决之后,人类开始有更多的疑问。就以大语言模型为例,不同的人用同一个提示词在同一个模型问问题,得到的答案也不一样,甚至同一个人不同的时候问同一个问题,回答也不一样。Thinking Machines 在这篇研究Defeating Nondeterminism in LLM Inference中做了详细的分析,并给出了一种通用的、系统级别的解释框架:即在并行计算、Kernel 实现与 reduction 操作中,不同的 batch 分割、不同的并行路径、不同的归约顺序等,可能导致浮点计算的微小差异,继而在“最大概率 token 选择”(greedy decoding)时造成不一致输出。还有不少研究也有同样的发现,相同 prompt + 相同设置(包括 temperature = 0)下依然可能得到不同输出。

综合现有资料,以下是目前较为被接受或正在讨论的机制/原因:

原因 说明
浮点数精度和运算顺序差异 在并行硬件(GPU、多核)上,浮点运算并不是严格可交换的(a + b + c 与 (a + b) + c 有可能有微小差异)。当操作被划分、合并、重排序时,这些微小差异会被放大,导致 logits 或 softmax 概率出现极其微小差别,从而在 greedy 选择时选择不同 token。
批量大小 / 分批 (batching) 的非不变性 如果推理系统是把多个请求或多个 prompt/标记打包(batch)一起处理,那么内部 kernel(如矩阵乘法、归约、attention)可能根据 batch 大小、线程分划、split-reduction 策略等调整计算结构,从而改变数值计算路径。Thinking Machines 提出的 “batch invariance” 正是针对这一问题。
tie-breaking(并列最高概率 token) 如果在某一步骤中,有两个或多个 token 的概率极为接近(或在计算误差层面几乎相等),系统可能需要有机制(如固定顺序、hash、内存地址、实现细节)来打破 tie。不同实现可能选择不同的打破方式。
内存、并行性、kernel 优化策略 推理库、底层计算库、编译器优化、线程调度、缓存、内存布局、通信延迟等都可能引入不可控的次级差异。
模型架构(如 MoE 路由) 如果模型使用 Mixture-of-Experts(专家网络)架构,那么对 token 的路由选择(哪个专家处理哪个 token)可能受到容量限制、负载均衡等因素影响;在不同请求上下文中,路由可能略有不同,从而对最终输出有所影响。
系统级变化(如负载、并发、资源竞争) 在云服务、API 服务环境中,请求处理可能被打包、排队、和其他请求一起并行执行。不同时间的系统负载或资源分配可能导致关联操作被放入不同批、不同计算路径,从而引入输出差异。

大语言模型的这一特点告诉我们,今天人类这么强大,让自己研发的大模型有个稳定的输出都是困难的,这里有太多偶然性,

短视频

今天的年轻人想通过短视频或者直播来赚钱的太多啦,但是这件事情也是充满着不确定性的,谁也不知道自己哪条视频会火,即便你已经按照官方的建议一一去做了,各大网红分享的招数也都使用了,也注意到了拍摄节奏、封面配色、标题长度、发布时间、互动策略,但是就是没有流量,而另一条随手拍的视频,却莫名其妙地上了热榜。甚至推荐算法本身的研发人都无法准确知道哪条视频会火,在这种情况下,必然就会产生类似于古代的算法崇拜,年轻人开始研究算法,一如古人研究天象,试图揣摩推荐系统的“心意”,或者开始转向更神秘的解释,是不是自己最近人品、运气、磁场不太强,是不是“上香”能带来好运?

在这种情况下,人们对算法的敬畏与焦虑,与古人面对未知世界时的祈祷,其实并无二致。唯一的区别是,古人祈求风调雨顺,而我们祈求“推流顺利”。

炒股

炒股也是如此,即便量化交易已经非常火爆,但是依然没有办法做到 100%预测,要是能做到100%预测,也就没有股市了,也再没有人来以小博大了。

量化交易的盛行并没有消除这种不确定性,反而让它变得更精密、更高维。算法在与算法博弈,机器人之间的决策链条复杂得连程序员都无法完全解释。当我们盯着屏幕,看着红绿闪烁的K线,试图从中寻找“趋势”的迹象时,心理上其实与古人占卜龟甲、解读天象别无二致——我们都在用理性包裹着不确定,试图让不可知变得可控。

总结

一代人有一代人的崇拜,我们总觉得古人愚昧,例如吃饱饭还要感谢上帝。随着技术越来越先进,人类一定能完全掌握导致现代崇拜的变量,让这件事不再神秘,但是一定又会产生新的未解之谜。那天看到北大学生在文创店排大队领取免费新生礼,这跟老头老太太领取免费鸡蛋又有什么区别呢?

参考文献

  • Diaconis, Persi, Susan Holmes, and Richard Montgomery. “Dynamical Bias in the Coin Toss.” SIAM Review, vol. 49, no. 2, 2007, pp. 211–235. Society for Industrial and Applied Mathematics, doi:10.1137/S0036144504446436 .
  • Ouyang, S., Zhang, J. M., Harman, M., & Wang, M. (2023). An empirical study of the non-determinism of ChatGPT in code generation. arXiv. https://arxiv.org/abs/2308.02828
  • Song, Y., Wang, G., Li, S., & Lin, B. Y. (2024). The Good, The Bad, and The Greedy: Evaluation of LLMs Should Not Ignore Non-Determinism. arXiv. https://arxiv.org/abs/2407.10457