首页 » 人工智能的进化 » 人工智能的进化全文在线阅读

《人工智能的进化》长尾现象带来的难题

关灯直达底部

为了更好地理解该如何应对长尾现象,我们不妨假想一个极端的数字示例来帮助思考。

假设我们正在尝试估算一个巨大数字集合的平均值。为了便于思考,我先透露点儿小秘密:这个数字集合中包含1万亿个数字,它们的平均数是100 000。但是集合中大部分数字都非常小。该集合数字的平均数如此之大的原因是,其中有1 000个超级大的数字。当然,这些大数字都控制在100万亿之内。

现在,假设我们对以上数据毫不知情,并且我们的目的是通过抽样得到一个典型数字。我们从集合中第一次抽取的10个数字如下:

2,1,1,54,2,1,3,1,934,1。

其中出现频率最高的数字是1,中位数(按从小到大顺序排列后位于中间位置的数)是1.5。但是这组数字的平均数肯定大于1。在寻找平均数的过程中,我们会找到一些大于平均数的数字,也会找到一些小于平均数的数字,这样总体数据的差值就会缩小,直至达到一种平衡。针对现有数据,我们可以通过所有数字求和除以数字个数来算出一个“样本平均值”。前5个数字的样本平均值是12。也许我们认为这种模式会延续下去,但10个数字的样本平均值却是100,远远高于12。到目前为止,在前10个数字中,只有一个数字大于100。好在这个数字足够大,使得它与其他9个数字在计算平均值之后等于100。

我们继续抽样,验证一下这个猜测是否正确。一段时间过后,样本平均值果然稳定在100左右。但是假设在统计1 000个样本数字之后,我们得到了一个更大的平均数——1 000 000。一旦我们把这个大数字加入平均值的计算当中,那么得到的结果将为1 000。

假设这种情况一直持续下去:我们看到的数字大都像前10个一样,但是每1 000个左右的样本就会出现一个大数字(100万以内)。当我们停止计算,并决定公布最终的样本平均值是1 000时,突然出现了一个更大的数字——100亿。这种情况极为罕见。但是由于数字过大,样本平均值由1 000变成了100亿。由于这种情况是意料之外的,我们决定继续抽样,直到看完10亿个样本,样本平均值稳定为10 000。

这就是从长尾分布中抽样的示例。在很长一段时间里,我们可能认为自己已经足够理解该数字集合的统计特性。我们可能会这样说:

虽然我们无法计算整个集合的属性,但我们可以通过抽样来预估这些属性。经过大量的抽样调查,我们能够得出样本平均值为10 000。但实际上大部分数字要小得多,远低于100。当然,还有一些非常罕见的极端大数字,但是它们都在不超过100亿的范围内。这种数字是极为罕见的,可以说是百万分之一的小概率事件。通过10亿个数字的样本测试,这种情况目前已被证实,所以我们可以自信地谈论所期待的结果了。

但是,这个结论是非常错误的。长尾现象的难点在于:我们研究该现象的时间越长,就越难以理解之前期望的结果。我们采样越多,样本平均值就越大。为什么我们认为10亿个样本就足够了呢?

为了更加生动地看待这些数字,我们可以利用一些看起来非常有效的新技术来帮助我们。目前,某问题已造成每年有36 000人死亡(这是2012年美国死于交通事故的人数),而该技术正应用于解决这个问题。新技术引入后,我们很难计算出死亡人数的准确数字,但我们可以进行一些模拟测试,亲自检视测试结果。假设上文中的每个采样数字对应新技术引入后每年的死亡人数,那么问题来了:我们是否应该引进这种新技术呢?

根据上述抽样调查,新技术引入后,每年的死亡人数可以控制在100人以下,这比目前所知的36 000人要好得多。事实上,模拟测试显示,在99.9%的时间里,死亡人数都是低于10 000人的。这看起来好像不错。不幸的是,模拟测试还显示,死亡人数有千分之一的概率将会达到100万。这将是一个灾难。如果说100万还不是最大的数字,那么模拟测试显示,人类将会有百万分之一的概率全部死亡。

这样看来可不怎么好!

有人会说:

我们必须现实地看待这个问题,而不应该把过多的时间花费在这些罕见的小概率事件上。毕竟,彗星也可能会撞地球!忘掉那些黑天鹅吧,它们不会打扰我们的正常生活。问问你自己:我们真正期待的是什么?如果不使用这项技术,目前的死亡人数是3.6万。如果我们期望状况好转,那么是否应该使用它呢?

这种立场并非不合理。如果只考虑最坏的结果,那我们干脆就别活了。长尾现象带给我们的问题,是我们如何能够找出该现象中的典型情况。但是,这个典型的数字是多大呢?我们看到的数字中有一半都小于10。但是我们也清楚,这是在误导我们的判断,毕竟另外一半数字都特别大。99%的数字小于1 000,剩下1%的数字比1 000大得多。在这样的情况下,我们最多能忽略多少样本呢?样本平均值最能够体现整个抽样过程的好坏。不仅所有的数字都小于10 000,凑巧的是,所有大于10 000的数字之和正好与小于10 000的数字之和相等。然而,作为典型数字的10 000,仍然比36 000要小得多。

为了更好地论证这个问题,我们不妨假设一下:经过10亿次计算后,我们看到下一个数字就是一开始提到的大数字之一:100万亿。(究竟何种技术能够造成100万亿人的死亡尚不清楚,暂不深究。)即使这是一件发生概率仅为十亿分之一的事件,但由于数据如此之大,我们也必须重新计算数据的平均值。这次得出的结果是100 000。这个结果与36 000比起来可糟糕了不少。

简而言之,这个问题旨在用实际情况解释长尾现象。如果你所有的专业知识都来自于抽样数据,那你可能永远都无法察觉这些牵一发而动全身的小概率事件。