注:本文作为学习笔记,大部分内容取材并整理自Nassim Nicholas Taleb即将出版的新书:《STATISTICAL ConSEQUENCES OF FAT TAILS》
1
在经典物理学当中,零阶矩表示所有点的质量;一阶矩表示质心;二阶矩表示转动惯量。在线性代数领域,矩阵有四子(空间):列空间,行空间,零空间和左零空间。
基础科学是美妙的。在数理统计学当中也有这样一类称谓,一方面继承了物理学当中“矩”的概念,也同样存在“四子”来表达数字特征,但含义却与两者完全不同了。
在对“黑天鹅”的肥尾分布建立数学直觉时,了解数理统计的“矩四子”至关重要:
它们是:
一阶矩:均值,即数学期望值
二阶矩:方差,衡量数据的离散程度
三阶矩:偏度,衡量随机密度函数向左或向右偏的程度
四阶矩:峰度,衡量峰部有多尖
对于不同的胖尾分布,矩的概念也在发生明显的变化:
入门级的胖尾分布,各种矩都是有限的数
次指数类——Heavy Tail,高阶矩开始退化
幂律类——Fat Tail,高阶矩继续退化,直至所有的矩完全消失
通常来说,高阶矩在肥尾下会增加并开始退化——尽管不一定体现在低阶矩上。这是说,入门级的胖尾分布可以在高斯类分布的基础上,通过增加第四阶矩即峰度,简单地增大肥尾来实现,与此同时,保持低阶矩(前两个阶矩或前三个阶矩)不变。
按照这个清单在由浅入深之前,有必要复习一下琴生(Jensen)不等式。
这么做的原因主要在于,Jensen不等式将告诉我们,分布尾部的概率与分布的尺度有着密切的关联。
Jensen不等式是说:对于凸函数而言,期望值的函数小于等于函数的期望值。
这是啥意思?凸函数又是什么?
假设现在有个函数Y=X^2,这就是一个典型的凸函数。我们来计算两个值:函数的平均值和平均值的函数:
函数的期望(平均值) = (1^2+2^2+3^2+4^2+5^2+6^2)/6 = 15.67
期望(平均值)的函数 = [(1+2+3+4+5+6)/6]^2 = 12.25
反过来说,正是由于期望的函数小于函数的期望,所以函数Y=X^2必然是凸函数。
设f(√a, x)为正态分布的密度(平均值为0),比较f(1/2(√1 a+√a+1),x)与1/2(f(√1-a,x)+f(√a+1,x))两者,两者之间的差异将归因于Jensen不等式。对于2个标准差外的尾部来说,绿色(期望的函数)小于红色(函数的期望),因此f(x)的这部分凸性。
恰巧,对于高斯分布的概率密度函数而言,尾部概率在分布上是凸的,因此Jensen不等式通过凸性,让概率密度函数的尾部与数学直觉产生关联。
如何关联呢?工具就是“随机化”标准差σ或方差σ^2——即改变分布的尺度来增大尾部,从而检验Jensen不等式对概率分布的影响。
如何随机化呢?“异方差”(Heteroscedasticity)是时间序列分析中用来描述一个具有波动尺度的过程的一般技术术语——即在均值不变约束下,给标准差σ或方差σ^2一个扰动。
任何Heavy Tail过程,即使是Fat Tail的幂律分布,都可以用下面至少两种方式来描(建模):
简单的方差变化的高斯分布——通过离散化的有限个观测值。
高斯加一系列跳跃的变量的组合——跳跃可以简单地建模为一个具有低方差和极大均值(和低发生概率)的高斯分布。因此,从技术上讲,Poisson分布可以被看作是混合的高斯分布。
先来看第一种启发式的建模方式——利用N(0,σ)高斯分布构建一个Fat Tail:
假设随机变量有一半的机会服从N(0,σ(√(1 a))这个“带系数√(1 a)的标准差”分布,而另一半的机会服从N(0,σ(√(1+a))(标准差乘以一个系数√(1+a)),其中0 a
显然,对于这个图形来说,一阶矩阵(均值)和三阶矩阵(偏度)都为0,二阶矩(方差)和N(0,σ)一样,都是σ^2,四阶矩(峰度)可以简单计算出来:
不过,简单的启发式仍然存在局限性——它虽然有助于直觉的建立,但却只能将峰度提高到高斯分布的两倍左右(3(a^2+1),0 a
我们再来看另一种建模方法:具有某些特定的程度偏离的方差项。
其中p∈ [0, 1),b=-a(p/(1-p)),其特征方程可以写成:
而四阶矩峰度为:
M(4) = 3((1-a^2)*p-1)/(p-1)
按照这个方程,如果p=1/1000,a=999,峰度值M(4)可以高达3000之多!
也就是说,峰度能提高到高斯分布的3000倍。
上面这种启发式方法很好地逼近了特征函数为对数正态加权时对概率的影响:
其中v是方差,Vv是二阶方差——通常称为波动率的波动率。按照分部积分,我们大家可以使用傅里叶变换来获得各种各样的收益。但是对方差的分布来说,以上表达并不容易处理。
当然,理论上存在一种更容易处理的方法:叫做伽马方差。
应用于高斯方差的伽马分布是让方差完全分布的有效捷径——它允许我们超越启发式的有限能力,也比对数正态分布更易于分析和操作。
所谓伽马方差,是假设高斯分布的方差服从伽马分布:
其中V代表均值(一级矩),V/√a代表方差(二级矩),如果保持两者都不变,对数正态图形和高斯伽马方差图形可以绘制在同一张图上进行直观对比:
实际上,更一般的总结,为了使标准差σ变得更加随机,至少有以下四种方法可以实现:
假设基本高斯分布,随机变量X N(μ,σ)。
使方差σ^2(或标准差σ)服从对数正态分布。我们可以计算矩——并可以证明,这样得到的分布不是幂律。
使方差σ^2(或标准差σ)服从伽马分布。
使1/σ^2(精度参数)服从伽马分布。
使1/σ^2服从对数正态分布。
可见,如果要随机化的方差得到幂律分布,一方面取决于我们对σ或σ^2进行随机化,另一方面则是对1/σ或1/σ^2进行随机化。
对不同的随机化方法计算密度函数和期望值,就产生了下面这张汇总表格:
LN代表对数正态分布,N是正态分布,G代表伽马分布,P代表帕累托分布
建立了Fat Tail的二维直觉后,接下来的问题接踵而至:尾部从哪里开始?
对于高斯函数,通过扰动与尺度相关的参数σ(标准差),使其变得更随机(而不是固定)。概率分布的一部分在密度上增加,另一部分则降低。这样,中间事件(肩部)的可能性较小,尾部事件(尾部)和中度偏差(中部)的可能性会较大。
钟形曲线的形状从峰部,肩膀到尾巴呈现凸凹凸的形状,我们假设尾部从概率分布外侧部分的凸性表达开始到分布的最大尺度,可以说,它受到随机波动(方差)效应的影响——即异方差。
由于在中心区和尾部呈现凸性,带有δ扰动的分布pδ(x)将大于等于没有δ扰动的分布p(x),这就是(a2,a3)区间的情况。尾部也是一样的,在x∈(-∞,a1)和x∈(a4,∞)的两个区间内,也满足pδ(x)≥p(x)。
再来看肩部凹性pδ(x)≤p(x)的情况:
对于高斯分布(μ,σ),通过将关于σ的二阶导数设置为0得到的解,即为尾部,肩部,头部的分界点a1-a4:
用σ来表达的话,分别是{ 2.13σ, .66σ, .66σ, 2.13σ}
对于幂律分布,比如尾指数alpha=3的Student T分布而言,四个点的解则为:
从以上两个计算还可以发现,当α增大时,幂律分布的交叉点将变成高斯分布的交叉点:
更一般地,对于一些单尾分布,具有凸-凹-凸的“钟形”,在某些条件下,相同的4个交叉点也成立。
对于一类具有幂律的一般对称分布,尾巴开始的位置是:
在这里,s为标准差,随机波动率在高斯情形下,会让α为无穷大。这时“尾部”开始的位置位于大约2到3个标准偏差σ之外。
但在实践中,由于小样本效应(肥尾分布会加重小样本效应),标准差σ的历史测量值会偏小,因此世纪偏差将稍稍大于2-3个标准差σ。
正如我们所看到的,对于黑天鹅来说,不仅仅是分布尾部的事件发生并扮演了重要的角色,更重要的是,它们的概率不容易被计算,很难被有效地利用——这意味着黑天鹅不一定来自偏离很远的肥尾巴(比如2-3个σ);黑天鹅问题更可能是由于对(偏离不那么离谱的)尾部事件的评估不准确造成的。
此外,黑天鹅的另一个重要特点,也可以从以上的数学直觉当中得到证明:未来的的极端事件不会与过去的极端事件相同,更重要的是,这种不同会随着分布尾巴的增大而变得更加显著。
这被称作Lucretius谬论。
既然两个重要的问题都得到了解答,那么,随机化的方差是否会得到幂律分布呢?在幂律分布当中,至少有一个矩是无穷大的。而这正是接下来要讨论的内容。
2
最基本的问题往往隐藏着惊奇。
我们把标准差σ和方差σ^2看作高阶矩的性质。但实际上,在胖尾分布当中,大多数人都错误地理解了标准差σ的意义。
标准差σ的计算公式是:σ = √(∑xi^2/n)
而另有一个概念叫做平均绝对偏差,Mean Absolute Deviation,MAD,
MAD的计算方法是:∑|xi|/n
这两者的区别可以从一张图中有所洞察:
比较√(K+x^2)和K+|x|的行为就会发现。随着随机变量x的偏离增加,两个加权函数之间的差异将增大,这解释了在肥尾下这两个函数之间发散性的区别。
而√(K+x^2)和K+|x|之间行为的区别,正是STD标准差和MAD平均绝对偏差的不同之处。
来看一个具体的问题吧:某只股票(或基金)的平均回报率为0%——它的绝对值平均每天移动1%;平均向上移动1%,平均向下移动1%——问题是:假设一年有256个工作日,它的收益标准差σ(即百分比变动)是多少?每日标准差是多少σ?年标准差是多少σ?
假如我们生活在高斯世界中,这个问题不难回答。
在这个世界中,收益率(或每日百分比移动)能够正常的使用正态分布安全地建模。也许你会回答每日标准差是σ大概是1%的水平,而年波动率大概是日波动率的√256倍,即16倍的16%——但在现实世界里,这个答案却是完全错误的。
原因在于这个问题的描述,采用的是平均偏差MAD,而不是STD。对于一个高斯随机变量来说,当其STD日移动百分比绝对值为1%时,其STD标准差的平均水平大概是1.25%。
这意味着STD并不是所有的上涨幅度都是1%,而是围绕1.25%——有些是0.6%,有些是1.45%——这是标准差σ的概念。
如果你根据观察或试验获得的数据拟合经验分布(Empirical Distribution)的话,这个值甚至会偏离得更远,到1.7%。
从这个故事当中,我们发现,人们有一种倾向——倾向于将MAD作为他们对STD的直觉。当从事金融市场和持续接触波动性概念的专业人士谈论标准差σ时,他们使用了错误的测量方法,即平均绝对偏差(MAD)而不是标准差σ(STD)——这带来的直接后果,就是导致数据被严重低估了20%到40%。
在某些市场,这一比例甚至可能高达90%。金融媒体上,一些记者在试图解释“波动率指数”(VIX)时也常常犯同样的错误,就连商务部的网站也错误地定义了这个波动性。
再以一个假想的极厚尾分布为例。对于集合X = {-1,-1,-1,-1,-1,10^6}而言,除了10^6一个数值之外,所有的观测值均为-1。对其计算平均绝对偏差MAD(X)=2;对其计算标准偏差STD(X)=1000。
在这里,STD/MAD的比值甚至高达惊人的1000/2 = 500!
这意味着,在高斯的世界里,即便STD/MAD的比率被认为是1.25左右,但对于极端肥尾的分布来说,这个比值会急剧上升到及其夸张的程度。
前面两个例子里,1.25,以及500所代表的这个比例,即h是由以上函数来表达的。从公式里可以发现,X的分布越是趋向于肥尾,h的数值就越大。究其原因,就在于,这种效应是由于STD和MAD两个函数之间的凸性区别带来的:MAD的|X|是分段线性的,除了原点周围的区域,它会失去凸性效应。
至此,一个有趣的问题来了:既然h的这个比例数值在肥尾的情况下变化无常,为什么还要采用呢?为什么人们通常都在使用1.25的这个比例数值呢?
这还要从历史说起。
1920年左右,埃丁顿(Eddington)和费舍尔(Fisher)就dn(平均偏差)和Sn(标准偏差)的相对优点发生了争论。费舍尔曾经指出:对于完全正态的观测,Sn的效率比dn高12%。
菲舍尔所说的效率,其实是渐进相对效率(Asymptotic Relative Efficiency,ARE),用以下公式表达:
渐近相对效率被定义为:随着样本量增长,相对效率极限的比较——相对效率是STD与MAD的效率之比。而效率意味着,如果方差或均方误差小,则估计值和“真实”值之间存在较小的偏差,即相对误差的大小决定了效率的高低。通过渐进相对效率,就能够比较出不同方法的优劣。
STD标准差的相对误差是多少呢?省掉繁杂的计算,这个值可以表达为:
然后是MAD的相对误差:
于是,对于高斯分,渐进相对效率ARE等于:
这意味着标准差STD比假设数据为高斯分布的平均差MAD“有效”12.5%((1-0.875)/1=0.125=12.5%)。
对于高斯分布来说,MD与STD之间的差别非常小,比值为√(π/2)=1.253。
通过查看标普500指数在过去47年中的日收益率的STD/MAD比例,作为高斯偏差的近似值,比率水平√(π/2)=1.253可以被看作视为厚尾性的切点。
但别忘了菲舍尔所说的那个重要的前提条件:对于完全正态的观测。
所以,你会看到h甚至高达500,因为这已经不是高斯所统治的世界了。在极端统治的世界里,肥尾会制造更大的惊喜。在非高斯的世界里,只是一点点的数据污染就能够极度放大h这个比率。
与其说ARE的比值很脆弱,倒不如说标准差STD比平均差MAD更加脆弱。相比MAD来说,STD并不是一个稳定分子。而历史却偏偏选中了STD的这个不稳定分子。而不是MAD。
那么,高斯之外的世界里,STD和MAD方法会带来哪些不同的结果呢?
考虑一个波动率的标准混合模型,其偶发跳跃概率为p。模型在两个高斯分布(保持平均数中心值为0)之间切换:
一个简单的蒙特卡罗模拟就可以了,其中p=0.01,n=1000
下图显示了模拟的结果。不难发现,从a=2开始,RE相对效率就开始发生了改变:0.01概率下一个很小的的离群值σ^2*(1+a)的存在,使MAD比STD更有效率。
更具体地说,5个标准差的离群值就让MAD的效率提高了5倍。
还有更多的证据。
与高斯分布的情况不同,再对有限方差幂律的平均偏差MD与标准偏差STD进行对比。从上图可见,由于具有尾指数α的Paretan随机变量的平方是具有尾指数α/2的Paretan,因此STD标准差具有无穷方差(MD是较瘦的分布)。
对于帕累托分布来说,MAD和STD的这个比值是一个与尾指数α有关的变量:
对于尾指数α=3的Student T分布来说,这个比值是:
种种迹象表明S,STD标准差的概念可以退休了,STD该让位于MAD了!
STD标准差的概念让大量的科学家走向谬误。现在是时候该淘汰它了,取而代之的是更有效的MAD平均偏差。至少有四个理由让我们这么做:
1) MAD在样本测量中比STD更精确,且波动性更小,因为它是一个自然权重,而标准差使用观测值本身作为其自身权重,将大权重赋予大观测值,从而使尾部事件权重过大。
2) 我们经常在方程中使用STD,但最终会在过程中将其重新转换为MAD(比如在金融领域,用于期权定价)。在高斯世界中,STD大约是MAD的1.25倍,但由于随机波动,STD通常是MAD的1.6倍左右。
3) 许多统计现象和过程具有“无限方差”的特点(比如常见的的Pareto 80/20分布),但对于这些现象而言,通常具有有限的、有时表现良好的MAD平均偏差——只要均值存在,STD存在,MAD就存在。但反过来的说法(MAD存在的同时STD却不存在)则不成立。可见,MAD要靠谱的多。
4) 许多经济学家驳斥了“无限方差”模型,认为这些模型意味着“无限的MAD”。因此,50年前,当伟大的贝诺伊特·曼德尔布罗特(Benoit Mandel-brot)提出他的无限方差模型时,经济学家们因为这种融合而惊慌失措。
令人悲哀的是,这样一个小问题会导致如此多的困惑:我们的科学工具远远超出了我们随意的直觉,这开始成为科学的一个问题。
标准差,STD,应该留给数学家、物理学家和数学统计学家来推导极限定理。在计算机时代,没有科学理由将其用于统计调查,因为它弊大于利,特别是随着社会科学中越来越多的人机械地将统计工具应用于科学问题。
如果有人刚刚让你测量过去五天你所在城市的温度(或公司的股价,或你叔叔的血压)的“平均每日变化”。这五个变化是:(-23,7,-3,20,-1)。你该怎么做?
平方它,相加,然后取平方根?或者你去掉正负号并计算平均数?——这两种方法有很大的不同。第一个的平均值是15.7,第二个是10.8。
第一种技术上称为均方根偏差STD。第二个是平均绝对偏差MAD——它与“现实生活”相对应,比第一种要更贴近实际理解。事实上,每当人们在得到STD标准差后做出决定时,他们的行为就好像是期望的平均偏差MAD。
这一切都是源于1893年一个历史性的意外:那一年,伟大的卡尔·皮尔逊为所谓的“均方根误差”引入了“标准差”一词——混乱从那时便开始蔓延:人们认为这意味着平均偏差。这一观点得到了证实:每当一家报纸试图澄清市场“波动性”的概念时,它都将其口头定义为平均偏差,但却产生了(较高)标准偏差的数值度量。
但犯错的不仅仅是记者:我记得看到美国商务部和美联储(fed)的官方文件参与了这场混战,甚至监管机构在有关市场波动性的声明中也参与了这场混战。更糟糕的是,戈尔茨坦和塔勒布也发现,大量的数据科学家(很多都是博士)在现实生活中也会感到困惑。
这正应了Fisher所说的那句话:“理解他所建议的——统计学家不能逃避这项责任。”
3
接下来,让我们详细了解下次指数类和幂律类——它们才是真正的肥尾。
回想一下,概率分布的范围介于极端薄尾(比如Bernoulli分布)和极端厚尾之间。
由于矩的收敛性,分布的类别通常是:
非退化的薄尾分布——比如伯努利分布,二项分布
类高斯分布
次指数分布——比如对数正态分布
指数α大于2的幂律——具有有限的平均值和方差
指数α小于或等于2但大于1的幂律——具有有限平均值,但不存在有限方差
指数α小于1的幂律——不存在有限的平均值和方差
我们的兴趣在于识别极端的世界,即分尾部事件起主导作用的情形,针对这一目的,找到平均斯坦和极端斯坦的正式边界就很重要了。
显然,这个边界就是次指数分布,它就是“瘦”和“胖”尾分布之间的分界。
它的定义如下:
其中F*2=F′*F是X1+X2的累积分布,即X的两个独立副本之和。这意味着X1+X2之和超过X值的概率是其中一个单独超过X的概率的两倍。
因此,对于足够大的X值,每次总和超过X时,必定是由于两个变量之一(大的那个)超过了X,而另一个变量的贡献是可以忽略不计的。
如何来构建一个介于瘦尾巴和胖尾巴之间的精确边界呢?
上式就是一个判定依据,如果λ=1,X就是薄尾一类分布。
这也被称作Lindy效应——这种理论认为,某些不易腐烂的事物(例如技术或思想)的未来预期寿命与其当前年龄成正比,因此,每增加一个生存期就意味着更长的预期寿命。当发生Lindy效应时,死亡率会随着寿命而降低——可见,这是一个稳健的模型,不易受到黑天鹅事件的影响。
如果λ>1,X就被归入肥尾分布。
如果满足以上条件,μ > 0, X就可以被看作是边界指数类型分布。
以上判据实在是太一般化了,有没有一个更加精确的边界呢?
你一定会同意,找出概率分布边界的最好方法不是发明判据。而是——直接发明一个。实际上,我们大家可以通过构造函数来实现这一点。比如,利用这样一组条件:
其中,F代表生存函数(值域在实数范围[0, 1])。生存函数通常是一系列事件的随机变量函数,用来表达一些基于时间的系统失败或死亡概率。
对于n=2的特例,构造函数可以写成:
由于生存方程的一般特点,可以采用sigmoid函数来构建:
接着就是概率密度函数和特征方程:
再之后就是二阶矩(方差)和四阶矩(峰度)计算。最终,峰度值的计算结果为21/5——这在某种程度上预示着构造函数的确比同方差的高斯分布只“肥”了一点点。看来我们做的不错——找到了一个薄尾和肥尾之间的临界状态分布。
从高斯分布转换到我们构建的次指数临界分布,图形上来看也非常接近。
下面,终于要严肃地讨论幂律分布这件事了。
在第二节的讨论当中,我们已经意识到,与传统认知相反,从自然法则的观点来看,幂律分布应该是普遍存在的,而高斯分布应该当作是特例。高斯分布通常带来稳健的直觉——这正是薄尾的特征。
前文关于胖尾巴的讨论,我们一直都停留在有限矩的情况下。
但无限矩的的存在是极端世界里的常态,Lindy效应判据当中的K值将不再重要,因为这时的K往往都在尾部出现,已经足够大了。
这在某种程度上预示着,对于极端情形下无标度的分布类型,将更接近帕累托分布尾部的情况。这样,我们可以通过尾指数的方式来看待无标度的分布类型:
对于足够大的x来说,PX>x = Cx^(-α),α是尾指数,C则是比例常数。
把高斯分布,对数正态分布,学生分布三种类型的分布放在一起对比,你就会发现:在尾部,学生分布仍然保持了可伸缩性(斜率基本不变),而标准对数正态分布最终在对数图上的斜率一直在增大——高斯分布更快地进入了终极状态fughedaboudit。
而且,尾指数α不是别的,只是P>x/x在对数图上的斜率——对于足够大趋近于
∞的x而言,log(P>x)/logx将收敛为一个常数。
这给了我们关于分布类之间差异的直觉——只有可伸缩(scalable)的分布才具有“真正的”肥尾,因为其它的类在求和下都会变成高斯分布。尾指数α是渐近的,再此我们可能永远也看不到终极形态——我们看到的是它的中间版本。
事实上,随着偏差的增大,尾指数的转换会变得非常混乱。
为了模拟幂律分布,可以采用学生T分布来模拟幂律分布——这样做是有道理的。因为对于某些类型的决策来说,分布的中心区并不是非常重要。
在学生T分布当中,尾指数越低,中心区的作用越小。尾指数越高,student T就越接近高斯分布。
在不对称情况下对幂律分布建模,使用Levy稳定非高斯分布是一种更先进的方法。
但Levy稳定非高斯分布也有替代品:使用两个不同指数的Pareto分布,一个用于左尾,另一个用于右尾,也可以完成这项模拟的工作。
可见,有许多方法可以从数据中估计尾指数α,这被称为“校准”。但是,往往由于尾部数据的不足,尾部指数是很难猜测的,而且它的校准也有误差。一般来说,数据会显示出比实际情况更细的尾部。
图书销售:从近尾的数据可以计算尾指数,并稳健地估计销售额,反之亦然。
继续探索,探索肥尾的极限分布,那就必然要提到对数帕累托分布了——它可以称作是所有肥尾分布之父。对数Pareto是对数正态分布的帕累托模拟。
其概率密度函数和生存函数可以写成:
对于常规的幂律分布而言,其渐进线性斜率在对数图上会趋近于-α;而对数帕累托分布则完全不同——它的斜率是趋近于——零。除了尾指数α=0的特性可以量化之外,任何矩都将不存在。
在极端的世界里,一直存在无穷矩的概念。就以无穷方差为例,在观测样本中你总是可以算出一个非无穷的方差——但这是不矛盾的——仅仅因为样本是有限的。
这就跟柯西分布一样,它甚至不存在确定的均值,但你总是会针对观测样本给出一个可测量的平均值——但是不同的样本会给出完全不同的平均值——因此真正意义上的均值并不存在。
对于无穷方差级数的二阶矩的平方根,我们在跳变之前甚至还观察到了伪收敛。
以上的例子说明了,当样本信息增加时,极端的世界里存在——矩的“漂移”效应。
而这正是极端世界多样性的最佳证明。
4
不管幂律分布如何构建,形式有多么的不同,它始终具备两个自己的核心特点:
属性1:和的尾部指数
设X1,X2,Xn是既不是独立的也不是同分布的随机变量,每个Xi服从一个不同的渐近尾指数αi分布(假设幂律类以外的随机变量有一个渐近α=+∞)。进一步假设我们关心的是分布的右尾(当我们把它应用到左尾时,参数保持不变)。
考虑加权和Sn=∑n wiXi,所有权重wi严格为正,考虑αs为和的尾指数。
结论是:对于所有wi>0,αs=min(αi)。
如果,α2 ≤α1,w2 >0,,下面的方程成立。
这在某种程度上预示着,添加一个具有无限均值、方差或更高矩的分布求和,将导致总和具有无限的均值、方差或更高矩。
说得再通俗一些,就是:混合幂律分布和细尾变量得到的还是幂律。
幂律分布+细尾分布=幂律分布
属性二:变换
设X是尾指数为α的随机变量,则X^p的尾指数是α/p。这个属性虽然看起来是良性的,但却非常恼人。这说明尾指数小于4的有限方差随机变量的方差是无穷的。
当无穷方差时,就会给随机波动模型带来问题。
这给了我们一个提示,在没有太多技术努力的情况下,随机变量的凸变换是如何加厚尾部的。
由于概率分布的不可观测性,“10西格玛”的说法通常意味着我们不在高斯世界——这种可能性更大。
因此,很容易被一个幂律所愚弄,误认为它是一个异方差Heteroscedasticity(即变化的方差,见第一小节)过程。事后看来,我们总是可以说:“条件波动率很高,在这样的标准差下,它不再是10西格玛,而仅仅是3西格玛的偏差。”。
揭穿这些说法的方法是借助一个反问题进行推理:一个具有恒定尺度的幂律分布是如何伪装成一个异方差过程的呢?大部分计量经济学对异方差的依赖是存在严重缺陷的——因为方差的方差是没有一点量化结构可言的。
上图显示了一个市场的回报率的波动性,而随机波动的直觉——假设方差是随机分布的——是可以解释得通的。
可即便我们对于极端的世界了解如此之多,未来仍然是无法预知的。火鸡问题就是游离在经验之外的一个典型例子。
西方在感恩节吃火鸡,感恩节前的每一天都要早上九点钟喂火鸡,火鸡感到很幸福,因为有人愿意一直养它,直到感恩节的那一天,所有的历史经验都化为乌有,它被宰了,跟所有的历史经验都不一样。
现代哲学之父,康德说:“经验里没有因果”。便是是人类对这一观点的最佳表达。
黑天鹅绝不是一个简单抽象的概念,其背后隐藏了极端世界观视角下一系列庞杂的细节,而这也是本文所试图展示的。当然,这一推理必须依靠严密的数学推演来进行,而不光光是逻辑。冯·诺伊曼曾说:“如果人们不觉得数学简单,那只是因为他们没有意识到生活到底有多么的复杂。”
在世界的复杂性面前,数学也许是简化认知难度的一条捷径。
▲