峰度(kurtosis)亦称峭度、峰态、峰态系数等,是对统计数据分布陡峭程度的度量。峰度用于判断随机变量分布密度曲线的峰凸程度,通常与正态分布相比较。峰度系数是随机变量的四阶中心矩与
标准差的4次方的比率。峰度分为正态峰度、尖顶峰度和平顶峰度。对服从
正态分布律的数据,峰度等于或接近3。超额峰度(excess kurtosis)等于,定义超额峰度就是将其更好的与0作比较。
峰度一词则是由统计学家
卡尔·皮尔逊(Karl Pearson)于1905年首次提出的,是对数据分布平峰或尖峰程度的一种
测度。测度峰度的统计量是峰度系数,记作K。在这之前,
丹麦的特尔巴德·尼古拉·提勒(1838~1910)比卡尔·皮尔逊更早就已经开始研究峰度相关理论概念,但没有为
偏度、峰度单独命名。
峰度系数与偏度系数是概率统计中度量
随机变量密度曲线的重要特征量。在实际统计分析中,通常将
偏度和峰度结合起来运用,以判断样本变量分布是否接近于
正态分布。在实际中一个分布的偏度与峰度皆为0或近似为0时,常认为该分布为正态分布或近似为正态分布。关于这2个特征量的研究不仅在
数理统计学中得到广泛的关注,而且被运用到金融风险管理与决策、样本分析、审计预测等方面。
定义
峰度(kurtosis)亦称峭度、峰态、峰态系数等,是对统计数据分布陡峭程度的度量。用于判断
随机变量分布密度曲线的峰凸程度,通常与正态分布相比较。峰度系数是随机变量的四阶中心矩与
标准差的4次方的比率,计算公式为:
峰度分为正态峰度、尖顶峰度和平顶峰度。可以证明,对服从
正态分布律的数据,峰度等于或接近3。对绝大多数不服从正态分布律的数据,有这样的经验结果:当分布曲线较正态分布更加“陡峭”时,,并称为尖顶峰度;当分布曲线较正态分布“平坦”时,,并称为平顶峰度。一般来说,的值越大,则图形越陡峭,的值越小,则图形越平坦。
提出历史
峰度一词则是由统计学家
卡尔·皮尔逊(Karl Pearson)于1905年首次提出。是对数据分布平峰或尖峰程度的一种
测度。测度峰度的
统计量是峰度系数,记作。但是
丹麦的特尔巴德·尼古拉·提勒(1838~1910)比卡尔·皮尔逊更早就已经开始研究有关“倾斜的”分布,尤其在相关的累积量这一概念上,提勒甚至早于
英国的
统计学。从1889年提勒的论文中得知,对于平均差、
方差、
偏度、峰度等“倾斜的”分布的特征值他已经导入了与现代一致的内容,但没有为偏度、峰度单独命名。
表现形态
标准峰度
对服从
正态分布律的数据,峰度等于或接近3,称为标准峰度;当次数分布为
正态分布曲线时,。以此为标准就可比较分析各种次数分布曲线的峰度。
尖顶峰度
变量值的次数在众数周围分布比较集中,使次数分布曲线比正态分布曲线顶峰更为隆起尖峭,称为尖顶峰度;,表示分布曲线呈尖顶峰度,为尖顶曲线,说明变量值的次数较为密集地分布在众数的周围,且β值越大,分布曲线的顶端越尖峭。
平顶峰度
变量值的次数在众数周围分布较为分散,使次数分布曲线较正态分布曲线更为平缓,称为平顶峰度。,表示分布曲线呈平顶峰度,为平顶曲线,说明变量值的次数分布比较均匀地分散在众数的两侧,且值越小,分布曲线的顶峰就越平缓。一般当值接近于1.8时,分布曲线呈水平矩形分布形态,说明各组
变量值的次数相同。当值小于1.8时,次数分布曲线趋向“U”型分布。
计算方法
峰度系数一般都采用四阶中心矩与
标准差四次方的比值来度量数据平峰或尖峰形态偏离正态分布的程度。四阶中心矩为变量与其均值离差四次方之和的均值。这些均值、标准差等统计参数可用参数估计方法去获得,最后计算出峰度系数。各种估计方法如下:
点估计
当未知参数是数轴上的一个点,用估计量去估计参数,相当于用一个点估计另一个点,所以这样的估计称为点估计。
最大似然估计法
最大
似然估计将求解似然函数取得最大值时的参数值作为估计量,且此处的参数是一个未知的确定量,而不是一个随机量。最大似然估计的基本原理是:为了最大可能地获得样本集,且代表获得样本集的概率,只有当取得最大值时,才能使得该可能性最大,此时使得取得最大值的就是的最大似然估计。
皮尔逊矩估计法
在利用样本所提供的信息对总体分布中的未知参数作估计时,可以用样本矩作为相应的总体矩的估计,也可以用样本矩的某一函数作为总体矩的同一函数的估计,这种参数估计方法称为矩估计法,简称为矩法,由此所得的估计量称为矩估计量。
超额峰度
定义
超额峰度(excess kurtosis)等于,表示分布比
正态分布陡峭或者平坦的程度。定义超额峰度就是与0作比较,正态分布的超峰度为0,称为常峰态;如果超额峰度大于0,就表示高峰;如果超额峰度小于0,就表示低峰。故而超额峰度=样本峰度-3。
高峰肥尾
“高峰肥尾”就是说如果某个分布它是高峰的话,那它必然是肥尾。肥尾就是说某个分布的尾巴这个地方要比正态分布的厚。假设这组数据的
方差和正态分布的是一样的,也就是说
离散程度是一样的。但是,这组数据是
高峰的,说明这组数据中间的数据就比较集中。中间的数据比较集中,总体的离散程度相同,那就说明这组数据的分布的尾巴部分的离散程度就肯定比较分散。所以,尾巴部分的数据肯定就比较多,那这样就会造成高峰肥尾。
样本峰度
样本峰度反映了总体分布密度曲线在其峰值附近的陡峭程度。
正态分布的峰度为3,若样本峰度大于3,则说明总体分布密度曲线在其峰值附近比正态分布来得陡;若样本峰度小于3,则说明总体分布密度曲线在其峰值附近比正态分布来得平缓。峰度是用四阶矩定义的,对于任意一组单峰分布的数据 ,样本峰度的计算公式为:
图解示例
常见的
概率分布分为离散概率分布和连续分布。其中常见的离散概率分布包括二项分布、泊松分布、几何分布;连续分布包括均匀分布、正态分布、分布、分布、分布、指数分布等。峰度衡量
实数随机变量概率分布的峰态峰度高就意味着
方差增大是由低频度的大于或小于平均值的极端差值引起的。高斯分布的峰度为0。峰度大于0的分布也被称为超高斯分布,峰度小于0的分布被称关亚高斯分布。图中红色曲线表示拉普拉斯分布,峰度为3;
橙色曲线表示
双曲线正割分布(Hyperbolic Secant distribution),峰度为2;绿色曲线表示Logistic 分布,蜂度为1.2;黑色曲线表示高斯分布,峰度为0;
蓝色曲线表示升余弦分布(Raised Cosinedistribution),峰度为-0.59376;蓝色曲线表示 Wigner 半圆分布,峰度为-1;品红色曲线为均匀分布,峰度为-1.2。
皮尔逊Ⅲ型分布曲线图(伽马分布)
英国生物学家
卡尔·皮尔逊通过大量的分析研究,提出一种概括性的曲线族,包括13种分布曲线,其中第Ⅲ型曲线被引入水文计算中,成为当前水文计算中常用的频率曲线。皮尔逊Ⅲ型曲线是一条一端有限,一端无限的不对称单峰,正偏曲线(见图),数学上称伽马分布。
皮尔逊相关系数分布图—电力
基于皮尔逊相关系数融合密度峰值和熵权法的有效性,分别与基于欧式距离融合密度峰值和熵权法和应用最为广泛的传统K-means聚类方法进行对比分析。基于皮尔逊相关系数的后向场景缩减算法对5个光伏聚类簇进行场景缩减,获取的5个典型光伏场景。获取的5个典型风电场景图形差异不大,出力峰值集中在中午时段。伽马分布。
正态分布曲线
正态分布曲线正态分布密度的图形称作正态分布曲线:曲线关于直线对称;参数μ决定曲线的位置,参数决定曲线的形态;曲线和横坐标轴所夹面积等于1,曲线和任意区间所夹的面积恰好等于
随机变量X在该区间取值的概率。该图像符合峰度曲线。
拉普拉斯分布曲线图
皮埃尔-西蒙·拉普拉斯分布通常又被称为拉普拉斯第一错误定律,由拉普拉斯于1774年提出,用于描述错误出现的频率和误差之间的函数关系。假设X服从参数为的拉普拉斯分布,其密度函数为:
其中为位置参数,为尺度参数。拉普拉斯分布的密度函数是不光滑的函数。
柯西分布曲线图
柯西分布(Cauchy distribution)是以
奥古斯丁-路易·柯西与
亨德里克·洛伦兹名字命名的连续
概率分布,也称柯西一洛伦兹分布。柯西分布在物理学中十分重要。它不仅是描述受迫
共振的
微分方程的解,而且在光谱学中也用于描述被共振或者其他机制加宽的
谱线形状。其概率分布函数是:
柯西分布曲线的形状也是倒钟形,如不与正态曲线比较会误以为是正态曲线。将标准正态曲线与标准柯西分布曲线比较可见:柯西分布的峰较标准正态分布低,而其尾侧下降到0的速度远比正态曲线缓慢。
威布尔分布曲线图
变换后的威布尔分布是指数分布,则对威布尔分布的判断可以转换为对指数分布的判断,其前提是要对
随机变量进行幂变换。威布尔分布密度函数具有以下形式:
由图可知,形状参数可以改变密度函数分布的形状:小于1时,密度单边下降拖尾;等于1时为指数分布;大于1时,呈现单峰分布,随着参数的上升,峰高不断上升。
正弦压力分布曲线图
许多
工程力学问题由于计算规模过大而得不到解。在此,针对实际问题的需要,推导出厚壁圆筒受正弦分布压力的解析解。不同的外半径建立相应的位移函数、
应力函数。这里,将这种随外半径,而变化的位移函数、应力函数称为变位移函数、应力函数。下图为正弦压力分布图。
t分布曲线图
t的
概率分布曲线与标准正态分布曲线相似,也是钟形对称的,中心最高,两边迅速下降,两端向无穷延伸。在
抽样分布中统计量与对应的的差别在于的分母(标准误)是由样本资料估计的,而Z的分母(标准误)是由总体参数得到的。
F分布曲线图
设有两个总体X、Y,已知,并且与相互独立,则称
随机变量是服从第一自由度为,第二自由度为的分布。分布的形状会随所包含的两个自由度的不同而有所不同。
泊松分布曲线图
泊松分布(Poisson
广义函数)是一种重要的离散型分布,若离散型随机变量可取一切
自然数值,且有,则称服从参数的泊松分布,其中,是
自然对数的底,此分布的平均值,
标准差。
二项分布曲线图
只有两个可能结果的试验称为
雅各布·伯努利试验。记出现事件为成功,出现的反面为失败,满足。若试验重复次,每次事件出现概率均保持不变,则称这种试验为重伯努利试验。在重伯努利试验中,记为事件出现的次数,则的分布列为:,其中。这个分布称为二项分布,记为。
均匀分布曲线图
均匀分布是一种常见的连续型
随机变量分布,即随机变量在确定的区间中,所取得每个值具有
等可能性的分布。
若是两个有限数,且随机变量的密度函数为: 则称服从上的均匀分布,记为。
相关概念
偏度
在实际统计分析中,通常将
偏度和峰度结合起来运用,以判断变量分布是否接近于
正态分布。偏度亦称“偏斜度”“偏态系数”,是对统计数据分布偏斜程度的度量,是描述分布非对称程度的数字特征。偏度(skewness)是利用三阶矩来定义的,对于任意一组数据
,称为其
偏度。分布的偏斜有右偏(亦称正偏)和左偏(亦称负偏)两种情形对绝大多数非对称分布数据而言,若右偏,即较小的数据比较集中时,;若左偏,即较大数据比较集中时,则。
矩
在力学和物理学中,用矩(moments)来描绘质量的分布。例如,一阶矩是重心一质量分布的中心位置。
统计学中,矩用来描绘数据的分布,如
平均数是一阶矩,它是数据分布的中心位置。
方差、平均
离差等也都是矩,
变异系数也是通过矩来计算的。因此矩是描绘数据分布特点的一类数字特征,统计数据的许多数字特征是通过矩来定义的,在理论研究和实际应用中都具有十分重要的作用。常用的矩有原点矩(origin-moment)和
中心矩(central-moment)两大类。
最大熵
华盛顿大学的物理学家杰恩斯(E.T.Jaynes )在1957年提出了一种推理观点:在只掌握部分信息的情况下要对系统状态进行推断时,我们应该取符合约束条件但
熵值取最大的状态作为一种合理状态。熵与用相对频率计算的样本或在特殊类型中作为它们概率的非偏估计发生的数目有关。熵的基本函数也不仅限于离散的线性、分数形式的频率、几率、概率。典型的几种常见约束条件下最大
信息熵函数如几率分布、均匀分布、指数分布、高斯(正态)分布、几何分布、韦伯分布、混沌状态下熵分布函数和模糊不确定状态下模糊熵分布函数等都可以描述系统各种信息变量的属性。
gaussian(正态)分布是最大熵分布。
统计量
通常根据样本的实际数值计算一些统计量,这些统计量称为样本统计量。表示在计算样本统计量时,并没有利用统计分布的有关参数,只是利用了实际可得到的样本数据值,期望通过这些样本统计量可推断总体分布的有关参数值。
样本均值定义
假设我们得到
随机变量X的N个样本xi,样本均值定义为:
样本众数、样本中位数及样本百分位数
在得到随机变量X的N个样本后,我们可以按照这些样本出现的频率绘出频率分布图。根据该图,可以找出频率出现最多的样本点,这个样本点就是样本众数。如果在频率分布图上画一条竖线,样本在该竖线两边出现的频率是
相等的,那么这条竖线对应的数值就是样本的中位数。如果在频率分布图上画一条竖线,样本在该竖线左边出现的频率为p%,那么这条竖线对应的数值就是样本的第p百分位数。
样本方差和标准差
样本标准差的计算公式是:
样本协方差及样本相关系数
对于两个随机变量X、Y的N个样本,样本协方差的计算公式是:
样本相关系数的计算公式是:
相关应用
样本分析
在实际统计分析中,通常将
偏度和峰度结合起来运用,以判断样本变量分布是否接近于正态分布。在实际中一个分布的偏度与峰度皆为0或近似为0时,常认为该分布为正态分布或近似为正态分布。通常假设样本的分布属于正态分布,因此需要用偏度和峰度来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度,而
峰度衡量的是样本分布曲线的尖峰程度。由偏度检验的正态分布常用于近似描述一些生产与科学实验中
随机变量的
概率分布,还有一些常用的
概率分布是直接由正态分布导出的,例如
对数正态分布,分布、分布和分布。当峰度指标β\u003e3,表示分布比正态分布更集中在
平均数周围,分布呈尖峰状态;β=3,分布为正态分布;β\u003c3,表示分布比正态分布更分散,分布呈低峰状态。峰度指标的形态如图所示。
金融投资领域
传统的均值·
方差模型是在一定的期望收益水平下使得方差最小化,或者在一定的方差条件下使得期望收益最大化,而峰度可以理解为对一个投资中赌博成分高低的衡量。因为极端结果发生的概率越高,该项投资就越像是一个纯粹的赌博。因此,对于长线投资者来说,各种因素作用后的综合性结果极其重要。正因为如此,大部分投资者都希望峰度能够尽可能地低。因此,分布模型是在方差和峰度一定的条件下使得期望收益最大化。模型如下:
审计领域
审计人员可以用峰度分析来确定被审计单位的数据是否存在异常。例如,正常情况下,某单位的人员月工资以3000元为中心呈正态分布。审计人员通过检查被审计单位的工资,发现了显著的尖顶峰度,即每人工资非常集中在一定数额,低于或高于此金额的很少,则可判断该单位有可能出现假账,即该工资费用是专门用来对付审计或税务检查的,以减少
个人所得税的缴纳等。