最大
似然估计(Maximum Likelihood Estimate,MLE),又称极大似然估计,是一种参数估计方法。其基本思想是建立参数值与产生特定数据集的可能性之间的函数关系,称之为“似然函数”,那么就可以根据这种似然函数找出最可能产生该特定数据集的参数水平,并把它们作为参数真实值的一种估计。
最大似然估计法是点估计中最常用的方法,它最早由
高斯(C.F.Gauss)在1821年提出,后经
英国统计学家
Fisher(R.A.Fisher)证明和完善。他对其性质进行了探讨,包括相合性、渐近正态性、不变性和充分性。
最大
似然估计的求解可以通过三步来完成,首先根据总体的分布写出似然函数,然后对似然函数取
对数并使其
导数等于0,即可求得参数的最大似然估计。一些常见的离散型分布以及连续型分布都可以通过这些步骤求解似然函数,进行统计分析。参数估计作为点估计中最常见的方法,在经济、系统工程、通信、新能源等领域实际问题的解决中应用广泛,如利用宽带雷达单脉冲测角的MLE算法估计多个散射中心的回波能量以提升单脉冲测角的性能、利用隐式最大似然估计的风电出力场景生成方法有效地描述风电出力的不确定性等。
定义
一个
随机变量中所包含的各种多数,包括显含的指数、系数,也包括隐含的均值、
方差等数字特征,虽然从理论上讲,参数水平不同的随机变量能生成相同的数据集,但不同参数水平的随机变量生成特定数据集的可能性是不同的。因此,如果建立参数值与产生特定数据集的可能性之间的函数关系,可以称之为“
似然函数”,那么就可以根据这种似然函数找出最可能产生该特定数据集的参数水平,并把它们作为参数真实值的一种估计,称为“最大似然估计”。
设总体是分布律为的离散型
随机变量,或是概率密度为的连续型随机变量,其中,为待估参数,为参数可能取值所构成的参数空间,是样本的一组观察值。
若存在使得成立,则称为参数的最大
似然估计值,为参数的最大似然估计量。
历史
19世纪末期,
卡尔·皮尔逊表明,只要理解了决定统计分布的参数,就能理解了统计分布,进而研究者就拥有了更好地理解从实验和观察研究中得到结果的有力工具。这一思想标志着参数
统计学研究领域得的诞生。同一时期,
罗纳德·费雪证明皮尔逊处理估计问题的方法有明显缺陷。为了解决这个问题,费希尔关注在一个分布参数的不同估计值下能够观测到此数据的概率。他希望找到能够使得观察到所收集数据的概率(通常称为数据的
似然)最大化的参数估计。
1821年,
高斯(C.F.Gauss)最早提出最大似然估计的思想。后来
英国统计学家
Fisher(R.A.Fisher)于1912年在《关于拟合频率曲线的一个绝对准则》一文中也提出了极大似然估计法。基于与天文学家
亚瑟·埃丁顿的有关估计
标准差的争论,
Fisher于1922年正式提出“充分统计量”的概念。同年,
Fisher在1821年高斯的基础上再次提出“最大似然估计”的想法并证明了它的一些性质,进而使得最大似然法得到了广泛的应用。之后,奈曼和哈勒姆斯分别在1935年和1949年对这些特性给出了更严格完备的证明。
相关性质
相合性
设简单随机样本来自密度函数为的分布,若在参数集上可微,且是可识别的(,不是零测集),则
似然方程在时有解,且此解关于是相合的(一致的)。
渐近正态性
若是满足一定条件的最大似然估计相合序列,则是的最优渐近正态估计。即当样本容量足够大时,近似。
不变性
如果是基于随机样本的最大
似然估计量,样本来自具有概率密度函数或
概率质量函数为的分布,而且是一一对应的函数,那么是的最大似然估计量。
充分性
假设随机样本的似然函数为,且是的充分估计量,其中参数,则最大化随机样本的似然函数的最大似然估计量也是最大化充分统计量的
似然函数的最大似然估计量。
求解方法
求解步骤
对于单参数的情况,设总体的概率密度为,为来自该总体的样本,用
导数法求最大似然估计的步骤如下:
第一步,根据总体的分布写出似然函数:。
第二步,取
对数。由于对数函数是严格单调增函数,故与在同一处取得最大值。在用微分法求最大似然估计时可以用代替,此时。
若有些函数在极点处不可导(比如函数图像为折线状时),这种情况就可以采用
梯度下降法寻找最值点的位置。
上述似然方程的解就是的最大似然估计值,也即其最大似然估计为。
对多参数的情况,其求解步骤与上述步骤相同,只需将
导数换为
偏导数即可。
实例
两点分布
设
随机变量取值0或1,且。于是的概率函数是。其中,未知,。
取
对数并对求导后知是唯一的最大值点,即的最大似然估计量为。
正态分布
设总体,为未知参数,是来自总体的样本,是对应的样本值。于是,的概率密度为,
似然函数如下:
,
解得,
回归分析
线性回归
因为线性回归模型的被解释变量,就是包含未知参数的
随机变量,而且当解释变量非随机,误差项服从正态分布时,被解释变量的分布已知为正态分布,因此完全可以用最大似然估计的方法估计线性回归模型中的未知参数。
两参数
设模型为,并假设其中的误差项满足古典模型的各个假设,而且也满足非
随机变量的假设。在这个模型中,要估计的参数包括显含的和,以及隐含的误差
方差。拥有的条件是已经得到和的一组观测样本。
由于是确定性变量,因此服从与相同名称的分布,而且有形式相同的分布密度函数。根据服从正态分布的假设,模型参数的
似然函数,
,和的最大似然估计是
,,
在模型的假设条件下,参数和的最大似然估计,与最小二乘估计是一样的,而的最大似然估计则与根据最小二乘估计残差构造的无偏估计量有所差异,因此前两个参数是无偏估计,但的最大似然估计不是无偏的。
多参数
对模型误差项和解释变量的假设,仍然是符合古典线性回归模型的各个基本假设。设模型用观测
向量和观测矩阵表示为。在上述假设下,的多元分布密度函数与的多元分布密度函数相同,即。
分别对
向量和
标量求
偏导数,并令它们分别为零向量和数值零,可得
,
这就是多元线性回归模型参数向量,以及误差项
方差的最大似然估计。与最小二乘估计是一样的,但则与有差异,因此不是的无偏估计。
非线性回归
对于非线性回归模型,只能在已知概率密度函数的明确的解析表达式时,才能得到最大似然估计量的解析解。因此,通常情况下,估计量最大似然估计没有解析解,只能寻找数值解,常用的方法是迭代求解的方法。最大似然估计的迭代求解是针对一个目标函数找到使得目标函数最大或者最小的参数的值。常见的迭代算法的思路为:(1)寻找初始值;(2)运用迭代的方式不断更新参数值;(3)根据一定的条件结束迭代的过程,找到最优值。
相关概念
最大
似然估计通过构造似然函数进行参数估计,而
统计学中还有一些其他的参数估计方法。下面介绍几种典型的方法。
矩估计
矩估计,即矩估计法,就是利用样本矩来估计总体中相应的参数。由
大数定律知,当总体阶矩存在时,样本的阶矩依概率收敛于总体的阶矩,据此可通过“样本矩=总体矩”建立方程组求得未知参数的估计量。用矩估计法得到的估计量称为矩估计量,相应的估计值称为矩估计值,矩估计量和矩估计值统称为矩估计。
区间估计
区间估计是根据置信度求置信区间。即把根据样本构造的两个统计量作为一个区间的两个端点,使这个区间包含参数真值的概率不小于一个预先给定的数,这种方法称为参数的区间估计。
贝叶斯估计
设总体和参数均为
随机变量且联合密度函数为的密度函数为为样本,是基于样本对参数的一个决策,为决策的损失函数,取
托马斯·贝叶斯风险函数为,如果存在一个决策满足其中为决策空间,则称为参数的贝叶斯估计。
应用
经济领域
创新既有可能促进经济增长,又有可能阻碍经济增长,同时,金融激励机制对创新活动与经济增长有重要影响。为研究创新与经济增长满足何种规律以及金融激励机制在其中的作用,可通过构建非线性回归模型研究金融激励机制和创新对经济增长的影响,采用对弱工具变量问题更不敏感的有限信息最大似然法对模型进行估计并对其中可能存在的金融激励影响机制以及异质性开展检验。
系统工程领域
单脉冲测角技术是指多个接收天线或馈源形成干涉基线,利用
射频和-差器形成和信号与差信号,并通过信号处理解算出目标角度的技术。电大尺寸目标的宽带散射回波可看成多个强散射中心的共同作用结果,回波表现为高分辨距离像的特点。如何利用多个散射中心的回波能量,以提升单脉冲测角的性能是值得深入研究的问题。宽带雷达单脉冲测角的最大似然估计(MLE)算法能够积累扩散到多个距离单元的回波能量,从一维高分辨距离像中获得
信噪比增益。而且,通过回波信号本身确定距离支集结合的MLE算法能够有效利用距离方向多个散射点的回波能量,提高测角精度。
通信领域
波达方向(DOA)是阵列
信号处理的一个重要分支,被广泛用于通信和声呐等领域。最大似然估计法可用于DOA估计中,这种方法不仅在高信噪比下性能逼近克拉美罗界(CRB),在低信噪比下也具有较好估计性能。但由于最大
似然估计法在计算过程采用多维非线性求解方式,导致运算量极大,不利于工程应用。于是,学者们将最大似然DOA估计与智能优化算法结合,这样既保证了估计性能又降低了计算复杂度。
新能源领域
随着风电渗透率的日益提高,如何有效地描述风电出力的不确定性成为了配电网运行和规划所面临的巨大挑战,为此,提出一种基于隐式最大似然估计的风电出力场景生成方法。针对风电出力曲线的数据特征,设计适用于风电出力场景生成的损失函数和网络结构。通过无监督训练使得场景生成器能够学习到高斯噪声与风电出力场景之间的映射关系。仅需调节模型中相关的参数,采用所提方法就能够生成不同时间尺度的风电出力场景。通过这种方法所得的预测区间平均宽度和预测区间覆盖率均优于大多数的生成对抗网络,且该方法对于不同的风电场具有一定的普适性。