泊松回归(
英语:
西莫恩·泊松 regression)是用来为
计数资料和列联表建模的一种回归分析。
泊松回归模型
代表由一组相互独立的变量组成的
向量,其泊松回归的模型形式为:
亦可简洁表示为:
此处,是 维的向量,由 个独立变量(自变量向量)一个常向量(元素取值全为1)构成,用一个 θ代表第一个表达式当中的 α和 β。
因此,当已知泊松回归模型当中的 θ和解释变量,其满足泊松分布的被解释变量的
期望值可以由下式来预测:
是被解释变量的观测值,相应的解释变量为 ,可由极大似然估计(Maximum Likelihood estimation)的方法来估计参数 θ。极大似然估计不能通过解析表达式获得解析解,是由其
对数似然函数为凸函数的特性,可通过Newton–Raphson 或其他基于
梯度下降的思想方法来进行参数估计。
极大似然估计
如上所述,已知泊松回归模型当中的 θ和解释变量 , 其回归表达式为:
泊松分布的概率密度函数为:
现已知解释变量的观测值为由 m个
向量组成 对应 m个被解释变量的观测值, . 若同时已知 θ, 则该组观测值所对应的联合概率可由下式表达:
极大似然方法估计 θ的核心思想是,去找到能使得基于当前观测值的联合概率尽可能达到最大的 θ。(可理解为:变量的取值当前观测值,与取值为其他任何数值相比,是发生概率最高的事件)。既然目标是寻找到最优的 θ,可以先将上式的等号左边简单表达为关于 θ的表达式:
注意等号右边的表达式并未改写,但通常难于付诸计算,因而采用其
对数变化后的表达式( log-likelihood)即:
由于 θ仅出现在似然函数的前两项,因而在极大化似然函数的运算过程中,可以只考虑前两项。可以删去第三项 ,待优化的似然函数可以简洁表达为:
可以通过对其似然函数取负值(negative log-likelihood),
是一个凸函数, 标准的凸优化方法可以考虑来求解θ的最优值。统一的方法是Newton-Raphson 与Iterative Weighted Least
史克威尔(IWLS)算法。给θ一组初始值,IWLS 是通过多次迭代更新直到θ收敛。
简介
泊松回归,并假设它
期望值的
对数可被未知参数的线性组合建模。泊松回归模型有时(特别是当用作列联表模型时)又被称作对数-线性模型。
2014年巴西世界杯,所有的数据分析专家都以数据为准,分析员最后都会将其整合成模型。通常情况下,建模人员会把问题从“哪一支队伍会胜出”改为“X队和Y队比赛,X队会进多少个球”,这里使用到的是一种名为“双变量泊松回归分析法”(bivariate Poisson regression)。
“双变量”指的是,在做出某个单一结果的预测时需要参考两个相互影响的因素,比如一场比赛中的X队和Y队的表现。“回归分析法”指将即有数据填充到模型中去。而“泊松分布”则是很有趣的分析方法。
试想像,你站在路旁,想要知道一分钟会有多少汽车急驰而过。首先,你必须收集数据。利用秒表和计数器,第一分钟,假设有15辆车驶过;第二分钟,18辆;而下一分钟只有4辆。持续记录下去,你就可以得到一个模型,这便是“泊松分布”的原型。这项分析方法是由
法国数学家
西莫恩·泊松提出,用于估测人们做出错误判断的几率。
根据泊松分布,足球比赛的结果同样具有分散性。一支足球队进1或2个球的可能性最大,其次为不进或者进3个,而进4或5个球(或者更多)的几率则大大下降。于是建模人员会根据这支队伍之前的表现,通过泊松分布制图,预测出它们之后得分的情况。
案例分析
观众们就开始预测结果并且在体育赛事上投下赌注;而近些年,一种与众不同的数据分析法逐渐雄踞赛事预测市场。高盛,彭博以及纳特·西弗的538(Five Thirty Eight)官网都利用数据,来对比赛的结果做出最为准确。高盛预测本土作战的巴西有的几率拿下冠军;538给出的几率是,而彭博认为巴西夺冠的几率仅仅只有。