四分位数(Quartile)应用于
统计学中的
箱形图绘制,是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。第三四
分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。Excel 中有两个四分位数的函数。以上引文中,w代表分位数位置,y代表位置的整数部分,z代表位置的分数部分。
概念
第一四分位数 (Q1),又称“较小四分位数”,等于该样本中所有数值由小到大排列后第25%的数字。
第二四分位数 (Q2),又称“
中位数”,等于该样本中所有数值由小到大排列后第50%的数字。
第三四
分位数 (Q3),又称“较大四分位数”,等于该样本中所有数值由小到大排列后第75%的数字。
第三四分位数与第一四分位数的差距又称四分位距(InterQuartile Range,IQR)。
示例
首先确定四分位数的位置:
Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75
n表示项数
对于四分位数的确定,有不同的方法,另外一种方法基于N-1 基础。即
Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75
Excel 中有两个四分位数的函数。QUARTILE.EXC 和QUARTILE.INC
QUATILE.EXC 基于 N+1 的方法,QUARTILE.INC基于N-1的方法。
引证:1.
minitab软件自带“公式与方法”(methods and formulas)
内,关于第一四分位数的原文如下:
1st quartile (Q1)
Twenty-five percent of your sample observations are less than or
相等 to the value of the first quartile. Therefore, the first quartile is also refer
红色 to as the 25th percentile. Q1 is calculated as follows:
let
w = (N+1)/4
y = the truncated integer value of w
z = the fraction component of w that was truncated away
Q1 = x(y) + z(x(y+1) - x(y))
Note: when w is an integer, y = w, z = 0, and Q1 = x(y)
Seventy-five percent of your sample observations are less than or
相等 to the value of the third quartile. Therefore, the third quartile is also referred to as the 75th percentile. Q3 is calculated as follows:
let
w = 3(N+1)/4
y = the truncated integer value of w
z = the fraction component of w that was truncated away
Q3 = x(y) + z(x(y+1) - x(y))
Note: when w is an integer, y = w, z = 0, and Q3 = x(y)
以上引文中,w代表
分位数位置,y代表位置的整数部分,z代表位置的分数部分。
2. 论四分位数的计算(
湖南工学院工商管理系 祁德军 南华大学数理学院 陈明)
(原文截图)
实例1
数据总量: 6, 47, 49, 15, 42, 41, 7, 39, 43, 40, 36
由小到大排列的结果: 6, 7, 15, 36, 39, 40, 41, 42, 43, 47, 49
一共11项
Q1 的位置=(11+1) × 0.25=3, Q2 的位置=(11+1)× 0.5=6, Q3的位置=(11+1) × 0.75=9
Q1 = 15,
Q2 = 40,
实例2
数据总量: 7, 15, 36, 39, 40, 41
一共6项
数列项为偶数项时,四分位数Q2为该组数列的中数,Q1为前半组(6项即为前3个数)的中数,Q3为后半组数字的中数,此时
Q1 = 15,
Q2 = (36+39)/2= 37.5,
Q3 = 40.
1、将数据从小到大排序,计为数组a(1 to n),n代表数据的长度
2、确定四分位数的位置:b= 1+(n-1) × 0.25= 2.25,b的整数部分计为c b的
小数部分计为d
计算Q1:Q1=a(c)+[a(c+1)-a(c)]*d=a(1)+[a(2)-a(1)] *0.25 =15+(36-15)×(2.25-2)=20.25
3、计算如上 Q2与Q3的求法类似,四分位差=Q3-Q1
应用
不论Q1,Q2,Q3的变异量数数值为何,均视为一个分界点,以此将总数分成四个
相等部份,可以通过Q1,Q3比较,分析其数据变量的趋势。
四分位数在
统计学中的
箱形图绘制方面应用也很广泛。所谓箱线图就是 由一组数据5 个特征绘制的一个箱子和两条
线段的图形,这种直观的箱线图不仅能反映出一组数据的分布特征,而且还可以进行多组数据的分析比较。这五个特征值,即数据的最大值、最小值、
中位数和两个四分位数。即:
有关算法
将n个数从小到大排列:
当n为
奇数时,中数Q2将该数列分为数量
相等的两组数,每组有 (n-1)/2 个数,Q1为第一组 (n-1)/2 个数的中数,Q3为为第二组(n+1)/2个数的中数;
当n为偶数时,中数Q2将该数列分为数量相等的两组数,每组有n/2数,Q1为第一组 n/2个数的中数,Q3为为第二组 n/2 个数的中数。