百分位数

更新时间:2024-10-11 21:04

统计学术语,如果将一组数据从小到大排序,并计算相应的累计百分位,则某一百分位所对应数据的值就称为这一百分位的百分位数。可表示为:一组n个观测值数值大小排列。如,处于p%位置的值称第p百分位数。

详细释义

说明一:

用99个数值或99个点,将按大小顺序排列的观测值划分为100个等分,则这99个数值或99个点就称为百分位数,分别以Pl,P2,…,P99代表第1个,第2个,…,第99个百分位数。第j个百分位数j=1,2…100。式中Lj,fj和CFj分别是第j个百分位数所在组的下限值、频数和该组以前的累积频数,Σf是观测值的数目。

百分位通常用第几百分位来表示,如第五百分位,它表示在所有测量数据中,测量值的累计频次达5%。以身高为例,身高分布的第五百分位表示有5%的人的身高小于此测量值,95%的身高大于此测量值。

百分位数则是对应于百分位的实际数值

说明二:

中位数是第50百分位数。

第25百分位数又称第一个四分位数(First Quartile),用Q1表示;第50百分位数又称第二个四分位数(Second Quartile),用Q2表示;第75百分位数又称第三个四分位数(Third Quartile),用Q3表示。若求得第p百分位数为小数,可完整为整数。

分位数是用于衡量数据的位置的量度,但它所衡量的,不一定是中心位置。百分位数提供了有关各数据项如何在最小值与最大值之间分布的信息。对于无大量重复的数据,第p百分位数将它分为两个部分。大约有p%的数据项的值比第p百分位数小;而大约有(100-p)%的数据项的值比第p百分位数大。对第p百分位数,严格的定义如下。

第p百分位数是这样一个值,它使得至少有p%的数据项小于或等于这个值,且至少有(100-p)%的数据项大于或等于这个值。

高等院校的入学考试成绩经常以百分位数的形式报告。比如,假设某个考生在入学考试中的语文部分的原始分数为54分。相对于参加同一考试的其他学生来说,他的成绩如何并不容易知道。但是如果原始分数54分恰好对应的是第70百分位数,我们就能知道大约70%的学生的考分比他低,而约30%的学生考分比他高。

计算步骤

下面的步骤来说明如何计算第p百分位数。

第1步:以递增顺序排列原始数据(即从小到大排列)。

第2步:计算指数i=np%

第3步:

l)若 i 不是整数,将 i 向上取整。大于i的毗邻整数即为第p百分位数的位置。

2) 若i是整数,则第p百分位数是第i项与第(i+l)项数据的平均值。

除了以上方法,再介绍另外一种方法,这种方法是SPSS所用方法,也是SAS所用方法之一。

第一步:将n个变量值从小到大排列,X(j)表示此数列中第j个数。

第二步:计算指数,设(n+1)P%=j+g,j为整数部分,g为小数部分。

第三步:1)当g=0时:P百分位数=X(j);

2)当g≠0时:P百分位数=g*X(j+1)+(1-g)*X(j)=X(j)+g*[X(j+1)-X(j)]。

应用

在传统的直线回归分析中, 常采用最小二乘法,同时要求数据的独立性、正态性及常数方差,即给定自变量 时因变量的条件分布为正态分布,且不同时的方差相同。其目的是根据给定的自变量估计因变量的均数及其可信区间或估计因变量的容许区间或参考值范围等。但医学研究中,某些资料不满足上述要求,特别当观察值中有离群值、强影响点时,所拟合的回归直线因“迁就”这个些离群值、强影响点而使整体的拟合结果产生不同程度的偏离 以致影响了稳定性。 再者,当条件分布不是正态或方差不为常数时,亦不宜用最小二乘法估计回归系数。 经过变量变换法的处理虽能解决部分问题,但由于各种变换法的规律难以掌握,对变换效果的估计往往不准。有时甚至经多种尝试而终未见效。 不满足上述条件时可采用直线回归方法——百分位数回归。

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}