更新时间:2024-06-27 11:44
茎叶图(Stem-and-Leaf display)又称“枝叶图”,是在20世纪早期由英国统计学家阿瑟·鲍利(Arthur Bowley)设计,1977年统计学家约翰托奇(John Tukey)在其著作《探索性数据分析》(exploratory data analysis)中将这种绘图方法介绍给大家,从此这种作图方法变得流行起来。
茎叶图的思路是将数组中的数按位数进行比较,将数的大小基本不变或变化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。
茎叶图有三列数:左边的一列数统计数,它是上(或下)向中心累积的值,中心的数(带括号)表示最多数组的个数;中间的一列表示茎,也就是变化不大的位数;右边的是数组中的变化位,它是按照一定的间隔将数组中的每个变化的数一一列出来,像一条枝上抽出的叶子一样,所以人们形象地叫它茎叶图,如图1所示。
茎叶图是一个与直方图相类似的特殊工具,但又与直方图不同,茎叶图保留原始资料的资讯,直方图则失去原始资料的讯息。将茎叶图茎和叶逆时针方向旋转90度,实际上就是一个直方图,可以从中统计出次数,计算出各数据段的频率或百分比。从而可以看出分布是否与正态分布或单峰偏态分布逼近。
茎叶图在质量管理上用途与直方图差不多,但它通常是作为更细致的分析阶段使用。由于它是用数字组成直方图,所以在做的时候比直方图时,通常我们常使用专业的软件进行绘制。
1、用茎叶图表示数据有两个优点:
(1)从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;
(2)茎叶图中的数据可以随时记录,随时添加,方便记录与表示。
茎叶图只便于表示个位之前相差不大的数据,而且茎叶图只方便记录两组的数据。两个以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰。
下面有一堆数据共30个:
89、79、57、46、1、24、71、5、6、9、10、15、16、19、22、31、40、41、52、55、60、61、65、69、70、75、85、91、92、94
画出的茎叶如下:
茎|叶
0 | 1 5 6 9
1 | 0 5 6 9
2 | 2 4
3 | 1
4 | 0 1 6
5 | 2 5 7
6 | 0 1 5 9
7 | 0 1 5 9
8 | 5 9
9 | 1 2 4
比如第二行的数字:
1 | 0 5 6 9,
它们代表数据集中有10、15、16和19四个数字。
可以这样理解茎+叶=实际的数值,如 1|0 5 6 9 中茎值为1,叶值为 0、5、6和9共四个叶值。
其真实数值计算方式:茎值连接叶值,也就是说当茎值是1,叶值是0时,连接起来就是真实数值10。
现在有一堆30个数据:
41、52、6、19、92、10、40、55、60、75、22、15、31、61、9、70、91、65、69、16、94、85、89、79、57、46、1、24、71、5
画出的茎叶如下:
0 | 1 5 6 9
1 | 0 5 6 9
2 | 2 4
3 | 1
4 | 0 1 6
5 | 2 5 7
6 | 0 1 5 9
7 | 0 1 5 9
8 | 5 9
9 | 1 2 4
比如第二行的数字如下:
1 | 0 5 6 9
则代表数据集中有10、15、16和19四个数字。
注意:一个茎可以有很多叶也可以不出现叶。
将所有的数列出,找出中间的数,奇数个为一个,偶数时中间两个数的平均数,即为中位数。
举个例子,如图2所示,列出数:2、10、15、20、23、27。中间的数是(15+20)/2=17.5,即17.5为中位数,假如中间加上一个数22,中位数则变成了20。