更新时间:2023-11-14 15:13
质量数据是指某质量指标的质量特性值。 狭义的质量数据主要是产品质量相关的数据,如不良品数、合格率、直通率、返修率等。广义的质量数据指能反映各项工作质量的数据,如质量成本损失、生产批量、库存积压、无效作业时间等。这些均将成为精益质量管理的研究改进对象。
由于质量一词含义丰富,既包括狭义的产品质量,也包括广义的工作质量,因而质量指标在企业中就多种多样,质量数据在企业中几乎无处不在。 在质量数据统计分析中,特别关注三项指标,一是数据的集中位置,二是数据的分散程度,三是数据的分布规律。数据的集中位置分别有平均值、中位数、众数三种 表示方法,其各具优缺点,其中平均值最为普遍常用。数据的分散程度由标准差表达,用符号s(西格玛)表示,数据的分散程度在质量管理中就是质量特性值的波 动性,反映过程能力。
数据的分布规律在质量管理中对统计总体而言为正态分布,该分布规律是理论和实践证明的统计规律。质量数据统计分析重点就是在总体正态分布这个已知背景下研究该正态分布的平均值和标准差。质量数据定量化分析对企业质量管理以及经营管理具有重要意义,其是精益质量管理的基础。
1.波动性,即在相同的生产技术条件下生产出来的一批产品,其质量特性数据由于受到操作者、设备、材料、方法、环境等多种因素的影响而总存在着一定的差异; 2.规律性,即当生产过程处于正常状态时,其质量数据的波动是有一定规律的。
数据录入过程
质量数据是指由个体产品质量特性值组成的样本(总体)的质量数据集,在统计上称为变量;个体产品质量特性值称变量值。 根据质量数据的特点,可以将其分为计量值数据和计数值数据。
1.计量值数据
计量值数据是可以连续取值的数据,属于连续型变量。其特点是在任意两个数值之间都可以取精度较高一级的数值。它通常由测量得到,如重量、强度、几何尺寸、标高、位移等。此外,一些属于定性的质量特性,可由专家主观评分、划分等级而使之数量化,得到的数据也属于计量值数据。
2.计数值数据
计数值数据是只能按0,1,2,……数列取值计数的数据,属于离散型变量。它一般由计数得到。计数值数据又可分为计件值数据和计点值数据。
(1)计件值数据,表示具有某一质量标准的产品个数。如总体中合格品数、一级品数。
(2)计点值数据,表示个体(单件产品、单位长度、单位面积、单位体积等)上的缺陷数、质量问题点数等。如检验钢结构构件涂料涂装质量时,构件表面的焊渣、焊疤、油污、毛刺数量等。
很多用户甚至一些数据仓库项目的开发人员经常将数据质量和数据仓库项目开发中的ETL过程的数据一致性混为一谈,错误的认为数据仓库项目(也即ETL过程)能够修复数据以提高数据质量,其实数据质量和ETL过程的数据一致性是两个不同的概念。ETL过程的数据一致性是指根据相同的业务理解(基于源系统模型和基于数据仓库模型),在源系统查询和统计的信息与在数据仓库中得到的结果在各个细节层次(包括明细层次)上都是相同的。数据一致性是ETL过程必须保证的。质量是数据存在于企业的源系统中的,如常见的客户代码的不规范,同一个客户在不同的系统中(例如业务处理系统和财务系统)有不同的代码,甚至同一个客户在同一个系统中也有不同的代码,以保险公司的业务处理系统为例,同一个客户先后在同一个保险公司投保,不同的业务员可能会输入不同的客户代码;更常见的是那些没有实现大集中的分布式的应用,同一个客户(如工商银行)在不同的分公司(如河南分公司和湖北分公司)投保,业务员很可能会输入不同的代码;再如,在业务处理系统中,有些录入人员为了录入的方便,常常将一些内容不输或者采用默认值,造成一些重要录入信息的缺失或错误。这些数据质量问题对数据分析系统造成严重的干扰和破坏。数据仓库项目虽然不能够修复数据以提高数据质量,但能发现存在的部分问题从而提醒用户哪些数据是有质量问题的,给出用户一些改进的建议,同时在分析和决策时应降低对这些数据的依赖程度,也可以提供辅助的方法跟踪、监测数据质量问题。
(一)全数检验
全数检验是对总体中的全部个体逐一观察、测量、计数、登记,从而获得对总体质量水平评价结论的方法。
(二)随机抽样检验 抽样检验是按照随机抽样的原则,从总体中抽取部分个体组成样本,根据对样品进行检测的结果,推断总体质量水平的方法。
抽样检验抽取样品不受检验人员主观意愿的支配,每一个体被抽中的概率都相同,从而保证了样本在总体中的分布比较均匀,有充分的代表性;同时它还具有节省人力、物力、财力、时间和准确性高的优点;它又可用于破坏性检验和生产过程的质量监控,完成全数检测无法进行的检测项目,具有广泛的应用空间。抽样的具体方法有:
1.简单随机抽样
简单随机抽样又称纯随机抽样、完全随机抽样,是对总体不进行任何加工,直接进行随机抽样,获取样本的方法。
2.分层抽样
分层抽样又称分类或分组抽样,是将总体按与研究目的有关的某一特性分为若干组,然后在每组内随机抽取样品组成样本的方法。
3.等距抽样
等距抽样又称机械抽样、系统抽样,是将个体按某一特性排队编号后均分为n组,这时每组有 K二N/n个个体,然后在第一组内随机抽取第一件样品,以后每隔一定距离(K号)抽选出其余样品组成样本的方法。如在流水作业线上每生产100件产品抽出一件产品做样品,直到抽出n件产品组成样本。
4.整群抽样
整群抽样一般是将总体按自然存在的状态分为若干群,并从中抽取样品群组成样本,然后在中选群内进行全数检验的方法。如对原材料质量进行检测,可按原包装的箱、盒为群随机抽取,对中选箱、盒做全数检验;每隔一定时间抽出一批产品进行全数检验等。
由于随机性表现在群间,样品集中,分布不均匀,代表性差,产生的抽样误差也大,同时在有周期性变动时,也应注意避免系统偏差。
5.多阶段抽样
多阶段抽样又称多级抽样。上述抽样方法的共同特点是整个过程中只有一次随机抽样,因而统称为单阶段抽样。但是当总体很大时,很难一次抽样完成预定的目标。多阶段抽样是将各种单阶段抽样方法结合使用,通过多次随机抽样来实现的抽样方法。如检验钢材、水泥等质量时,可以对总体按不同批次分为R群,从中随机抽取 r群,而后在中选的r群中的M个个体中随机抽取m个个体,这就是整群抽样与分层抽样相结合的二阶段抽样,它的随机性表现在群间和群内有两次。