更新时间:2024-07-19 22:52
在统计学中,交叉表是矩阵格式的一种表格,显示变量的(多变量)频率分布。交叉表被广泛用于调查研究,商业智能,工程和科学研究。它们提供了两个变量之间的相互关系的基本画面,可以帮助他们发现它们之间的相互作用。卡尔·皮尔逊(Karl Pearson)首先在“关于应变的理论及其关联理论与正常相关性”中使用了交叉表。
多元统计学的一个关键问题是找到高维应变表中包含的变量的(直接)依赖结构。如果某些有条件的独立性被揭示,那么甚至可以以更智能的方式来完成数据的存储。为了做到这一点,可以使用信息理论概念,它只能从概率分布中获得信息,这可以通过相对频率从交叉表中容易地表示。
假设我们有两个变量,性别(男性或女性)和手性(右或左手)。 进一步假设,从非常大的人群中随机抽取100个人,作为对手性的性别差异研究的一部分。 可以创建一个应变表来显示男性和右撇子,男性和左撇子,女性和右撇子以及女性和左撇子的个人数量。 这样的应变表如下所示。
男性,女性以及右撇子和左撇子个体的数量称为边际总数。总计(即应急表中所代表的个人总数)是右下角的数字。
这张表格让我们一目了然地看到,右撇子男子的比例与右撇子女性的比例大致相同。两种比例差异的意义可以通过各种统计检验来评估,包括Pearson的卡方检验,G检验,Fisher精确检验和巴纳德检验,条件是表中的条目代表从人口我们想得出结论。如果不同列中的个体的比例在行之间变化很大(反之亦然),则我们说两个变量之间存在偶然性。换句话说,这两个变量不是独立的。如果没有偶然性,我们说这两个变量是独立的。
上面的例子是最简单的交叉表,每个变量只有两个级别的表:这被称为2×2交叉表。原则上可以使用任何数量的行和列。也可能有两个以上的变量,但较高阶的偶然事件表难以在视觉上表示。序数变量之间或序数变量与分类变量之间的关系也可以用交叉表来表示,尽管这种做法很少见。
(1)多列(历史上,它们被设计为占用打印页面的所有空格)。 每个行指的是群体中的特定子组(例如男性),这些列有时称为横幅点(并且行有时称为存根)。
(2)通常,任一列比较,其测试列之间的差异并使用字母显示这些结果,其使用颜色或箭头来标识以某种方式突出的表格中的单元格(如上例所示)。
(3)一个或多个:百分比,行百分比,列百分比,索引或平均值。
(4)未加权样本大小(即计数)。
两个变量之间的关联程度可以通过多个系数进行评估。 最简单的,仅适用于2×2交叉表的情况,是由下式定义的phi系数:
其中χ2按照Pearson的卡方检验计算,N是观察值的总和。 φ从0(对应于变量之间无关联)变为1或-1(完全关联或完全不关联),前提是它基于2×2表中的频率数据。 然后其符号等于表的主要对角线元素的乘积的符号减去非对角元素的乘积。 当且仅当每个边际比例等于.50(两个对角线单元为空)时,φ取最小值-1.00或最大值1.00。
备选方案包括四方相关系数(也仅适用于2×2表),交叉系数C、Cramér's V。
C的缺点是它不达到最大值1或最小值-1;在2×2表中可达到的最大值为0.707;在4×4表中可达到的最大值为0.870。在具有更多类别的应急表中,它可以达到接近1的值。 因此,它不应用于比较具有不同数目类别的表之间的关联。此外,它不适用于不对称表(行数和列数不相等的表)。
C和V系数的公式为:
k是行数或列数,以较小者为准。
可以通过将C除以在任意数量的行和列的表中完全关联,使其最大值达到1。
四分相关系数假设每个二分法的基础变量是正态分布的。四分相关系数提供了“等级测量已经减少到两个类别时,相关性的便利度量。”四分位相关不应与通过分配计算的皮尔逊积矩相关系数相混淆 ,例如,值0和1表示每个变量的两个级别(在数学上等于phi系数)。 涉及多于两个等级变量的四方相关性的扩展是多相关系数。
λ系数是当标称水平测量变量时交叉表的关联强度的度量。 值范围从0(无关联)到1(理论最大可能关联)。 不对称lambda测量因变量预测的百分比改善。 对称λ测量两个方向进行预测时的百分比改善。
不确定系数是名义水平上变量的另一个测量。
交叉报表是报表当中常见的类型,属于基本的报表,是行、列方向都有分组的报表。这里牵涉到另外一个概念即分组报表。这是所有报表当中最普通,最常见的报表类型,也是所有报表工具都支持的一种报表格式。从一般概念上来讲,分组报表就是只有纵向的分组。传统的分组报表制作方式是把报表划分为条带状,用户根据一个数据绑定向导指定分组,汇总字段,生成标准的分组报表。