HI,下午好,新媒云不收取任何费用,公益非盈利机构
24小时服务热线: 4000-162-302
请扫码咨询

新媒易动态

NEWS CENTER

卡方检验在实际工作中的应用

2020-01-05

在电商平台中,广告图到处可见,引起用户兴趣,为商品或者店铺带去流量。表征广告图是否“优秀”的关键数据就是CTR(Click-Through-Rate,点击通过率)。为了设计高CTR图片,电商运营、设计同学们都总结出了一些经验,但这些经验未形成更精细化的设计原则来回答“特定品类下,什么样的广告图CTR最高”。

借助于京东平台沉淀的大量广告图数据,我们希望通过分析历史广告图的数据表现,得到不同品类下高CTR广告图的设计特征,也为后期验证提供初步的数据假设。

我们对广告图包含的设计元素进行了分类打标,但在缺少广告图的CTR具体数据,仅有高低CTR分组数据时,应该如何分析呢?

答案是:卡方检验

为什么用卡方检验?

定义是什么?

卡方检验是以χ2分布为基础的一种常用假设检验方法,统计样本的实际观测值与理论推断值之间的偏离程度,主要在分类数据资料统计推断中应用,如两个或多个率/构成比之间的比较以及分类资料的相关分析等。

基于这个定义,我们了解到卡方检验的适用范围是“分类数据”,即说明事物类别名称的数据,比如“性别”是一个分类变量,其变量值是“男”或“女”,两者之间无法进行运算或比较。

此案例为什么合适?

此案例中,广告图中不同的设计元素,如装饰元素、设计手法、背景色调等均是分类变量。同时,图片被分为高低CTR两组,也属于分类变量。既然是对两个分类变量(设计因素、高低CTR)做相关分析,卡方检验很适用于此案例。

卡方检验怎么做?

思路是什么?

在基本的假设检验思路上,卡方检验与t检验、F检验等有着相似的过程:

  1. 建立无效假设H0:观察频数与期望频数没有差别(即某一因素设计水平下高低点击率广告图频数与平均频数没有区别);
  2. 在假设H0成立基础上,计算出χ2值来表征观察值与理论值之间的偏离程度
  3. 根据p值(多设定为0.05)及自由度,根据χ2分布查出拒绝H0假设的临界值;
  4. 若计算得χ2>临界值,即H0成立的概率<5%,表示在95%置信水平下,观察值与理论值之间有显著差异;反之,则说明两者无差异。

根据这个基本思想及过程,可以看出,χ2、自由度(df)、不同自由度下χ2分布是我们进行卡方检验的必要元素。

具体怎么算?

(1)计算χ2值:


举个例子来说明公式的含义:

1)将高低CTR的广告图设计因素不同水平的数据呈现为列联表形式


2)公式中A代表观察值,E代表理论值,(A-E)代表观察值及理论值的差异,其中理论值是假设两个因素无关的情况下计算出来的。

e.g. 设计因素1水平1×高CTR组的理论值即(a+b)×(a+c)/N

3)求平方和以避免正负差值间抵消:由于有多个观察值,差值可能出现正负值而互相抵消,故利用平方的计算来避免。

4)除以理论值以避免理论值大小影响偏差。

(2)确定自由度(df)

自由度指计算某一统计量时,取值不受限制的变量个数。在列联表中,由于行或列总数一定,因此行或列中受限制条件数为1,列联表总df=(行数-1)×(列数-1)。

e.g. 2×2列联表中df=1,在3×2列联表中df=2

(3)结合df及p值确定χ2分布中的临界值,与计算所得χ2值比较

e.g. df=1,p值为0.05情况下,χ2临界值为3.84

如果我们计算所得的χ2值>3.84,意味着H0假设落入了下图所示的右侧“小尾巴”似的拒绝域,H0假设就不成立,即设计因素1不同水平下高低点击率广告图频数与平均频数有区别,换句话说,设计因素1的不同水平与高低点击率有相关


spss怎么操作?

除了手工计算及查表外,可通过spss来进行卡方检验,步骤如下:

(1)导入数据

将每张广告图的高低CTR分组作为A列,设计因素1分组作为B列,导入spss作为原始数据,如下图框1所示。(若原始数据是上方表格的频数数据,需进行频数加权处理)

(2)选择<分析>-<描述统计>-<交叉表>

如下图框2所示:

相关推荐