【译】小样本的统计分析问题

作者&投稿:吕中 (若有异议请与网页底部的电邮联系)
~ 有人认为,对于小样本,你就无法使用统计的。但,这是一个误解,一个 常见的误解 。

对于小样本,我们也有适当的统计方法。

一个研究者的“小样本”,在另一个研究者看来则可能意味着“大样本”。本文中,小样本主要是指样本量在5-30个用户(可用性研究中常见的样本量,进一步阅读:http://www.measuringusability.com/blog/actual-users.php)。

值得注意的是,用户研究并不是出现小样本的唯一领域。其他具有较高操作成本的研究也会出现这个现象,比如fMRis和动物实验等。

尽管我们有相应的方式来处理小样本研究数据,但我们应该清晰地知道小样本的局限性:你很难看到很大的差异,很明显的效果。 这就像使用双筒望远镜进行天文观测一样:使用双筒望远镜,你可能无法看到行星、恒星、月亮和偶尔出现的彗星。但这并不以为着你就不能进行天文观测了。事实上,伽利略就是使用望远镜( 与今天相当的双筒望远镜相当 )发现了木星的卫星。

统计也是一样。仅仅因为你的样本不够大,并不能判断你能不能使用统计。再次强调, 小样本的关键限制是,你难以发现设计或措施的效果是否有差异。

幸运的是,在用户体验研究中,我们往往关心的是不同用户可能发现的不同问题:比如:导航的结构变化,搜索结果页面的改进等等。

下面是我们在小样本用户研究中的常见统计分析方法。

比较compare

如果您需要对比两个独立组别的完成率、完成时间,问卷评分等。有两种大样本或者小样的方法可以采用。具体适用与哪种方法,取决于数据的特征:连续的还是离散的。

比较均值: 如果你的数据是连续的(不是二进制),比如任务完成时间、问卷评分等,你可以采用独立样本t检验。实践证明,它对于小样本也是适用的。

二分变量比较: 如果你的数据是二进制的(成功/失败,是/否),你可以采用N-1的卡方检验。当期望数目小于1时,使用Fisher精确检验往往有更好的表现。

置信区间Confidence Intervals

当你想从样本数据来推测整个用户群,你会想到生成一个置信区间(译者注:关于置信区间,可参阅: http://baike.baidu.com/view/409226.htm )。

尽管小样本的置信区会相当宽(通常为20-30个百分点),但是建立这样的区间总是有益的。例如:你想知道,用户在安装打印机前是否会去阅读“Read this first”文档。而测试中,8名用户中有6名用户没有去阅读。这时候我们可以推知:至少40%的用户很可能会这么做——这是一个相当大的比例。

置信区间的计算方法有三种,这取决于你数据是否是二进制、时间或者连续的。

基于平均值的置信区间Confidence interval around a mean :如果你的数据是连续的(非二进制),如评定量表、以美元计算的订单金额,页面访问数等。那么,置信区间的计算可以基于t分布进行计算(当然,这需要考虑到样本量)。

基于任务时间的置信区间Confidence interval around task-time :任务时间的理论最小值为0秒(不多见),一些用户的任务时间可能是其他用户的10-20倍。对于这种不对称性,我们需要进行数据转换( log-transformed ),然后基于转换后的数据进行计算。待报告时再转换回来。

基于二进制的置信区间 Confidence interval around a binary measure :二进制的数据比如完成率或yes/no。这类置信区间的计算,可以采用校正后沃尔德检验法( Adjusted Wald interval )计算(这种方法对于所有样本规模均适用)。

点估计(均值)Point Estimates (The Best Averages )

任何研究报告中,何为"最好"的平均时间或平均完成率的估计,应当取决于研究的目标。

请记住:即使是“最好”的均值估计,也依然不代表实际的平均值。 所以对于未知总体均值的估计而言,置信区间是更好的展示方法。

在可用性研究中,小样本的均值计算,比较适宜的有两个:任务时间和完成率。不同样本规模中更常见的则是量表评分(SUS评分等)。

完成率: 小样本的完成率,通常可能只有几个数值(译者注:可用性测试中,这一数字可能为5)。例如:有五个用户进行任务操作,其任务完成率只可能是:0%,20%,40%,60%,80%和100%几个数字中的某一个(100%也并不罕见)。基于小样本得出一个完美的成功率,可能并不恰当——因为它可能并不能揭示真实情况(测试结果优于真实情况)。

我们(指作者)对自己的小样本可用性测试数据,利用拉普拉斯估计(theLaPlace estimator)和简单比例(一般称为,最大似然估计,the Maximum Likelihood Estimator)进行了均值估计(参见:http://www.upassoc.org/upa_publications/jus/2006_may/lewis_small_sample_estimates.pdf )。

评定量表的均值问题: 量表是一个有趣的度量类型,它们大多是有限的区间(如:1-5,1-10等)除非你是 Spinal Tap (译者注:因翻译期间,该链接视频未能打开。故未译成中文)。我们发现,在小型或大型的样本中,均值最好是在中位数上(参阅:http://drjim.0catch.com/1993_MultipointScales_MeanAndMedianDifferencesAndObservedSignificanceLevels.pdf)。当然,我们有许多方式来报道评定量表的分数,比如 top-two boxes (直观理解,可参照NPS的计算规则)。

具体如何报告取决于你的灵敏度需要和组织要求。

任务时间均值 :一个较长的任务时间可能让算术平均值产生扭曲,这时候中位数则是用来描述平均水平的更恰当的指标。样本数在25以上的,中位数对均值具有良好的代表性(进一步阅读:http://www.measuringusability.com/average-times.php)。

不幸的是,中位数往往不够准确,在样本数小于25的情况下,比平均值更加不准确。这时候,几何平均值往往具有更好的衡量意义(译者注:几何平均值受极端值的影响更小)。

【工具箱】

小样本计算器:http://www.measuringusability.com/wald.htm

任务时间置信区间计算: http://www.measuringusability.com/time_intervals.php

二分变量差异检验: http://www.measuringusability.com/ab-calc.php

top-two boxes:https://www.measuringusability.com/blog/top-box.php

几何平均数计算器: http://www.ab126.com/goju/1710.html

数字帝国-统计计算器: http://zh.numberempire.com/statisticscalculator.php

——————————————————————————————

【译后记】译罢此文,深深感触:对于结果直接提供算术平均数就是耍流氓!而多数报告也确实只提供了算术平均数一种。 本文对于更严谨科学地分析和解读研究发现,具有重要的启发意义。

因时间和精力限制,译文难免存在谬误,欢迎批评指正。


一文带您了解统计分布类型(Distributions in Statistics):全面解 ...
8. 正态分布**:统计学中最重要和最常见的连续概率分布之一,具有钟形曲线特征,广泛应用于数据分析和假设检验。9. 对数正态分布**:随机变量对数值服从正态分布的连续概率分布,适用于机器学习和数据科学中的某些场景。10. 学生t分布**:用于小样本均值估计的常用概率分布,特别是在样本量较小且总体...

t分布与u分布
这两种分布是常见的概率分布。t分布是一种连续概率分布,它与正态分布类似,但具有更重的尾部。它的形状取决于自由度,自由度越高,分布越接近正态分布。当自由度小于30时,t分布与正态分布的差异较大;当自由度大于30时,t分布逐渐接近正态分布。主要用于小样本数据的统计分析。u分布是一种离散概率...

统计方法怎么分类
参数检验法主要为t检验和方差分析(ANOVA,即F检验)等,两组间均数比较时常用t检验和u检验,两组以上均数比较时常用方差分析;非参数检验法主要包括秩和检验等。t检验可分为单组设计资料的t检验、配对设计资料的t检验和成组设计资料的t检验;当两个小样本比较时要求两总体分布为正态分布且方差齐性,若...

所谓小样本一般是指样本单位数
所谓小样本一般是指样本单位数30个以下。小样本(small sample)是样本的一种。是指与“大样本”相对。通常指样本容量小于或等于30的样本。必须使用统计量的精确分布来进行统计推断。小样本检验(small sample test)统计假设检验的一种。与“大样本检验”相对。属小样本统计的内容。当检验统计量的精确...

统计学极简入门——数据分布
正态分布,即高斯分布,是统计中最常见的分布,其钟形曲线的特点由均值和标准差定义。标准正态分布则更特殊,均值为0,标准差为1,常用于数据标准化和假设检验。t分布在小样本或方差未知时,用于估计总体均值,其形状类似正态,但尾部更宽,由自由度决定。F分布则比较两个样本方差,用于方差分析,其...

关于小样本未知,大样本未知时对总体均值进行的统计量?
1、小样本未知情况下使用 t 统计量:当总体标准差未知且样本容量较小(通常指小于30)时,我们使用 t 统计量来进行推断。t 统计量的计算基于学生 t 分布,它考虑了样本容量的影响,从而更准确地估计总体均值的置信区间和假设检验。2、大样本未知情况下使用 Z 统计量:当总体标准差未知但样本容量较大...

从意义和用法的角度说明t分布、卡方分布和F分布
在数据科学的探索中,t分布、卡方分布和F分布作为核心统计分布,扮演着解析数据和进行精确检验的重要角色。它们各自针对不同的数据类型和问题,提供了独特的理解和处理方法。t分布,小样本的得力助手,由戈塞特于1908年提出。在样本量较小且总体标准差未知时,t分布展现其优越性,其厚实的尾部使其能更好地处理小样本中的不...

小样本研究一般是多少
Sealy Gosset,1876-1937)于20世纪初叶创立的 ,其中小样本是指样本容量小于50(有些规定为小于等于30)。小样本分布在统计假设检验和区间估计等方面的应用,可以省人、省钱、省时间,因而,引起了工业、农业和科学研究等实际工作者的重视和欢迎;同时,也吸引更多的统计学家开拓这方面新的领域。

三种抽样分布(卡方,T,F)简介
3. F分布F分布用于方差分析,检验多个均值的等效性。在方差分析中,它有助于确定不同因素对实验结果的影响。统计分析方法详解本文将从四个方面探讨T检验、F检验和卡方检验的使用场景和注意事项:T检验用于小样本均值比较,如单样本、配对样本和独立样本注意正态性和方差齐性F检验方差分析,检验多个均值的...

统计量抽样分布
t分布由独立的正态随机变量和中心X分布组合而成,当δ=0时为标准t分布。W.S.戈塞特在1908年提出,t分布对于估计正态总体均值和进行检验具有重要意义,是小样本统计理论的起点。F分布由R.A.费希尔在20世纪20年代提出,涉及两个独立的X分布和一个中心X分布,用于方差比的统计推断,中心和非中心F分布在...

枝江市19112162029: 统计学中小样本对统计分析有什么影响? -
漆浅盐酸: 我觉得因为统计当中很多的分布等都是渐近的结论,需要用到比如中心极限等定理.需要大样本的支持吧. 所以要尽量避免小样本.但是基于小样本的统计也是有的.

枝江市19112162029: 统计学小样本检验 -
漆浅盐酸: 理论上不可以的,一是样本数量不够多,采样地点,人员种类数量都要到达一定标准时候才可以科学地说明问题.建议在不同地点选择样本人群,比如公交站,写字楼,购物广场,小区.采样多次,例如十次,之后再做数据统计下结论.望采纳,谢谢.

枝江市19112162029: 小子样理论是什么 -
漆浅盐酸: 是一种用于设备测试的统计分析工具,对于试验结果解释的合理性及其使用时的易操作性,使得该方法在得到同样的置信度条件下,所需的样本数目大为减少,从而有效地缩短试验周期,大大降低试验消耗,提高试验效率,有着广泛的应用前景.该理论的关键就在于“短周期、少样本、高效率”!

枝江市19112162029: 在《统计学》中,大样本和小样本如何鉴别?一般是一什么为标准,区别大样本和小样本? -
漆浅盐酸:[答案] 都是以30为界的. 样本数>=30就是大样本、小于30呢就是小样本了.

枝江市19112162029: 紧急!(高分)关于应用统计的一道题统计某街头12小时的客流量,可用小样本统计,通过统计其各项数据,计算其方差、标准差、进行回归分析,并做回归... -
漆浅盐酸:[答案] 先统计时间,还有客流量 方差:客流量/客流量总数 标准差:客流量的平方+方差,以此类推 图自己画```

枝江市19112162029: 小样本研究与抽样研究有什么区别? -
漆浅盐酸: 其实我觉得差别蛮大的…… 小样本是指样本范围本身就小,抽样是样本范围不小,但从中抽取一部分.所以就算样本容量是一样的,其研究对象的范围还是不一样的吧…… (其实我是看到空间新鲜事而来打酱油的……)

枝江市19112162029: 详数理统计学中什么是大样本和小样本? -
漆浅盐酸:[答案] 大样本就是样本数目大的样本. 小样本就是样本数目小的样本. 一般认为样本数目大于30可以认为是大.

枝江市19112162029: 统计学参数估计.1,根据两个独立的小样本估计两个总体均值之差时,当两个总体的方差未知但相等时,使用的分布是()A正态分布 B t分布 C x2分布 D F... -
漆浅盐酸:[答案] 这个问题是错误的,误解.

枝江市19112162029: θ统计是什么意思 -
漆浅盐酸: 样本的已知函数;其作用是把样本中有关总体的信息汇集起来;是数理统计学中一个重要的基本概念.统计量依赖且只依赖于样本x1,x2,…xn;它不含总体分布的任何未知参数.从样本推断总体(见统计推断)通常是通过统计量进行的.例如x1,x...

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网