原文摘要
在不断进步的医学研究领域中,研究结果的可靠性不仅依赖于创新的思想,还依赖于严谨的方法论和统计学。然而,根据过去三年《柳叶刀》期刊集团对超过1000份手稿的统计审查经验,通讯发现许多医学研究者常常忽视这一点。
这篇通讯旨在提供一些基本建议,帮助研究者准确地报告统计数据,避免常见的统计缺陷。以下是一些关键要点:
- 数据描述的准确性:根据数据分布,报告均值和标准差或中位数和四分位数范围。并提供显示分析中使用的变量的直方图或表格的补充材料。
- 模型假设的检验:尽可能使用可视化检查所有模型假设。
- P值的处理:不要将P值简化为“大于或等于0.0001”,而应报告确切的P值(例如,0.032的P值应报告为P=0.032,而非P<0.05)。
- 结果的解读:基于临床重要性解读结果,并提供适当的关联估计和95%置信区间。
- 混杂因素的识别:基于背景信息识别混杂因素,例如在因果定向无环图中描绘,而非仅依赖显著性检验。
- 处理缺失数据:如果缺失数据的比例足够高,可能影响结果,应使用超越简单丢弃不完整记录的方法,例如反概率缺失加权或多重插补。
- 稀疏数据偏差的处理:使用为此目的开发的方法评估并处理比率估计中的稀疏数据偏差,如逻辑或Cox回归中应使用惩罚或贝叶斯方法减少稀疏数据偏差。
- 选择适当的风险指标:如果结局发生率较高,应报告危险比(risk ratio,RR)或危险差(risk difference,RD),而不是比值比(odds ratio,OR)。
- 统计推断:避免过度依赖统计测试,P值不应在0.05或0.01等水平上二分化。特别是,大的P值不应被解释为没有关联或没有效应。
- 评估加性相互作用,即使模型是乘法的。
原文翻译
医学研究有效性的一个重要要求是可靠的方法和统计数据,但这仍然经常被医学研究人员忽视。基于过去 3 年提交给《柳叶刀》集团期刊的 1000 多份手稿的统计数据审查经验,本通信为报告中常见的统计缺陷以及如何避免这些缺陷提供了指导
准确报告统计结果的基本建议
- 根据分布情况,报告均值和标准差或中位数和 IQR 以描述定量变量。提供补充材料,显示分析中使用的变量的直方图或表格。
- 检查所有模型假设,最好在可行的情况下使用图表。
- 不要将 p 值 ≥0·0001;相反,显示精确的 p 值(例如,p 值 0·032 应显示为 p=0·032,而不是 p<0·05)。但是,不等式 p<0·0001 可用于报告非常小的 p 值。
- 不要将结果报告为无效果,除非区间估计内的所有效果在临床上都不重要。
- 根据临床重要性解释结果,并适当估计与 95% CI 的相关性。
- 根据背景信息识别混杂因素,如因果有向无环图中所述,而不是显著性检验。
- 如果缺失数据的比例高到足以潜在地影响结果,请使用除简单地丢弃不完整记录之外的方法,例如,缺失的反概率加权或多重插补。
- 使用为此目的开发的方法评估和处理比率估计中的稀疏数据偏差。
- 如果结果频率较高,则报告风险比或风险差异,而不是比值比。
- 评估加性相互作用,即使您的模型是乘法的。
数据描述对于理解数据至关重要。平均值和标准差通常用于描述定量变量。尽管如此,对于高度偏斜的变量(例如,典型的环境暴露),应使用中位数和IQR;对于仅取正值的变量,$\frac {mean}{SD}$表示严重偏斜。完整的统计描述还需要给出连续性变量的直方图、分类变量的计数表、以及缺失数据的百分比,由于这部分内容较多,可在补充材料中给出。
所有统计分析都建立在基础假设之上,比如选择性或治疗分配的随机性。统计模型的有效性依赖于对这些进一步假设的评估。为了达到这一目的,仅仅依赖统计检验是不够的,还需要运用图形方法。例如,大多数回归模型都假设定量预测变量是线性的(至少在某种程度上),这一假设需要通过分段多项式或回归样条等方法进行验证。尤其是对于定量变量的分类,这通常意味着一个不切实际的阶跃函数假设,可能会导致效能损失或不可控的混杂。
在统计推断领域,我们仍主要依赖于假设检验和估计。然而,p 值可以提供有关数据与统计假设或模型兼容性的重要信息,应当准确报告,而不是简单地用是否显著的定性描述来代替。兼容性可以通过将 p 值转换为基于抛硬币实验的 s 值来衡量。我们应避免过度依赖统计检验,不应将 p 值简单地划分为 0.05 或 0.01 这样的固定水平。特别是,较大的 p 值不应解释为无关联或无影响,因为“没有证据”并不等同于“没有证据”。除非区间估计接近零值,且区间非常窄,才可以推断为研究没有发现重要的关联或影响。一般情况下,还应根据合适指标的区间估计(如均数差或危险差)来判断结果的临床重要性。
许多研究关注的是因果关系,这就使得混杂因素的调整变得至关重要。混杂因素的选择应基于因果背景信息,例如通过有向无环图进行。基于显著性的方法,比如逐步选择算法,可能具有误导性,因为它们可能忽略了重要的混杂因素。
数据缺失在研究中非常常见。简单处理缺失数据的方法,如完整案例分析(即逐列表删除)、缺失指标或最后观察结转,可能会导致显著偏差。如果缺失数据的比例较高(例如超过 5%),则应避免使用这些方法。更好的方法包括逆概率加权和多重插补,尽管这些方法也依赖于条件随机缺失的假设。
在逻辑回归或 Cox 回归中,稀疏数据是一个重要的偏差来源,即在某些变量水平组合中事件数量较少。OR较大和置信区间较宽(例如,OR>10,区间为2-50)提示存在数据稀疏偏倚,可以通过惩罚函数或贝叶斯方法减少偏倚。当因变量是一个常见结局的指标时,调整后的危险比(RR)在评估临床相关性方面优于OR,因前者更容易合理解释。在队列研究和随机对照试验中可使用改良的泊松回归或标准化回归系数来估计危险比(RR)和危险差(RD)。
许多研究试图检查两种治疗对结局的相互作用,或者想要估计另一种变量(即效果-测量修改)对治疗效果的改变程度。建模者通常会在回归模型中添加乘积项,例如逻辑项或Cox项,这些项对应于赔率或比率量表上的乘法交互作用。然而,风险的加性相互作用与临床决策和公共卫生更相关,因此也应进行评估。无论哪种情况,研究通常都无法确定交互作用的方向,如果它们通过统计检验筛选交互作用,则有可能产生误导性的估计。
参考
Recommendations for accurate reporting in medical research statistics - The Lancet00139-9/fulltext)