中国临床试验注册中心

当前位置:网站首页 > 用户参与循证医学 > 验证治疗措施的公平——高质量研究促进高质量卫生保健 >正文

第3章:公平试验的主要概念

发布时间:2010-12-30 浏览次数:3038

  前两章介绍了未充分验证的治疗措施可能造成严重危害。显然,严格评价治疗措施对于确定是否应将治疗措施用于患者是非常重要的。
  误导人的宣传随处可见,因此我们每个人都需要有能力去判断这些有关疗效的宣传是否真实可信。如果不具备这样的能力,我们很可能会把实际上无效的治疗措施认定为有效,而把实际上有效的治疗措施认定为无效。为了公平地验证治疗措施,我们必须致力于获取可靠的疗效信息。而其中最重要的一点是,必须减少偏倚和机遇因素对疗效的歪曲。那么怎样才能做到这一点呢?

 

推翻谬论

  当James Lind(参见第1章)开始查阅有关坏血病的文献时,他发现仅有的疾病描述居然都来自于没有受过专业训练的海员和从来没有出过海的医生。“没有一位熟悉这种疾病的医生致力于相关治疗的研究。”Lind 认为这就是造成该病的诊断、预防和治疗一直疑问重重的原因之一。Lind 坦率地写道:“在这个问题被正视和阐明之前,有必要先推翻大量的谬论。”

  Lind J. A treatise of the scurvy. In three parts. Containing an inquiry into the nature, causes and cure, of that disease. Together with critical and chronological view of what has been published on the subject. Edinburgh: Printed by Sands, Murray and Cochran for A Kincaid and A Donaldson, 1753, pvⅲ.

 

理解偏倚

  验证治疗措施的过程中出现的偏倚是指那些导致疗效结论与事实不符,产生了系统误差而不仅仅是偶然误差的影响因素。虽然有多种偏倚都可歪曲卫生保健研究的结果,但在验证治疗措施的公平试验中必须减少的偏倚主要有:
  ● 受试人群的差异导致的偏倚
  ● 疗效评价方式的差异导致的偏倚
  ● 可获取证据的报告偏倚
  ● 可获取证据的选择偏倚

 

  这里所涉及的原则对许多读者来说是较为陌生的。部分读者会觉得本章是全书最具挑战性的一部分。主要问题的完整信息和解释可参照James Lind 图书馆(www.jameslindlibrary.org),希望这会有助于读者理解本章内容。

  验证治疗措施的公平试验

  对照是所有公平试验的重点;对于判断某种治疗是否能够产生某种效应必不可少。有时是将2种或2种以上的治疗做比较,有时也可将一种治疗与非阳性治疗做比较。无论采用哪种对照,都应解决真实存在的有关疗效的不确定性,这种不确定性是指没有基于研究的确切证据(第1章介绍了不确定性的概念,第4章将介绍相应的处理方法)。要实现真正意义上的公平对照,就必须尽可能地减少偏倚。

  为什么对照必不可少

  只要思考片刻,就很容易理解治疗对照的必要性。“大自然就是最好的医生”这句古老的谚语说得好,人们常常没有接受任何特殊治疗,病自然就好了。因此在验证治疗措施时,必须考虑疾病的自然病程以及不接受治疗的情况下疾病的结局。治疗可能对疾病的自然结局产生积极或消极的影响,也可能完全与疾病的结局无关。

 

与我无关

  “当然,这次患者得以痊愈与其接受的治疗无关,与我的医术也无关。从另一方面来讲,这也清楚地证明相对于人体自身的恢复力而言,治疗措施显得并不那么重要。”

Cochrane A. Sickness in Salonica: my first, worst, and most successful clinical trial.

British Medical Journal 1984; 289: 1726-7. 

 

  包括医生和患者在内的所有人有时都会主观地比较治疗措施的疗效。这往往会形成一种印象:新疗法的疗效优于旧疗法。然而这些主观的判断都必须通过正规的研究来验证,例如最初可通过分析临床记录。这样的验证可能会要求人们对新旧疗法进行谨慎的对照。

  如果单凭主观印象去指导临床实践,就会产生风险(参见第1章)。基于主观印象或初步分析的治疗对照往往是不可靠的。只有当治疗效果非常明显时,这种对照才有意义,如阿片用于镇痛、胰岛素用于治疗糖尿病、髋关节置换术用于治疗骨关节炎。然而在多数情况下,治疗效果不会这么明显,这就需要谨慎地避免有偏倚的对照和错误的结论。

  将当前施行的治疗与过去施行的治疗进行对照通常是不可靠的,因为其他相关因素也在随时间而改变。第1章中举过一个例子,激素己烯雌酚(DES)预防复发性死产,这个例子就清楚地证明了这一点。初产妇比经产妇更容易出现死产,因此,将使用了DES的经产妇的死产率与没有使用DES的初产妇的死产率进行比较,得出的结果是DES可降低死产的风险,这一结论具有严重的误导性。这个例子同时还指出,孕妇接受DES治疗可能会给她们的下一代带来灾难性的后果。因此,应尽可能在同一时间点下对不同的治疗措施进行比较。

  为什么对照必须解决真实存在的不确定性

  在从事新的治疗验证试验之前,有必要先了解已有的研究结果。虽然这看起来是理所当然的,但由于人们往往忽视了已有的可靠证据,而产生了许多关于治疗效果的不确定性。应该系统、严格地评价证据,确信提出的新的治疗验证试验将解决当前存在的不确定性。如果一开始就忽视了这一关键步骤,后果将非常严重,患者可能遭受不必要的痛苦,宝贵的卫生资源和科研经费可能会被浪费。这一切是怎么发生的呢?

  20世纪90年代初期,美国研究团队从医学教材和期刊找出了30年来有关心脏病治疗措施的推荐意见,并将这些推荐意见与本应该系统评价的公平试验结果形成的证据进行了比较。研究者发现,由于编写教材的作者在评价证据时,没有尽可能地减少因偏倚产生的误导结果和机遇因素的影响,而给患者造成了严重后果。有的患者被剥夺了获取那些可挽救生命的治疗建议的机会(如溶栓药治疗心脏病发作),有的甚至长达10年之久;而有的医生一直在推荐那些早已被公平试验证实为有害的治疗措施(如抗心律失常药物治疗心脏病发作——参见第1章)。

  那些没有回顾过去的试验就开展新试验的研究者可能不会意识到,他们所要验证的治疗效果的不确定性可能已经得到了充分证实。这就意味着一些患者参加了不必要的试验研究,部分患者还失去了接受有效治疗的机会。例如,可靠证据显示,对接受肠道手术的患者给予抗生素可降低手术并发症导致的死亡率,然而在之后很长一段时间里,仍有研究者继续就此开展对照试验,让一半的受试者不接受抗生素治疗。反之,如果评价了以前的研究结果后明显发现可靠证据缺失,此时就肯定需要开展新的试验。

  如第1章所述,如果研究者在开展人体试验之前没有系统地评价来自于动物研究的相关证据,患者也可能因此受到伤害。例如,如果先评价了动物实验的结果,就绝不会在中风患者中开展尼莫地平的临床试验了。

  系统地评价研究证据,这决不是一个新观点。早在1753年,James Lind所著的《坏血病大全》一书中(书中报告了他所开展的公平试验,后来该试验结果被广泛采纳)就蕴含了“按时间先后顺序严格评价已发表的相关证据”这一观点。

  避免有偏倚的对照

  为了确保公平的对照,必须识别出并尽可能减少各种偏倚。如果做不到这一点,一项实际上并不比现有治疗更有效的新治疗就可能表现出虚假的优势。

  在考虑单项试验研究时,偏倚可能来源于:

  ● 将病情相对较轻又接受了新治疗的患者与病情相对严重却接受了标准治疗的患者进行对照;

  ● 对治疗结果的评价有偏倚,例如将知道用的是价格昂贵的新治疗并且认为新治疗更有效的医生和患者的意见与那些知道用的是已有标准治疗的患者和医生的意见进行对照。

  在评价多个相似研究时,偏倚可能来源于:

  ● 仅纳入那些说明新的治疗更有效的试验,而不考虑其他得出了“阴性”结果的试验,即未能证实新治疗的优势或提示新治疗可能有害(“阴性”结果通常都没有报道);

  ● 对可获取证据的选择和诠释存在偏倚。

  人们往往没有意识到这些不公平试验的结果存在偏倚,就轻易地作出了治疗决策。然而,令人担忧的是,某些获取了利益的人有时会竭力掩盖偏倚,使治疗措施看上去比实际更有效。一些研究者常常但并不总是出于商业目的,故意忽略一些已经存在的证据。他们设计、分析并报告研究,以此来粉饰某项治疗措施的疗效。

 

利用偏倚

  “由药厂赞助的研究比起那些由其他资金资助的研究更可能得出有利于赞助商产品的结果。在过去至少20年内,这些结果被广泛用于各种疾病状态、药品和药品分类,却没有人去评价其研究类型。”

Lexchin J, Bero LA, Djulbegovic B, Clark O. Pharmaceutical industry sponsorship and research outcome and quality: systematic review. British Medical Journal, 2003; 326: 1167-70. 

 

  因受试者差异产生的偏倚

  病情相对较轻的一组患者接受一种治疗,而病情相对较重的一组患者接受另一种治疗,那么这两种治疗的对照就是不公平的。有时,这个问题可以通过交叉试验得以解决,即在不同的时间给予同一组患者不同的治疗以此来进行对照。但在很多情况下这种试验设计是不可行的,例如,不可能用这种设计来对照不同的手术治疗。

  经常都是通过比较接受了不同治疗的各组患者来评价治疗措施。要做到公平地比较,那么各组患者必须相似,这样才能实现同类比较。如果接受某治疗措施的患者相对于接受另一种治疗措施的患者更可能好转或恶化,这样的偏倚就使得即便得出了有差异的结果,也不可能真实地反映治疗的效果。18世纪,外科医生Willian Cheselden 意识到了这个问题。当时,医生正热衷于比较膀胱结石术后患者的病死率。但Cheselden指出老年患者死亡的可能性更大,因此在比较由不同外科医生实施的各种类型的手术术后患者的病死率时,应该考虑手术患者的年龄差异。

  比较那些过去曾接受了不同治疗的患者的经历和治疗结局,这在今天仍然是评价疗效的方式之一。关键是要弄清楚在接受治疗之前,各组患者的情况是否足够相似。例如,通过比较使用了激素替代疗法(HRT)与没有使用HRT的妇女的发病率来评价HRT的效果,这是一种非常危险的极具误导性的评价方法。这种对照提示HRT能够降低心脏病发作和中风的风险,但后来的随机试验显示HRT产生的结果恰好相反(参见第1章)。因此,没有考虑这类些偏倚的研究不仅毫无用处,而且危害了患者。

  最好的办法是在开始治疗之前就设立对照。1747年,James Lind在HMS Salisbury上对6种坏血病治疗措施进行对照之前,他特意选择了那些处于这种致命性疾病同一阶段的患者(参见第1章)。他还保证患者有相同的饮食和住宿条件。这表明他清楚地意识到了,这些非治疗因素而并非治疗措施本身可能影响船员康复的机会。

  这正如在今天我们必须谨慎确保各治疗组患者的基线情况是类似的。只有一种方法可以做到这一点:必须采用某种基于概率的方法来分组,即“随机分配”,这是“随机”公平试验唯一的且非常重要的特征。

  抽签方法,如掷骰子,将确保各治疗组患者的基线情况相似,基线情况不仅包括已知且已测量的重要因素,如年龄,还包括可能影响疾病康复的非测量因素,如饮食、职业和其他社会因素,以及对疾病或治疗的担忧程度。避免分组偏倚的最佳方法是确保患者和医生都不知道患者的分组情况。

  通过这种方式分组实现了同类比较之后,还应避免因忽略了部分患者的变动情况而导致的偏倚。这就意味着,无论患者实际接受了何种治疗,都应尽可能地对所有接受了治疗分组的患者进行随访,并且都要纳入所属治疗组的结果的主要分析,这就是所谓的“意向治疗”分析。

  这种方法似乎看起来不合逻辑,但如果忽略了这类患者可能导致整个试验不公平。以有缺血性中风危险的患者为例。研究者开展一项试验以验证血管溶栓术是否能降低那些因血管栓塞常出现晕眩的患者中风的风险,将手术组患者与非手术组患者进行比较。如果他们仅记录那些手术后存活下来的患者的中风发生率,该试验就忽视了一个重要的事实:手术本身就可能导致中风和死亡。因此,对手术效果的评价就是不公平的。

 

随机的原因

  “参与随机试验的医生不应将自己视为一名研究者,而就是一名对患者负有伦理责任的临床医生,在没有尽全力评价治疗措施的真实效果之前,绝不将其用于患者。”

Rees G, ed. The friendly professional. Selected writings of Thurstan Brewin.

Bongnor Regis: Eurocommunica, 1996.

 

  治疗结局的评价偏倚

  大多数患者和医生都希望治疗措施是有效的。这种乐观的态度对于患者就治疗的满意度有着非常积极的作用,正如英国医生Richard Asher在一篇他为医生所著的文章中写道:

  “即便对照试验显示某治疗毫无用处,但只要你坚信你所开展的治疗,治疗结果就会更好,你的患者就会更好,你的收入也将更好。我认为这正是那些天资不高但容易轻信他人的医生却取得了巨大成功的原因,也正是许多医生厌恶其他时髦又成功的医生所喜欢展示的统计学数据和对照试验的原因。”

  即使医生知道自己开出的治疗是没有任何“生理”作用的,他们还是会开,希望能通过心理作用来帮助患者。换言之,即便实际上用的是模拟药物(安慰剂),只要患者相信它能够缓解症状,就可能明显感受到病情改善。

  因此,在开展验证治疗措施的公平试验时,必需减少医生和患者评价治疗结果时可能出现的偏倚。为此人们常采用一种被称为“盲法”的技术。“盲法”的兴起还有着一段有趣的历史。18世纪,法国国王路易十六下令研究弗朗兹•麦斯麦提出的动物磁力说(麦斯麦术)。国王想要知道这种效果是归功于某种“真正”的力量或“精神幻觉”。被蒙上了双眼的受试者被告知其接受了或没有接受麦斯麦术,事实上情况是完全相反的。结果是,只有那些被告知接受了麦斯麦术但实际上并没有接受的受试者才感受到了效果。

  对于某些结局,如死亡,出现评价偏倚的可能性极小,因为几乎没有余地去怀疑一个人是否真的死了。然而,对大多数结局的评价都带有一定的主观性,如患者的症状。人们可能出于个人原因而偏爱某种治疗:如果患者相信某种治疗对他们是有益的,就可能更多地留意提示疗效的征象;相反,如果患者对某项治疗存在疑虑,就可能更急于将某些负面反应归咎于这种治疗。

  在这种情况下,就需要通过盲法来实现公平评价。所比较的两种治疗必须在外观上看起来一致。有时采用的是安慰剂,这是一种没有任何生理活性(模拟)的处理措施。例如,20世纪四五十年代英国医学研究委员首先对普通感冒的治疗进行了评价,如果没有采用外观相似的安慰剂来防止患者和医生知道患者接受的是新药或安慰剂,那么将难以解释试验的结果。这就是所谓的双盲试验。

  下面再举一个例子来说明双盲法的重要性。研究者评价了对医生设盲(医生不知道患者接受的是药物还是安慰剂)对于一项多发性硬化临床试验结果的影响。在试验期间的每一次评价中,设盲的医生和没有设盲的医生都对所有患者进行检查;每位医生都对结果进行评分。没有设盲的医生的评分结果显示某一项治疗措施优势显著,但设盲的医生却没有得出这一结果。但采用设盲的医生的评分结果就避免了得出错误的结论。综上所述,结局指标的评价主观性成分越高,就越需要采用盲法来保证试验的公平。

  尽管,有时对医生和患者进行盲法处理是不可行的,例如很难掩盖手术治疗与药物治疗之间的差异。一些明确的结局,如死亡,就没有可能出现评价偏倚。即便当偏倚不知不觉地发生时,例如在评价死亡原因时,仍可以让不知道患者接受了何种治疗的医生来寻找死亡原因。

  如何解释无偏倚对照

  考虑预期治疗与实际接受治疗之间的差异

  就本章目前所给出的所有原因而言,你已经意识到公平试验必须仔细规划。制定这些规划的文件称为试验方案。试验方案明确说明了所要对照的治疗措施的细节。然而,计划得再好,不一定都能落实,即患者实际接受的治疗有时会与他们应当接受的治疗不同。例如,患者可能不会接受预期的治疗;或某种治疗措施无法实施。一旦出现了这类情况,人们在分析和阐释结果时就应当仔细思考并加以说明。

  考虑机遇因素

  对照两种治疗措施时,治疗结果的差异可能就是机遇因素的作用。如果5名患者在一种新疗法的治疗下病情好转,而7名患者在标准疗法的治疗下病情也好转,此时没有人能够肯定地说新疗法不如标准疗法。如果再进行一次对照,病情好转的患者人数可能会与原先相反(7比5),或相同(6比6),或出现其它比率。

  然而,如果50名患者在新疗法的治疗下病情好转,而70名患者在标准疗法的治疗下病情好转,就不太可能再用机遇因素来解释这种差异了。若这个数字变成了500人和700人,那么很明显,新疗法的确不如标准疗法(实际上大约半数的新疗法都是如此)。

  因此,要减少治疗验证试验中机遇因素对患者的误导,就必须从人数足够多的患者中得出结论,无论这些患者病情好转或恶化,还是既无好转也无恶化。

  为了评价机遇因素对公平试验结果的影响,研究者对“统计学意义”进行了检验。这种检验有助于避免得出错误的结论,即当治疗措施之间并不存在差异时认为彼此有差异,或当治疗措施之间真正存在差异时认为其没有差异(这种情况更常见,也更危险)。当研究者和统计学家讨论不同治疗之间的明显差异时,他们指的是统计学意义。但是要记住,统计学显著性差异并不一定提示差异是“显著的”。不同治疗之间的差异排除机遇原因外,即使有统计学显著性差异,也可能没有临床意义。例如,一项随机试验的系统评价把成千上万每天吃1粒阿司匹林的健康人与成千上万不服用阿司匹林的人相对照,发现服用阿司匹林的人患心脏病的几率更低。这一差异具有统计学意义。那就是说,这是不可能用机遇因素来加以解释的。然而,这一发现并不一定具有实际意义。如果一个健康人患心脏病的风险已经很低了,那么通过服药来进一步降低患病率是不对的,尤其是阿司匹林还具有一定的副作用。

  有一种办法可以降低患者被机遇因素误导的可能性,那就是估算可信区间。可信区间给出了治疗措施实际效应量(永远都无法精确得知)的范围大小,并且反映了肯定的程度(通常是95%或99%)。这就像是你问别人:“你上班路上要花多长时间?”别人回答说:“二十分钟到一小时不等,要看交通状况。”

  因此,统计学检验有助于评价机遇因素,避免在治疗措施之间不存在差异时却得出有差异的结论,或有差异时却得出无差异的结论。

 

可信区间

  如果口袋里有30颗糖(看不到里面的内容),可能是橘黄色,也可能是白色,那么一开始口袋里橘黄色糖的数量应该界于0到30之间。橘黄色糖数量的可信区间是0-30。

  如果从口袋里抓出一把糖,发现手里有4颗橘黄色的和2颗白色的,那么你就知道一开始至少有4颗橘黄色的糖,但最多不超过28颗。也就是说,在最初的30颗糖里至少有2颗是白色的。因此一开始橘黄色糖数量的可信区间是4-28。

  如果再抓出一把糖(不与第一次重复),其中有3颗橘黄色的和6颗白色的,那么一开始口袋里橘黄色糖数量的可信区间就是7-22。如果再抓一把,有3颗橘黄色的和5颗白色的,那么一开始橘黄色糖数量的可信区间就是10-17。又抓一把,有4颗橘黄色的,那么可信区间就是14-17。抓出最后的3颗糖,有2颗橘黄色的和1颗白色的。至此可以得出结论,一开始共有16颗橘黄色的糖。抓出的糖越多,可信区间就越窄。这个例子计算出了完整的可信区间——每一步我们都可以完全确定橘黄色糖的实际数量界于可信区间两端之间的某一点。

  下图阐释了上述例子,反映了可信区间是如何一步步变窄的。

 

摘自Critical Appraisal Skills Programme, Cochrane Consumer (UK).

Consumers commenting on Cochrane Reviews. Post-workshop pack. 2003-4, p23. 

 

  发现并评价治疗措施的非预期效应

  治疗措施的初始评价,如那些正在申请上市的新药,最多可涉及几百人或几千人,治疗时间一般就是几个月。在这个阶段中,可能获得相对短期且出现频繁的非预期效应,而那些罕见的、需要花费时日才能产生的效应只有等到该治疗措施得以更广泛应用时才能发现。例如,当医生按惯例开了一种新药,患者可能与那些被选来参加临床试验的人有所不同:他们可能更年长或年轻、性别不同、病情不同,或除了治疗所针对的疾病外还有其它健康问题。非预期效应,无论好坏,常常是由医务人员或患者最先发现。可是在这些预感中有哪些反映出了真正的效应呢?

  如果非预期效应非同寻常,并且在治疗后经常发生,则通常会让医生和患者觉得是不是有什么地方出了问题。沙利度胺(反应停)就是这种情况(参见第1章):婴儿出生时没有四肢,这几乎是先前没有听说过的。同样,有时也会发现非预期的有益效应。例如,发现用来治疗精神分裂症的药物也可以降低胆固醇。如果能注意到这些明显的关系,通常都能够确认其成为真正的非预期效应。

  然而,许多关于非预期效应的预感都是建立在并不十分令人信服的证据之上。与设计用于发现预期效应的试验一样,用于证实或驳回并不显著的疑似非预期效应的试验也应该避免有偏倚的对照。这类试验就必须遵循“同类比较”原则。

  有时,研究者能够对那些参与早期试验的人进行进一步的分析或随访,试验中通过随机分配实现了治疗组之间的可比性。通常这是无法选择的。因此,组建新的无偏倚的对照组更具挑战性。在这里,效应都是非预期的。非预期效应通常是不同于治疗所针对的疾病或病情的另一种疾病或病情。例如,荷尔蒙替代疗法(HRT)最初是用来缓解更年期症状的,而妇女患乳腺癌的风险是没有被考虑在内的。换言之,没有明显的理由认为接受了HRT的妇女与没有接受HRT的妇女相比,患乳腺癌的风险不同。这就是证实了HRT会增加乳腺癌风险的公平试验的基础。

  当疑似的非预期效应是由诸如心脏病一类的常见病的治疗所致,但在新疗法中却并不常见,此时就只有通过调查大量接受了治疗的患者才能发现非预期效应。例如,20世纪60年代末,尽管一些研究者认为阿司匹林可能会降低患心脏病的风险并开始进行公平试验,但多数医生都认为这是完全不可能的。一项旨在发现药物的非预期效应的大规模试验表明,因心脏病入院的患者与同类患者相比,近期服用过阿司匹林的患者比例很小,这时医生们才开始转变观念。

  20世纪70年代末,在经历了沙利度胺灾难之后,人们首次确立了发现并评价非预期效应的基本原则。从那时起,随着许多强有力治疗措施的问世,这类针对非预期效应的公平试验至今仍极具挑战性和重要性。

  考虑所有相关证据

  统计学家Austin Bradford Hill是公平验证治疗措施的先驱之一,他曾经说道:“阅读研究报告的人都希望能够解答以下4个问题:为什么开展研究?研究具体做了什么?发现了什么?研究结果意味着什么?”对最后一个问题的回答尤为重要,因为这影响到治疗措施和未来研究的选择与决策。仅靠一项公平试验很难提供足够强大的证据来给出可靠的回答。通常需要开展多项公平试验来解决同一个问题。因此,为了回答“研究结果意味着什么?”,我们必须把来自一项试验的证据与来自其它试验(都是为了解决同一个或类似的问题)的证据结合起来进行阐释。

  一百多年前,英国科学进步协会的主席Lord Rayleigh 曾经就这一原则发表评论:

  “正如人们有时所预料的,如果科学仅仅是由事实不断累积而成,那么它很快就会陷于停滞并被自己摧毁……获取新知识、消化吸收旧知识,这两个过程是同时进行的。因为两者都必不可少,所以我们可以讨论它们的相对重要性。然而,我们必须做出评论。发现问题与解释问题应该是并驾齐驱的,不仅要陈述新的事实,还应指出新事实与旧事实之间的关系。这些工作是值得我们去做的,但很遗憾,人们通常都做不到这一点。”

  然而,即便在今天,Rayleigh的明智建议也常常被忽视,因此导致读者在阅读新的研究报告时,很难获取“研究结果意味着什么?”这一问题的可靠回答。此外,在报告试验结果时如果不考虑其他经过了系统评价的相关证据,就会推延识别出有益与有害治疗的时间。例如,20世纪60年代至90年代初,研究者开展了50多项公平试验以评价药物是否能降低心脏病患者心律失常的发生率,之后才意识到这些药物事实上正在扼杀人的生命(参见第1章)。如果每份研究报告都能参照其它相关证据对新的结果进行评价,那么早在10年前就会发现这些药物的致命性副作用。

  处理可获取证据的报告偏倚

  解释新的研究结果时应当先对其它所有可靠的相关证据进行系统评价。这句话说起来很容易,但从许多方面来看都是一种挑战,一来是因为一些相关的证据没有发表,二来那些得出了令人失望的或负面的结果的研究很少被报告。这种“报告偏倚”主要源于研究者没有撰写或提交研究报告用以发表。但有时候,杂志社在退稿时也存在偏倚。还有一个问题,研究者可能会选择性地掩盖那些与疗效解释相抵触的结果。

  为了减少报告偏倚,所有验证治疗措施的公平试验一开始就需要注册(参见www.controlled-trials.com)。最重要的是,所有的临床试验结果都应该发表,无论其是否会令研究的申办者或研究者本人感到失望。对研究结果报告不足,导致报告偏倚,这是一种不科学、不道德的行为。近来,一些掩盖药效负面证据的事件曝光后,激起了强烈的公愤并且有人开始起诉药厂。这些事件终于令人们长期以来的需求得以满足,那就是要求临床试验从一开始就公开注册,并且发表所有的试验结果。在电子出版物问世以前,要强制执行这些原则是很困难的,但随着电子期刊的开放获取,例如BioMed Central(www.biomedcentral.com)和公共科学图书馆(www.plos.org)发表的期刊,这个障碍已经逾越。

  避免可获取证据的选择偏倚

  偏倚不仅会歪曲单项试验的结果导致得出错误的结论,还会歪曲对证据的评价。评价是很重要的,因为大多数人都依赖于评价,但是评价必须是系统的,否则就会误导他人。例如,评价者可能只对自己熟悉的研究进行了评价,那么所得结论就可能存在偏倚。

  为了避免这些问题,应当制定系统评价计划书,明确将要采取何种措施来减少偏倚。这些措施可能包括:阐明这次评价旨在解决哪些问题;所评价研究的纳入标准;如何发现可能合格的研究;筛选研究时将采取哪些措施来避免偏倚。

  那些看似为了回答同一个问题的系统评价往往会得出不同的结论。有时这是因为所要回答的问题存在细微的差异,有时这又反映出评价者所采用的方法存在差异。在这些情况下,就有必要判断哪种评价最有可能成功地降低了偏倚和机遇因素的影响。

  是否还存在其他利益冲突会影响到研究者对评价的实施或解释?的确有,比如研究者与生产新药的药厂有着某种直接关联。在评价治疗湿疹的月见草油的疗效时,那些与药厂有关联的评价者得出的结论比那些没有这种商业利益的评价者得出的结论更乐观(见第1章)。

  商业利益并不是导致证据选择偏倚的唯一因素。无论研究者、医务人员还是患者,都可能因偏见而导致选择偏倚。

  采用Meta分析减少机遇因素

  为了减少机遇因素,有时可以将所有相关研究的结果进行统计学合并,这称为Meta分析。尽管多年以前统计学家就制定了Meta分析的方法,但直到20世纪70年代才开始得以广泛应用,由最初的社会科学家到后来的医学研究者,都在使用这种方法。到20世纪末,人们已广泛认可Meta 分析是治疗措施公平试验的重要组成部分。

  Meta分析是另外一种有助于避免错误结论的方法,即当某种治疗实际上有益或有害时,结论却是该治疗没有任何效果。例如,可能出现早产的孕妇是否应该短期使用价格低廉的类固醇。1972年报告了第一项随机对照试验,该试验表明这种治疗可降低婴儿的死亡率。十年之后,出现了更多的试验,但都是小规模的,不同的试验其结果也不尽相同。那时,还没有开展系统评价通过Meta 分析的方法来合并证据。如果当时就开展了Meta分析,结果将有力地支持类固醇的疗效。然而直到1989年,才首次发表运用了Meta分析的系统评价。因此,大多数产科医生都没有意识到该治疗的疗效,从而导致了数万名早产婴儿患病或死亡,而这一切原本都是可以避免的。

 要点

  ● 如果不重视偏倚和机遇因素的影响,就很容易得出错误的结论,将实际无效的治疗视为有效,将实际有效的治疗视为无效。

  ● 对照是所有公平试验的关键。

  ● 选择性地报告试验结果将危害患者。

  ● 系统评价所有相关证据应当作为疗效评价的基础。

刘婷兰,周帮旻 译

刁 骧,张鸣明,李幼平 审校


 

推荐信息

最新信息