評價黃金標準：隨機對照試驗的歷史教我們的事 ~ STS多重奏

譯者：陳禹安

翻譯文章：

　　Bothwell, Laura E., Jeremy A. Greene, Scott H. Podolsky and David S. Jones (2016). Assessing the Gold Standard — Lessons from the History of RCTs. The New England Journal of Medicine374(22): 2175-2181.

譯者前言：

本文因應Laura E. Bothwell博士於中央研究院歷史語言研究所的專題演講〈The History of Randmized Controlled Trails and the Political Battle for Reliable, Ethical Health Research〉，故針對Bothwell博士發表於《新英格蘭醫學期刊》（New England Journal of Medicine, NEJM）上的同一主題文章〈Assessing the Gold Standard — Lessons from the History of RCTs〉進行翻譯，該文收錄於新英格蘭醫學期刊2016年6月號〈改頭換面的臨床試驗〉（The Changing Face of Clinical Trials）系列文章中。

本文第一作者Bothwell博士於2014年取得哥倫比亞大學梅爾曼公共衛生學院（Columbia University Mailman School of Public Health）歷史與倫理研究中心（The Center for the History and Ethics of Public Health）社會醫學科學博士學位（Ph.D., Sociomedical Sciences），畢業後擔任哈佛醫學院及布萊根婦女醫院藥物流行病學與藥事經濟學教學研究部門研究員，並曾應邀在美國國立醫學圖書館（National Library of Medicine）的非洲月活動進行關於種族與臨床試驗的歷史演講。本文的合作者還包括任教於約翰‧霍普金斯大學醫學院（Johns Hopkins School of Medicine）醫學史研究所（Department of The History of Medicine）的藥物史專家Jeremy A. Greene博士。他撰寫與主編多本藥物史相關著作，並和研究醫學期刊背後幽靈寫作（ghost writing）現象的科技與社會研究學者 Sergio Sismondo合編人文社會科學研究中關於藥物研究的讀本《The Pharmaceutical Studies Reader》。此外還有甫出版《The Antibiotic Era》一書的哈佛大學醫學院全球健康與社會醫學研究所教授兼哈佛大學Francis A. Countway醫學圖書館主席Scott H. Podolsky，以及曾參與編輯《What’s the Use of Race: Modern Governance and the Biology of Difference》一書的哈佛大學社會醫學科與科學史研究所的合聘教授David S. Jones。

過去台灣醫界在相關期刊上雖偶有醫學史與醫學倫理的討論文章，近期也有群學出版社出版的譯作《髒血：塔斯基吉梅毒試驗〉一書，但少有文史學者參與對話。如同這篇譯文裡NEJM所示範的如何創造有趣的跨領域學術空間，願台灣醫界得以與醫學史、醫學人文、醫學倫理、科技與社會研究有更密切的互動與對話。

正文：

過去70年來，隨機對照試驗（randomized, controlled trials, RCTs，又稱隨機控制試驗、隨機分派臨床試驗）已重新形塑醫學知識與實作。由20世紀中葉臨床研究人員以及統計學家所普及，隨機對照試驗旨在減少偏差並增進臨床試驗的準確性，並且通常做得不錯。然而過去七十年來也見證了這新的「金科玉律（gold standard，譯註一）」的諸多限制。關於醫學與疾病的複雜性以及形塑醫學知識生產與流通的經濟和政治影響力，隨機對照試驗的科學史與政治史提供了經驗及教訓。

隨機對照試驗的興起

醫師和醫學研究人員數千年來已嘗試使用個案報告（case report）、病例報告（case series）、公開演示（public demonstrations）、見證（testimonials）、臨床論理（clinical reasoning）以及偶爾由臨床試驗來評估治療處置。隨著醫學的科學性在十九世紀末期越發佔有重要地位，醫師接觸臨床研究的條件也越加嚴格。到了20世紀初，改革者已然引進許多臨床試驗技法來消除偏差，包含盲法（blinding）、試驗組隨機分派（alternate assignment to trial groups）以及統計分析（statistical analysis）。^1,2英國流行病學家Austin Bradford Hill在1940年代統整出所謂隨機對照試驗研究方法，便是立基於這些早期的策略。Hill的成果也碰上二戰期間與戰後英國政府對合作研究的投入。比方說，新擴充的英國醫學研究委員會（The Medical Research Council）即是支持施行隨機對照試驗的架構。

Austin Bradford Hill。圖片來源

隨機對照試驗最初受到的評價參差不齊。有的評論者擔心其不給予控制組有希望的新療法是否有違倫理。試驗進行者則反駁道，隨機對照試驗得以確立新療法是否優於給予控制組的標準照護。⁴其他人則認為亟需隨機對照試驗作為評估藥廠在1950年代對新興藥物的療效宣稱，如抗生素、降血壓藥以及抗精神病藥物。^5,6如同一名期刊編輯在1956年所告誡的──「醫師們應特別當心在藥商的證據或其提供的認證基礎上採納新藥。他們應當要求由公正第三方提供和解釋清楚、無偏差、具足夠人數對照且經充分研究後的證據」。⁷隨機對照試驗的擁護者人數漸漸勝過詆毀者人數。很快地，美國國家衛生研究院（U.S. National Institutes of Health）以及其他政府部門便加入英國資助隨機對照試驗的行列（如圖一）。

圖一、隨機對照試驗的資金來源。許多早期發表的隨機對照試驗是由英美政府當局所資助，但提供試驗資金的國家數目隨著時間而成長。產業資助的隨機對照試驗在法規機構開始要求新藥核准的臨床試驗後大為擴張。當產業資助的試驗激增，未公開資金來源的試驗發表數目也跟著增加。這些趨勢僅反映有發表的文獻，資料來自600份以上已發表臨床對照試驗的系統抽樣。DHHS代表的是（美國）衛生及公共服務部（Department of Health and Human Services）。

然而在學術圈及政治圈之外，一開始並不支持隨機對照試驗。製藥商不願意投入資源和時間到隨機對照試驗裡，因為他們可以依靠專家見證以及個案報告的方式擴大產品的療效宣稱。³這種未受管控系統的不穩定性隨著1961年沙利竇邁（Thalidomide）導致的悲劇變得顯而易見，當時上千名懷孕婦女使用該藥導致流行性的死胎及嬰兒海豹肢畸形。美國國會於1962年對《美國聯邦食品、藥品和化妝品法案》提出《Kefauver─Harris修正案》作為回應，規定新藥需在「充分和良好對照的研究中」證明有效。到了1970年，美國食品和藥物管理局（the Food and Drug Administration, FDA）將這個修正案解釋為新藥上市所需的試驗是隨機對照試驗。

這些規定伴隨戰後美國製藥業的成長，讓美國開始成為隨機對照試驗的首要製造者（圖二）。³歐盟理事會（Council of the European Communities）、日本政府和許多國家監管機構很快也實行類似的管制。久而久之，國家監管機構間開始合作建立臨床研究的國際標準，進一步將隨機對照試驗系統化。¹⁰緊接著，為了在競爭激烈的市場中遵守管制並獲得管制下新藥適應症的批准，製藥業成為隨機對照試驗的主要贊助者。到1990年代時，製藥業已取代政府和醫學界，成為隨機對照試驗的主要製造者（圖一）。³

圖二、隨機對照試驗研究的選址地點，1946-2015。發表隨機對照試驗地點的趨勢反映英國作為該方法的起源以及美國對隨機對照試驗的熱衷。第二次世界大戰後，當美國國立衛生研究院開始資助各式試驗、美國製藥業擴增，且《Kefauver─Harris修正案》通過，大量的隨機對照試驗便以美國作為基地。美、英兩國的研究者和資助者帶頭進行許多在美國和英國之外進行的試驗，尤其是在早期。隨著越來越多國際監管機構開始要求進行隨機對照試驗以核准新藥上市，且隨機對照試驗越發成為國際黃金標準，試驗的資助也變得多樣化。資料來自作者Bothwell。³

同一時間，臨床流行病學者宣傳隨機對照試驗是讓醫學更理性的最佳手段。^11,12在1980年代前期學者們已經將隨機對照試驗當作醫學知識的黃金標準。¹³當實證醫學（evidence-based medicine）在後續數十年間晉升為主流，方法學上證據強度金字塔概念進而出現，其中金字塔底層是強度最弱的個案報告，金字塔頂層是強度最強的隨機對照試驗。

不算金科玉律的黃金標準

然而隨機對照試驗並未獨霸醫學知識生產。快速瀏覽醫學文獻可發現過去的研究方法仍有其價值，包含病例報告甚至是個案報告。^14-16觀察性研究的新方法相繼出現，例如在日常照護的情境下使用大型資料庫中病人各式治療的相對效率（efficiency）以生產比較研究的效用（effectiveness）數據（譯註二）。^17,18醫師除了經驗資料外，也仍舊仰賴生理學原理。冠狀動脈血管成形術及血管支架置放術得以嶄露頭角並非因為成功的隨機對照試驗，而是技術的直觀邏輯以及血管造影提供令人信服的影像證據。¹⁹

當隨機對照試驗已成為製藥研究的標準，臨床研究者仍努力將其適用於其他醫學領域。雖然精神科醫師進行了許多心理治療的隨機對照試驗，但批評者認為以這種方式評估長期且高度個人化的療法並不恰當，有時甚至不可能評估。²⁰一些心理治療的大型試驗便因這類的方法論考量而遭忽略。^21,22此外，因為隨機對照試驗用在精神藥物比心理治療更可行，因此精神藥物的治療證據相較於心理治療不成比例地更加穩固。雖說這個差異使得藥廠受益，它也可能助長精神照護往藥物傾斜的不全面發展。^3,23

外科手術的隨機對照試驗也面臨相似困境。外科醫師們於1950年代開始進行隨機對照試驗，舉例來說，運用假手術控制組測試內胸動脈結紮對心絞痛治療的功效（efficacy）（譯註二）。²⁴然而當越來越多外科手術的隨機對照試驗出現在1960和1970年代，外科醫師們卻越加認清試驗的限制：每個病人有著獨特的病理學表現，每個外科醫師有著相異的技能，每場手術涉及關於麻醉、術前治療、手術方法、手術儀器、術後照護的無數選擇，這些都與臨床試驗標準化的需求相違。²⁵假手術不能用於重大手術中，這也限制了盲性試驗的使用時機。

這些考量在冠狀動脈繞道手術的隨機對照試驗的爭論中爆發。當首次大型的冠狀動脈繞道手術隨機對照試驗顯示大部分患有慢性穩定型心絞痛的病人接受冠狀動脈繞道手術並未帶來顯著的存活效益（survival benefit）時，^26,27批評者反擊說：試驗參與者太過健康，外科醫師過於缺乏經驗，手術致死率太高，統計分析不可靠等。^28,29著名的外科醫師們認為隨機對照試驗不適合用於手術治療。³⁰過去在發展冠狀動脈繞道手術佔有重要地位的René Favaloro認為「隨機對照試驗發展至今達到如此高的科學地位及接受度，使其幾乎如同宗教上的神聖化……如果過度仰賴於它可能帶來危險。」³¹

一個長久存在且可能難以解決的問題在於隨機對照試驗的時間因素考量和快步調的創新之間存在的差異。1976年關於評估冠狀動脈繞道手術最佳方式的討論中，外科醫師抱怨說：「當我們在充分的時間內累積足夠數據時，我們會發現手術技術已然有所改善或治療方針改變，又或是兩者同時發生，而讓試驗結論不再適用。」³²大型的隨機對照試驗常需要花很多年招募病人、追蹤病人、並進行分析。在治療方針迅速演變的情況下，隨機對照試驗的結果似乎在發表前便過時了。當COURAGE試驗（Clinical Outcomes Utilizing Revascularization and Aggressive Drug Evaluation，使用血管重新灌流和積極藥物治療的臨床結果評估）於2007年顯示冠狀動脈成形術的理想功效結果不如預期時，該治療的擁護者認為是因為試驗中使用的傳統金屬支架已被塗藥血管支架取代而不再適切。³⁴這種假定任何創新都較為優越的邏輯，創造了一個類似演化生物學上「紅心皇后效應」的情境（譯註三），其中試驗者得賣力跟上不斷出現的創新。³⁵

即使是健全的隨機對照試驗有時也無法影響醫療實作。在1960年代末期，大學聯盟糖尿病計畫（University Group Diabetes Program）精心設計的試驗顯示糖尿病用藥Tolbutamide和心血管疾病死亡率的增加有關。然而在持續超過十年關於試驗進行和詮釋的爭論後，Tolbutamide的處方不減反增。類似的情節也發生在2002年，當公開募資的ALLHAT試驗（Antihypentensive and Lipid-Loweing Treatment to Prevent Heart Attack Trial，抗高血壓和降血脂治療預防心肌梗塞試驗）顯示Thiazide類利尿劑學名藥在治療高血壓的效果上與新上市且較昂貴的CCB類（calcium-channel blocker）和ACEI類（angiotensin-converting-enzyme inhibitors）藥物相當時。由於這些發現受到藥廠及醫師們質疑，新的抗高血壓藥物其銷售成長仍優於舊的學名藥。³⁸另一個2002年的假手術隨機對照試驗則挑戰了傳統認為關節鏡清創手術對慢性退化性關節炎有益的看法。³⁹儘管這個發現被重複證實，許多骨外科醫師仍不正視這些研究成果，繼續執行手術。⁴⁰

另一方面，一些隨機對照試驗的結果原已視為真相被接受，但後來證實它們缺乏外部效度（external validity）。從建立適當的納入條件，標準化介入治療，到決定最相關評估結果，隨機對照試驗自有其挑戰。這些限制促使研究人員追求其他研究方法，雖說其他方法也有其限制。

社會和道德上的考量也為一些隨機對照試驗的正當性帶來挑戰。1980年代後期愛滋危機使得許多張力檯面化。病患感到沮喪的是隨機對照試驗會延遲反轉錄藥物的核准，需要在試驗完成前找到獲得藥物的門路。⁴¹臨床工作者則在醫師和科學家的角色之間感到衝突。⁴²倡議者終獲臨床研究的支持，變通的方式包括替代終點（surrogate end points）的使用（譯註四），美國食品和藥物管理局有條件的核准，以及雙軌制在試驗外提供藥物的管道。不過，批評者憂心鬆弛的標準會減損科學的嚴謹性，並助長製藥業推動法規鬆綁的危險提案。

在發展中國家所執行的愛滋病毒感染治療隨機對照試驗於1990年代爆發倫理爭議，特別是這些國家固然照護水平不高，但是否就能將原本在歐美認為是不倫理的作法合理化，把它們當作新藥的安慰劑對照組。NEJM期刊編輯Marcia Angell便譴責這些「盲從聽命者」（slavish adherence），在這個作法會導致倫理原則的退守時還依然故我地操作隨機對照試驗。⁴⁵

Marcia Angell。圖片來源

上述爭議引起社會科學家和政策學者的關注。正如社會學家Steven Epstein所言，隨機對照試驗已變成「協商可信度、風險以及義務的重要場域」。當隨機對照試驗發生在醫學、社會及政治脈絡中，「比起解決爭議，隨機對照試驗會反映並推動爭議自身」。⁴⁶歷史學家Harry Marks認為隨機對照試驗不應只被視為科學技術，而是社會事件──「即使最簡單的隨機對照試驗也是社會秩序的協商下的產物（有些有爭議，有些則無），充斥著決定以及未經檢驗的前提。」³⁶雖然隨機對照試驗的發展是用來生產普遍的、普世的生物醫學知識，但它們仍和在地的社會條件、經濟和政治深深地糾纏在一起。

Steven Epstein。圖片來源

知識生產的經濟學和地理學

隨機對照試驗也無意間限制了醫學知識的生產者。當個案報告構成治療功效的有效證據時，單就一位醫師便得以用臨床經驗寫下可能改變臨床實作的文章。然而隨機對照試驗需要具大力支持的合作研究。隨機對照試驗隨著時間已成為官僚化、公司化的大型企業，需要所費不貲的架構進行研究設計、病人照護、紀錄保存、倫理審查以及統計分析。到了21世紀，光是第三期臨床試驗一次就需要花3000萬美元甚至更多。⁴⁷因此，即使試驗資助者時常來自北美、西歐或東亞，但研究常在其他地方進行。隨之而來的是隨機對照試驗反映工業化區域不成比例的研究興趣。隨機對照試驗的高成本還有其他意想不到的後果：在缺乏價格管制的市場中它們正當化處方藥的高開發成本。⁴⁹同時，最近政策制定者提出諸如21世紀醫療法案（21st Century Cures Act）為管制法規帶來改變，這將以增加效率的名義降低隨機對照試驗在藥物核准上的影響力。

此外，一方面因為試驗費用高，研究者及其資助者對做出陽性試驗結果有極大興趣。相當多的證據顯示業界資助的試驗比公開募資的試驗更容易產生有利的結果。⁵⁰而且到了1990年代明顯傾向發表陽性結果而非陰性結果，從而有損於醫學知識。監管機構和期刊主編透過要求披露資金利益衝突和註冊所有臨床試驗來回應這些問題，努力提高隨機對照試驗的透明度，以便陰性結果的試驗不會單純消失。

隨著隨機對照試驗發展成為高成本、高獲利的營銷工具，臨床試驗產業跟著蓬勃發展。委託研究機構（Contact Research Organization）在1970年代末期出現，如今已成為市值250億美元的產業。⁵⁴委託研究機構促成美國的試驗主持人從學術型教學醫院的醫師科學家大體上轉變為在私人機構中工作，以接案為主的非學術型醫師。⁵⁵委託研究機構也在有利研究進行的中等收入國家尋找過去沒接受過治療的海外研究者。儘管試驗產品在試驗完成後不一定能提供給當地民眾，各國現正爭相說服製藥業和委託研究機構說該國的管制、臨床、公共衛生狀況等適合執行試驗。⁴⁸但隨著研究場域多樣化，研究目標並未跟著多樣化：大多數臨床研究仍集中在對公共衛生影響有限，但在高收入國家具有巨大市場潛力的藥物。低收入地區的結核病、瘧疾和其他病害幾乎未受到重視。製藥業在全球知識生產越發舉足輕重的角色，已然對現代隨機對照試驗該如何供公共衛生使用提出深刻的倫理和政策問題。

隨機對照試驗的過去、現在與未來

到了21世紀之初，隨機對照試驗已達到治療證據黃金標準的地位，但它的限制也具有充分證據。醫師們繼續追求其他比隨機對照試驗更快、更便宜或能處理隨機對照試驗無法解決的問題的知識生產方式。然而在醫學場域外，隨機對照試驗逐漸被效仿，甚至被理想化。衛生政策研究者找尋如同俄勒岡州醫療保險實驗（Oregon Medicaid experiment）般罕見的實驗場域供隨機分配得以執行或不經意地達到隨機分配。⁵⁶發展經濟學者將隨機對照試驗視為主要的新實驗方法，宣稱該方法的潛力「得以在21世紀向社會政策掀起革命，如同隨機分配試驗在20世紀對醫學掀起的革命般」。⁵⁷隨機對照試驗延伸到其他領域時也受到熟悉的批評。以經濟學者Angus Deaton為例，他認為隨機對照試驗「並不直接比其他證據來的強，隨機對照試驗在證據強度上並不佔有特殊地位，也不會和其他方法在證據上有強弱的區別」。

Angus Deaton。圖片來源

然而儘管隨機對照試驗有其限制，但它已對醫學研究掀起革命，並透過澄清無數處置的優缺點來提高醫療保健的質量。受到政府資助和食品藥物管理局授權的臨床研究人員使用隨機對照試驗來推進臨床研究的理論和實作。評論者越來越善於查出隨機對照試驗的缺陷，使得試驗者在自身實驗設計時更加警惕。從歷史的角度來看，隨機對照試驗並非個別穩定的技術，而是隨著醫師們不斷對臨床研究進行修訂而將研究完善的方法演進。

隨機對照試驗作為解決醫學爭議唯一權威仲裁方式的想法已讓位給更務實的做法。試驗者繼續尋找新的知識生產方式，從統合分析（meta-analysis）到後設性的註冊對照研究（controlled registry studies）都能輕易囊括大量的多元病人。觀察研究法被視為和隨機對照試驗互補，而新的監測形式則可以將隨機對照試驗鑲入電子病歷的資料收集結構中。雖說隨機對照試驗也許是最關鍵的部分，但現在也只是一堆用於評估功效以及管制治療市場的研究工具的一部份而已。這樣的狀況可能會隨著近來個人化醫療或精準醫療的轉向（回溯）繼續演變。由於醫學關注於個別患者獨特的病生理以及共有的病徵，隨機對照試驗產生的普同數據的適用性將受到更詳細的查驗。

我們已來到隨機對照試驗歷史的關鍵轉折。原先設計來減少研究偏差的隨機對照試驗，如今已成為利益互相衝突之場域，值得仔細研究。藥商和醫療器材商追求能向新群體推銷商品的數據。在臨床現場實作的醫師希望能有可靠的數據證明那些治療對他們的病人最有利。隨機對照試驗為上述這兩個目標服務，它也同時作為歷史存在反映科學、歷史和經濟發展。了解其中錯縱複雜的歷史使我們得以更具批判力和有效地評估隨機照護試驗。鑒於隨機對照試驗在越發不平等的全球衛生研究中所扮演的角色，我們如何展望未來的試驗可以處理對醫學和全球衛生真正具有重大意義的問題？處理這些隨機對照試驗在歷史上的偶然面向，將會是對提升醫學研究可信度和用途的學術研究者、產業研究者以及政府官員的一場攸關其角色和義務的徹底檢驗。

（譯註一）本文斟酌gold standard在語句中的含意，交替譯為「黃金標準」以及帶有反諷意涵的「金科玉律」。

（譯註二）本文參照張朝凱所著之《醫務管理概論》以及該詞彙意涵，選擇將Effectiveness譯為效用、將Efficacy譯為功效、將Efficiency譯為效率。效用強調非理想狀況（如臨床條件）下之療效評估，功效強調理想化條件下之療效評估，效率強調人力與金錢的輸入是否得到最大化輸出。

（譯註三）使用《愛麗絲夢遊仙境》續集《愛麗絲鏡中奇緣》（Through the Looking-Glass, and What Alice Found There）裡紅心皇后對愛麗絲說的一句話：「在我的領地中，妳要一直拼命跑，才能保持在原地。（Now, here, you see, it takes all the running you can do, to keep in the same place.）」，演化生物學家Leigh Van Valen在其1973年發表的〈一則新的演化法則〉（A New Evolutionary Law）文章以「演化軍備競賽（evolutionary arms race）」的譬喻，描繪一物種的適應會改變另一物種的擇汰壓力進而形成動態的交互影響過程，此概念成為日後拮抗式共演化（antagonist coevolution）理論的基礎。

（譯註四）替代終點（surrogate end），又為替代臨床指標（surrogate marker），係指使用測量容易、成本低廉的生物指標如血壓、糖化血色素等，代替需長時間觀察統計的臨床症狀實際影響。

參考文獻：

請參考原出處網址。

譯者介紹：

陳禹安，長庚大學醫學生暨陽明大學科技與社會研究所碩士生。最近的工作是推坑優秀的同學們為STS多重奏盡一份心力，但優秀的同學們都很忙時只好貢獻自己的肝。

*本文感謝陽明大學科技與社會研究所郭文華教授給予翻譯上的建議，感謝科技與社會研究所陳柏勳同學進行翻譯校對，惟文責由譯者自負。此外，譯者前言中關於作者資訊及講題資訊整理自郭文華教授提供的部分內容，在此一併致謝。

* 本文經譯者同意同時刊載於STS多重奏以及公醫時代網路刊物。

STS多重奏

2017年5月30日

評價黃金標準：隨機對照試驗的歷史教我們的事

0 意見:

張貼留言