「待澄清的研究行為(QRPs)」之樣態、普遍性、與嚴重性

想一想
如果研究者只追求統計結果的顯著,會有什麼問題?
那麼,有那些問題呢?在2012年一篇Psychological Science的文章裡,作者們報告了一個對2000多名認知科學家的匿名問卷調查結果,呈現受訪者自陳曾在學術生涯進行過以下QRPs的百分比(John, Loewenstein, Prelec, 2012) :
QRPs歷程或步驟 |
百分比 |
(a) 在文章中,並未報告所有的依變項結果。 |
63.4% |
(b-1)看到統計結果是否顯著後,再決定是否繼續蒐集更多資料。 |
56.0% |
(b-2)看到統計結果不顯著後,決定提前中止蒐集。 |
15.6% |
(c) 在最後的文章中,並未報告所有的操弄獨變項或全部的情況。 |
27.4% |
(d) 在報告中,將p值「掐頭去尾」 (如將 .054 轉為 為 .05 )。 |
22.0% |
(e) 在報告裡,只提到有效(worked)的結果。 |
45.8% |
(f) 在比較過對結果的影響後,再決定是否刪除特定的資料點,或「極端值」。 |
38.2% |
(g) 在報告中,將其實是未曾預期的結果講成是事先預期的;可說是「先射箭再畫靶」,又稱HARKing (Hypothesize After Results are Known)。 |
27.0% |
(h) 假造資料(註1) |
.06% |
註1:此項泛指在各種情況下,假造出並未實際執行的實驗數據(fabrication),或將未完成之資料補齊、將效果不符預期的實驗結果篡改成符合假設 (falsification) 等。需注意,在多數研究誠信規範或指引中,此類行為已達research misconduct的程度。 |
由上表可以得知,除了最後一項之外,其實有相當高的比例自陳曾在研究生涯中進行過上述的QRPs之一;縱使將部分隱匿不報的比例考量進去後,它仍舊在相當程度上反映了大多數人潛在認可的「灰色地帶」。
(b-1), (b-2), (d), (f) 等,現今常被統稱為 p-hacking;而 (e) 項之「只報告有顯著的實驗結果,而不報告支持虛無假設的結果」,文獻也顯示這個作法在心理學界格外的嚴重(Fanelli, 2010)。由此可推知,只發表顯著結果的發表偏誤(publication bias),或習慣性地將不顯著結果放入不見天日的抽屜 (File Drawer Effect),此種「一味地追求統計顯著」似乎在我們實驗科學的方法教育中,已進入許多學生與老師的DNA裡。
到了 2015 年,Science雜誌刊登了一項研究,研究針對2018年間刊登於數個心理學頂級期刊的100個實驗,大規模地進行「可重複性(reproducibility)」的驗證,根據這項研究結果,只有約 1/3 的實驗是可以重複的,這也確認了此問題的嚴重性(Open Science Collaboration, 2015)。
經過這幾年,隨著更多經典實驗被發現無法通過重複性的驗證,在此情況推波助瀾之下,此種「可重複性危機(reproducibility crisis)」,已蔓延到心理學以外的領域,例如:經濟學、政治學等常用到量化統計之學科。
當「可重複性」-這個科學的基礎定義之一-被發現在某些領域裡有一定比例無法被驗證;或是,多數在該領域裡的實驗結果 (有的甚至是教科書等級的經典實驗),經過重新檢驗而發現可信賴性堪慮的時候;無論是對於「教」或是「學」這兩端,皆可能因此「信心崩盤」,此外,眾多利用基礎研究成果進行臨床治療或干預的措施,將可能因此成為「不成熟」的做法,若最終導致普羅大眾對科學界或科學知識「失去信心」的種種災難性後果,也就不令人意外了。
前述的負面影響也許還不是最嚴重的。數篇有著「聳動標題」的知名文章如 “Why Most Published Research Findings are False” 與 “The natural selection of bad science” 等文,皆提出此情況可能會對學術環境產生類似演化歷程的影響-最初僅是一些細微的變異,但環境的壓力能夠讓此特徵在長期競爭中,逐漸顯現出優勢(Ioannidis JPA, 2007; Smaldino & McElreath, 2016)。
換言之,如果只報顯著的結果,且想盡辦法讓結果顯著,使這些「新奇且原創」的文章容易被期刊編審接受,或出現在影響指數較高的期刊;而這些高生產率,常生產高點數論文的實驗室,也更容易拿到更多的經費,培養更多的博士,發表更多的期刊文章;長久下來,這套精神將藉此循環,反覆並強化在下一代的知覺與教學中,最終導致偽陽性結果持續攀昇,科研成果的累積反而離其科學研究的原始目的-求真求實-愈來愈遠。