「待澄清的研究行為(QRPs)」之樣態、普遍性、與嚴重性

想一想

如果研究者只追求統計結果的顯著,會有什麼問題?

那麼,有那些問題呢?在2012年一篇Psychological Science的文章裡,作者們報告了一個對2000多名認知科學家的匿名問卷調查結果,呈現受訪者自陳曾在學術生涯進行過以下QRPs的百分比(John, Loewenstein, Prelec, 2012) :

QRPs歷程或步驟

百分比

  (a)  在文章中,並未報告所有的依變項結果。

63.4%

(b-1)看到統計結果是否顯著後,再決定是否繼續蒐集更多資料。

56.0%

(b-2)看到統計結果不顯著後,決定提前中止蒐集。

15.6%

  (c)  在最後的文章中,並未報告所有的操弄獨變項或全部的情況。

27.4%

  (d)  在報告中,將p值「掐頭去尾」 (如將 .054 轉為 為 .05 )。

22.0%

  (e)  在報告裡,只提到有效(worked)的結果。

45.8%

  (f)  在比較過對結果的影響後,再決定是否刪除特定的資料點,或「極端值」。

38.2%

  (g)  在報告中,將其實是未曾預期的結果講成是事先預期的;可說是「先射箭再畫靶」,又稱HARKing (Hypothesize After Results are Known)。

27.0%

  (h)  假造資料(註1)

.06%

註1:此項泛指在各種情況下,假造出並未實際執行的實驗數據(fabrication),或將未完成之資料補齊、將效果不符預期的實驗結果篡改成符合假設 (falsification) 等。需注意,在多數研究誠信規範或指引中,此類行為已達research misconduct的程度。
參考資料:John LK, Loewenstein G, Prelec D. Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci. 2012;23(5):524-32.

由上表可以得知,除了最後一項之外,其實有相當高的比例自陳曾在研究生涯中進行過上述的QRPs之一;縱使將部分隱匿不報的比例考量進去後,它仍舊在相當程度上反映了大多數人潛在認可的「灰色地帶」。

(b-1), (b-2), (d), (f) 等,現今常被統稱為 p-hacking;而 (e) 項之「只報告有顯著的實驗結果,而不報告支持虛無假設的結果」,文獻也顯示這個作法在心理學界格外的嚴重(Fanelli, 2010)。由此可推知,只發表顯著結果的發表偏誤(publication bias),或習慣性地將不顯著結果放入不見天日的抽屜 (File Drawer Effect),此種「一味地追求統計顯著」似乎在我們實驗科學的方法教育中,已進入許多學生與老師的DNA裡。

到了 2015 年,Science雜誌刊登了一項研究,研究針對2018年間刊登於數個心理學頂級期刊的100個實驗,大規模地進行「可重複性(reproducibility)」的驗證,根據這項研究結果,只有約 1/3 的實驗是可以重複的,這也確認了此問題的嚴重性(Open Science Collaboration, 2015)。

經過這幾年,隨著更多經典實驗被發現無法通過重複性的驗證,在此情況推波助瀾之下,此種「可重複性危機(reproducibility crisis)」,已蔓延到心理學以外的領域,例如:經濟學、政治學等常用到量化統計之學科。

當「可重複性」-這個科學的基礎定義之一-被發現在某些領域裡有一定比例無法被驗證;或是,多數在該領域裡的實驗結果 (有的甚至是教科書等級的經典實驗),經過重新檢驗而發現可信賴性堪慮的時候;無論是對於「教」或是「學」這兩端,皆可能因此「信心崩盤」,此外,眾多利用基礎研究成果進行臨床治療或干預的措施,將可能因此成為「不成熟」的做法,若最終導致普羅大眾對科學界或科學知識「失去信心」的種種災難性後果,也就不令人意外了。

前述的負面影響也許還不是最嚴重的。數篇有著「聳動標題」的知名文章如 “Why Most Published Research Findings are False” 與 “The natural selection of bad science” 等文,皆提出此情況可能會對學術環境產生類似演化歷程的影響-最初僅是一些細微的變異,但環境的壓力能夠讓此特徵在長期競爭中,逐漸顯現出優勢(Ioannidis JPA, 2007; Smaldino & McElreath, 2016)。

換言之,如果只報顯著的結果,且想盡辦法讓結果顯著,使這些「新奇且原創」的文章容易被期刊編審接受,或出現在影響指數較高的期刊;而這些高生產率,常生產高點數論文的實驗室,也更容易拿到更多的經費,培養更多的博士,發表更多的期刊文章;長久下來,這套精神將藉此循環,反覆並強化在下一代的知覺與教學中,最終導致偽陽性結果持續攀昇,科研成果的累積反而離其科學研究的原始目的-求真求實-愈來愈遠。