「待澄清的研究行為（QRPs）」之樣態、普遍性、與嚴重性

想一想

如果研究者只追求統計結果的顯著，會有什麼問題？

那麼，有那些問題呢？在2012年一篇Psychological Science的文章裡，作者們報告了一個對2000多名認知科學家的匿名問卷調查結果，呈現受訪者自陳曾在學術生涯進行過以下QRPs的百分比（John, Loewenstein, Prelec, 2012）：

QRPs歷程或步驟	百分比
(a) 在文章中，並未報告所有的依變項結果。	63.4%
(b-1)看到統計結果是否顯著後，再決定是否繼續蒐集更多資料。	56.0%
(b-2)看到統計結果不顯著後，決定提前中止蒐集。	15.6%
(c) 在最後的文章中，並未報告所有的操弄獨變項或全部的情況。	27.4%
(d) 在報告中，將p值「掐頭去尾」（如將 .054 轉為為 .05 ）。	22.0%
(e) 在報告裡，只提到有效（worked）的結果。	45.8%
(f) 在比較過對結果的影響後，再決定是否刪除特定的資料點，或「極端值」。	38.2%
(g) 在報告中，將其實是未曾預期的結果講成是事先預期的；可說是「先射箭再畫靶」，又稱HARKing （Hypothesize After Results are Known）。	27.0%
(h) 假造資料（註1）	.06%
註1：此項泛指在各種情況下，假造出並未實際執行的實驗數據（fabrication），或將未完成之資料補齊、將效果不符預期的實驗結果篡改成符合假設（falsification）等。需注意，在多數研究誠信規範或指引中，此類行為已達research misconduct的程度。參考資料：John LK, Loewenstein G, Prelec D. Measuring the prevalence of questionable research practices with incentives for truth telling. Psychol Sci. 2012;23（5）:524-32.

由上表可以得知，除了最後一項之外，其實有相當高的比例自陳曾在研究生涯中進行過上述的QRPs之一；縱使將部分隱匿不報的比例考量進去後，它仍舊在相當程度上反映了大多數人潛在認可的「灰色地帶」。

（b-1）, （b-2）, （d）, （f）等，現今常被統稱為 p-hacking；而（e）項之「只報告有顯著的實驗結果，而不報告支持虛無假設的結果」，文獻也顯示這個作法在心理學界格外的嚴重（Fanelli, 2010）。由此可推知，只發表顯著結果的發表偏誤（publication bias），或習慣性地將不顯著結果放入不見天日的抽屜（File Drawer Effect），此種「一味地追求統計顯著」似乎在我們實驗科學的方法教育中，已進入許多學生與老師的DNA裡。

到了 2015 年，Science雜誌刊登了一項研究，研究針對2018年間刊登於數個心理學頂級期刊的100個實驗，大規模地進行「可重複性（reproducibility）」的驗證，根據這項研究結果，只有約 1/3 的實驗是可以重複的，這也確認了此問題的嚴重性（Open Science Collaboration, 2015）。

經過這幾年，隨著更多經典實驗被發現無法通過重複性的驗證，在此情況推波助瀾之下，此種「可重複性危機（reproducibility crisis）」，已蔓延到心理學以外的領域，例如：經濟學、政治學等常用到量化統計之學科。

當「可重複性」－這個科學的基礎定義之一－被發現在某些領域裡有一定比例無法被驗證；或是，多數在該領域裡的實驗結果（有的甚至是教科書等級的經典實驗），經過重新檢驗而發現可信賴性堪慮的時候；無論是對於「教」或是「學」這兩端，皆可能因此「信心崩盤」，此外，眾多利用基礎研究成果進行臨床治療或干預的措施，將可能因此成為「不成熟」的做法，若最終導致普羅大眾對科學界或科學知識「失去信心」的種種災難性後果，也就不令人意外了。

前述的負面影響也許還不是最嚴重的。數篇有著「聳動標題」的知名文章如 “Why Most Published Research Findings are False” 與 “The natural selection of bad science” 等文，皆提出此情況可能會對學術環境產生類似演化歷程的影響－最初僅是一些細微的變異，但環境的壓力能夠讓此特徵在長期競爭中，逐漸顯現出優勢（Ioannidis JPA, 2007; Smaldino & McElreath, 2016）。

換言之，如果只報顯著的結果，且想盡辦法讓結果顯著，使這些「新奇且原創」的文章容易被期刊編審接受，或出現在影響指數較高的期刊；而這些高生產率，常生產高點數論文的實驗室，也更容易拿到更多的經費，培養更多的博士，發表更多的期刊文章；長久下來，這套精神將藉此循環，反覆並強化在下一代的知覺與教學中，最終導致偽陽性結果持續攀昇，科研成果的累積反而離其科學研究的原始目的－求真求實－愈來愈遠。