使用者經驗研究之實驗設計

第 12 屆 iThome 鐵人賽

DAY 11

Software Development

在AI的時代追求人性系列第 11 篇

12th鐵人賽

愛煮飯的小72

2020-09-25 22:43:34

5164 瀏覽

分享至

鐵人賽至今已經過了三分之一了，感謝大家的持續收看～
上篇徵求讀者們提供寫文的主題，獲得了Mixed method、
統計，以及Research through design這幾個主題的提議。
其中Research through design我不是專業的不一定能談，
但如果要說mixed method和統計，那就不能不提實驗設計的部分。
所以今天就來聊聊實驗設計吧～

實驗設計其實是很多科學研究的基本功夫，
基本上他的精神就是在各種控制其他因素控制的情況下，
去看改變一個或多個變因，對於結果會有什麼影響。

比如說要看一個藥物對治療某種疾病有沒有用，
我們可以找兩批條件相同具有某種疾病的白老鼠，
一批不給他藥，一批給藥，
然後去看該藥劑對於該種疾病是否有改善的效果。

上面這個是屬於單一變項的實驗設計，
沒有給藥的我們稱之為「對照組」，
施打藥劑的則稱為「實驗組」。

實驗設計有時候會考慮多個變項，
除了看單一變項的影響之外，也看多個變項的交互作用。
例如上面那個例子，除了給藥與否外，我們可以每天讓白老鼠運動跟不運動。
這樣就會有：
(A1) 給藥且運動的白老鼠
(A2) 給藥但不運動的白老鼠
(B1) 不給藥且運動的白老鼠
(B2) 不給藥也不運動的白老鼠
這四組，我們就可以去看藥跟運動之間是否有交互作用，
如果有的話影響是長怎樣的。

實驗設計當然可以有很多不同的變項，但越多變項，
需要的樣本數就越多，同時也越有可能有複雜的交互作用。
所以適度設計實驗的複雜度是很重要的。

另外上面這個例子是屬於所謂組間變異（between-group design），
也就是每個情況我們是用獨立的樣本來做實驗。
還有另一種作法是組內變異（within-group design），
也就是我們是用統一組樣本，但讓他先後去經歷不同的條件。
組間變異的好處是比較能夠切乾淨不同情況的影響，
但壞處就是需要的樣本數較大，而且數量越多，
就越難找到真的相似條件的個體。

組間變異因為是用同一組樣本，所以個體的差異不會影響那麼大，
但因為同樣的樣本要經歷兩次以上的條件，時間就可能變成一個影響的因素。
因此組內變異的設計中，通常會把變項不同的條件的順序隨機化。
例如一半的樣本先經歷條件A，然後再經歷條件B。
另一半則是先經歷條件B，再經歷條件A。
用這樣的方式去平衡時間的影響。
這個做法稱之為對抗平衡設計(Counterbalanced Design)。
同理如果條件越多，就是要去經歷所有的排列組合來平衡。
這樣所需要的樣本數可能又會大增，
因此就有一種變化叫做拉丁方格設計(Latin Square Design），
算是完整的對抗平衡設計的精簡版，兼具平衡的效果跟樣本數的精簡化。

在人機互動或是使用者經驗的實驗設計，
基本上是承襲了心理學在做行為研究時的實驗設計。
因為不像白老鼠或是一些無機物，
我們可以用讓他儘量條件一樣，
人很難真的得到兩組完全一樣條件的。
所以在人機互動的實驗設計裡，組內變異的設計是比較常見的。

另外，在人類行為的實驗設計裡，
如果我們給予實驗組一個刺激（像上面的藥的例子），
通常我們會給予對照組一個相對應的安慰劑。
比如說實驗組我們給予一篇文章AI推薦給他的文章，
對照組則會拿到另一篇隨機的文章，但實驗者也會說是AI推薦給他的，
這樣就可以避免有預期心理的差異。

而且其實不只是受試者，實驗者本身通常也不會知道哪一個是真正的刺激，
（所以準備實驗材料的人跟真正去引導實驗的人通常建議不同）。
這稱之為雙盲（Double Blindness）。
雙盲是人類行為的實驗設計裡，非常推薦的一種做法。

實驗設計還有很多面向可以討論，
例如樣本數應該要收到多少，
還有實驗的信度(Reliability)跟效度(Validity)。
前者是指測量本身的誤差程度，
後者是指實際上在測的東西跟我們真正想測的東西是不是一樣。
有興趣的人可以參考這篇的說明，有很仔細的介紹。

實驗設計大概就簡介到這裡，下篇可以談談統計檢定～