【💡💡營運小教室-第32堂】🕹 A/B測試 重點分享 🕹
.
🔎文章同步部落格:https://bit.ly/3rPadlk
(圖文同步、畫好重點,閱讀更方便)
.
最近這兩週我在研究A/B測試,
何謂A/B測試我就直接引用文章內的話:
「針對某一需要改進的功能、頁面或是產品,提供兩種或以上的方案,合理分配流量,將不同方案发布給不同用戶。在運行一段時間後,結合各項指標和科學的統計方法,對比實驗數據做出決策,將最優方案更新給全量用戶。」
.
因此,A/B測試在現今網路行業中被用的相當頻繁,
Google更是把A/B測試視為圭臬,
大到一個功能,
小到一個按鈕的顏色都要做A/B測試,
也因為Google進行了大量的A/B測試,
把用戶旅程(user journey)中每個節點的轉換率一步步提高,
使得每次產品功能或是頁面的改動更符合多數用戶需求,
自然效能與績效就能極大化,
其他像是臉書、亞馬遜等電商公司,
都是將A/B測試納入必要的工作項目內。
.
專門在做這工作的人,
現在也有個很新穎的職務名稱叫成長駭客(Growth Hacker),
大家到104人力銀行搜尋就知道其工作內容,
這邊不贅述。
(注意,A/B測試只是成長駭客內的其中一個工作項目,並非成長駭客就只做A/B測試,差很多)
.
遊戲業坦白說在營運上不太會進行A/B測試,
因為用戶幾乎都從雙平台上下載遊戲,
如果要做A/B測試就只能在雙平台上著手,
新產品或許還能這樣做,
但對既有產品來說就不切實際點,
因此A/B測試通常會出現在廣告的買量測試中。
.
以下分享我自己在A/B測試上的心得分享:
.
1⃣A/B測試不代表一次只能測試兩個,你想測試2個以上也行,主要是得確認每個群體樣本數要夠多,如果樣本數太少,達不到性效度的話,做出來的結果就沒有參考價值。
.
2⃣如何確認有足夠的樣本數呢?身為營運人員,自家的營運數據自己最清楚,可以透過這個網站輸入母體大小,就會自動算出要多少樣本數才能達到統計顯著性。
👉https://zh.surveymonkey.com/mp/sample-size-calculator/
.
3⃣假設是投放廣告,如果不曉得母體會有多少,那可以用以下免費工具來反推,例如你想要達到的轉換率是1%提升到5%,這個頁面就可以幫你計算出兩個群體各自要曝光幾次才足夠,就能判斷預算會花多少。
👉https://clincalc.com/stats/samplesize.aspx
.
4⃣會需要計算上述的原因主要有兩個,一個是預算問題,另一個是在不確定風險下,建議做足夠樣本數就好。
👉舉例來說,如果今天某款遊戲每月付費玩家有10,000人,如果想改動一個功能,可能一開始會想到的做法是隨機5,000人分配到不同群組(也就是A/B測試為50% / 50%)。
.
但這樣就會有一個風險,萬一這個改動是失敗的,等於就會直接影響到5,000人,那在A/B測試期間,可能就開始蒙受不小的營收損失,或是等不到信效度出現就提早結束測試,因此如果能事前估出足夠的樣本數,就能降低上述風險。
.
以10,000人這例子,丟到頁面內,只要370人的樣本就能達到統計顯著性了,不用分到50% / 50%這麼多,只要5%就足夠了,這樣即使A/B測試不理想,也只會影響到那5%付費用戶。
.
5⃣要確保兩個群體是完全獨立,而非交集,如果有交集,就會影響分析結果。
👉這點比較吃技術的工,技術要能夠確保實驗對象進入A/B測試時會被隨機分派到不同群體內,如果因為裝置過多、版本不同等因素而導致有部分用戶既是A群體、也在B群體的話,那就會導致數據判讀出現錯誤。
.
6⃣不要在一個A/B測試還沒做完情況下,又緊接著做另一個A/B測試,除非能確定這兩個A/B測試是完全不相干,不然不但在分析時不容易分清楚每個群體,也很容易影響整個數據的分析。
.
7⃣做出來的結果到底有沒有達到統計顯著性,可以把數據輸入到這個網頁內,非常方便。
👉https://abtestguide.com/calc/
.
8⃣A/B 測試前,可以先執行A/A測試,先確認目前的隨機分配中有沒有其他的變異數,確保這兩個群體的整個營運數據夠乾淨。
👉由於測試的是群體內有沒有其他變因,而非方案本身,因此在流量分配上就能夠以50% / 50%進行。
.
以上就是我對於A/B 測試目前的經驗與心得分享,
如果要再探討下去絕對有更多的理論基礎與分析模組,
我自己也還在學習摸索中,
日後如果有甚麼心得或是勘誤,
我會持續更新在這篇文章中,
如果你有其他心得或是已經發現錯誤的地方,
也歡迎分享給我。
.
🔎參考資料:A/B 測試要測多久?從統計顯著與檢定力看廣告測試結果
https://bit.ly/3CcQAIL
.
🔎延伸閱讀:谷歌是怎么用A/B測試的
https://bit.ly/3lr6KYZ
隨機分派舉例 在 行為改變技術【國考教甄心理師】初複試自介 - Facebook 的推薦與評價
舉例 來說,研究者如欲實驗新編的「社會科教材」是否優於傳統的舊教材。他計畫從國民小學中隨機抽取受試者,並隨機分派為實驗組和控制組。... ... <看更多>
隨機分派舉例 在 [問題] (等組)隨機分派random assignment (equal size groups) 的推薦與評價
我要設計一個實驗。
現在在考慮要α.random assignment 或是 β.random assignment+等組 !
先釐清一下「等組」的定義(我找不到英文有此說法)。
等組指的是condition groups裡的size一樣。例如實驗組有100人,控制組有100人。
我要在網路上實驗,參與者是陸續進來實驗的。我的組別共有三組:A,B,C。
分派方式是,每一位參與者進來就隨機分派到三組之一。
我事先不知道會有誰自願參與實驗,也無法事先得知會有多少名參與者。
情況一 α.random assignment
假設實驗結束後,總計有300名參與者。
那我三組的人數分配有很多種可能,例如:
A B C
100 100 100
120 90 90
80 105 115
有很大可能性,我的組分派會是不均等的。也就是容易出現(100,100,100)以外的組合。
我的問題來了,等組比不等組更理想嗎?
我爬文發現,不等組比較容易顯著?
因此不等組比較容易看到(研究者想看到的)效果?
(這暗示著不等組實驗比較好做,因為容易有效。)
也因此,同樣都顯著,等組因為較難顯著,
等組的解釋能力會比較強(相較不等組)?
再好奇問一下,什麼情況下,不等組的人數差異會大到不能跑統計?
比如說A組 30人
B組 100人
C組1000人
還是說只要看組的變異性同質,以及常態那些,就可以跑呢?
情況二 β.random assignment+等組
同上例 這次我強制讓300人 分成(100,100,100)這種組合
這種分法 Gravetter & Forzano (2009)稱為restricted random assignment
(以下偏操作面、技術面,略嫌囉嗦……)
可是我的這300名參與者,是在不同時間進來實驗的,300人我要做300次隨機分派。
在情況一不用等組時,這不是問題。但情況二要等組時,我就有困擾了。
舉例來說
第一位001號進來實驗時,沒問題,A,B,C隨機選一個給他。
A B C A B C
001 → 001
第二位002號進來時,由於001號已經占據了B,若要等組的話,勢必只能A,C二選一了。
A B C A B C
002 001 → ? 001 ?
問題來了,002從A,C二選一,算是隨機分派嗎?
隨機分派的目的,是為了確保所有個體有同樣的機會被分派到一個組別。
(Gravetter & Forzano, 2009)
001可以3選1,但002只能2選1,003更是只能1選1,這樣算有同樣的機會嗎?
如果不算,那我這麼做,就不能算隨機分派了嗎?
以我的例子來看,β.random assignment+等組 是不是一個無法成立的設計呢?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 122.116.40.183
※ 編輯: tomin 來自: 122.116.40.183 (08/29 04:30)
※ 編輯: tomin 來自: 122.116.40.183 (08/29 04:31)
... <看更多>