3.6 統計分析方法
本節說明本研究採用的統計分析方法,包括假說檢定架構、變異數分析、事後比較、多重比較校正與信賴區間估計。這些方法將用於回應第一章提出的六個研究問題(RQ1-RQ6),確保研究結論具有統計嚴謹性。
一、假說檢定架構
1.1 研究問題與統計方法對應
本研究的六個研究問題各有其對應的統計分析方法:
| 研究問題 | 研究內容 | 主要統計方法 | 顯著水準 |
|---|---|---|---|
| RQ1 | 最佳門檻存在性 | 二次迴歸 F 檢定、峰值檢定 | α = 0.05 |
| RQ2 | 動態門檻優越性 | 單因子 ANOVA + Dunnett 檢定 | α = 0.05 |
| RQ3 | 參數穩定性 | 變異係數分析、Levene 檢定 | CV < 0.3 |
| RQ4 | 交易成本影響 | 敏感度分析、配對 t 檢定 | α = 0.05 |
| RQ5 | 市場差異 | 雙因子 ANOVA(市場 × 策略) | α = 0.05 |
| RQ6 | 產品類型差異 | 雙因子 ANOVA(類型 × 策略) | α = 0.05 |
1.2 顯著水準與檢定力
顯著水準設定:
本研究統一採用 $\alpha = 0.05$ 作為顯著水準,此為社會科學與財務研究的慣例標準。在多重比較情境下,將進行適當的校正以控制整體型一錯誤率。
檢定力分析:
事前檢定力分析(A Priori Power Analysis)用於確認樣本量是否足夠(Cohen, 1988):
- 效果量(Effect Size):Cohen's $f = 0.25$(中等效果)
- 顯著水準:$\alpha = 0.05$
- 目標檢定力:$1 - \beta = 0.80$
- 組數:5(五種策略比較)
根據 G*Power 軟體(Faul, Erdfelder, Lang, & Buchner, 2007)計算,所需樣本量約為每組 39 個觀察值。本研究每種策略有 116 檔股票 × 10 年 = 1,160 個年度觀察值,遠超最低需求,具有充足的統計檢定力。
二、單因子變異數分析
2.1 適用情境
單因子變異數分析(One-Way ANOVA)由 Fisher(1925)提出,用於檢定三個或以上獨立群組的平均數是否存在顯著差異。本研究用於 RQ2:比較 DROP 策略與四種基準策略的績效差異。
2.2 統計模型
單因子 ANOVA 的線性模型為:
其中:
- $Y_{ij}$:第 $i$ 個策略、第 $j$ 個觀察值的績效指標
- $\mu$:總平均數
- $\alpha_i$:第 $i$ 個策略的效果($\sum \alpha_i = 0$)
- $\epsilon_{ij}$:隨機誤差,假設 $\epsilon_{ij} \sim N(0, \sigma^2)$
2.3 假說設定
其中策略編號:
- DROP(動態跌幅門檻)
- DCA(定期定額)
- Lump Sum(年初一次性投入)
- RSI(相對強弱指標)
- Fixed 20%(固定跌幅 20%)
2.4 F 統計量與計算
變異數分解:
其中:
- $SS_{Between} = \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2$:組間變異
- $SS_{Within} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_i)^2$:組內變異
F 統計量:
其中:
- $k$:策略數(= 5)
- $N$:總觀察值數
- $MS$:均方(Mean Square)
決策規則:
若 $F > F_{\alpha, k-1, N-k}$,則拒絕 $H_0$,結論為策略間存在顯著績效差異。
2.5 ANOVA 前提假設檢驗
假設 1:常態性(Normality)
使用 Shapiro-Wilk 檢定(Shapiro & Wilk, 1965)檢驗各組資料的常態性:
若樣本量大(n > 30),根據中央極限定理,ANOVA 對常態性偏離具有穩健性。
假設 2:變異數同質性(Homogeneity of Variance)
使用 Levene 檢定(Levene, 1960)檢驗各組變異數是否相等:
若變異數不同質,可採用 Welch's ANOVA(Welch, 1951)作為替代方法。
假設 3:獨立性(Independence)
透過研究設計確保:各股票、各年度的觀察值相互獨立。
三、事後多重比較
3.1 事後比較的必要性
ANOVA 的 F 檢定僅能判斷「是否存在差異」,無法指出「哪些策略之間存在差異」。事後多重比較(Post-Hoc Multiple Comparisons)用於進一步識別具體的差異配對。
3.2 Dunnett 檢定
適用情境:
Dunnett 檢定(Dunnett, 1955)專門用於將多個處理組與單一控制組進行比較,適合本研究「DROP vs 各基準策略」的比較需求。
假說設定:
以 DCA 為控制組,進行以下比較:
檢定統計量:
其中 $MS_W$ 為組內均方。
臨界值:
Dunnett 檢定使用特殊的臨界值表,考慮了多重比較的校正,控制整體型一錯誤率(Family-Wise Error Rate, FWER)。
選擇 Dunnett 檢定的理由:
- 檢定力較高:相較於 Bonferroni 等一般性校正方法,Dunnett 檢定專為「與控制組比較」設計,檢定力更高
- 概念清晰:本研究的核心問題是「DROP 是否優於 DCA」,Dunnett 檢定直接回應此問題
- 控制 FWER:有效控制整體型一錯誤率在 α 水準
3.3 Tukey HSD 檢定
適用情境:
Tukey's Honestly Significant Difference(HSD)檢定(Tukey, 1949)用於所有成對比較,適合探索性分析(如比較所有策略兩兩之間的差異)。
檢定統計量:
臨界值:
使用 Studentized Range Distribution 的臨界值 $q_{\alpha, k, df}$。
本研究的應用:
Tukey HSD 作為補充分析,呈現所有策略配對的比較結果,提供完整的策略排名資訊。
3.4 Bonferroni 校正
原理:
Bonferroni 校正(Dunn, 1961)是最保守的多重比較校正方法,將顯著水準除以比較次數:
其中 $m$ 為比較次數。
範例:
5 種策略的成對比較共 $C_5^2 = 10$ 次,校正後的顯著水準為:
本研究的應用:
Bonferroni 校正用於敏感度分析,驗證結論在最嚴格校正下是否仍然成立。
四、雙因子變異數分析
4.1 適用情境
雙因子變異數分析(Two-Way ANOVA)用於同時檢驗兩個因子及其交互作用的效果。本研究用於:
- RQ5:市場(美股/台股)× 策略的交互作用
- RQ6:產品類型(ETF/個股)× 策略的交互作用
4.2 統計模型
雙因子 ANOVA 的線性模型為:
其中:
- $Y_{ijk}$:因子 A 第 $i$ 水準、因子 B 第 $j$ 水準、第 $k$ 個觀察值的績效
- $\mu$:總平均數
- $\alpha_i$:因子 A 的主效果(如市場效果)
- $\beta_j$:因子 B 的主效果(如策略效果)
- $(\alpha\beta)_{ij}$:交互作用效果
- $\epsilon_{ijk}$:隨機誤差
4.3 RQ5:市場差異分析
因子設計:
| 因子 | 水準 | 說明 |
|---|---|---|
| 市場(A) | 美股、台股 | 2 水準 |
| 策略(B) | DROP, DCA, Lump Sum, RSI, Fixed 20% | 5 水準 |
假說設定:
1. 市場主效果:
2. 策略主效果:
3. 交互作用:
結果解讀:
| 交互作用 | 主效果解讀 | 實務意涵 |
|---|---|---|
| 不顯著 | 可直接解讀主效果 | 策略效果在兩市場一致 |
| 顯著 | 需進行簡單主效果分析 | 策略效果因市場而異 |
4.4 RQ6:產品類型差異分析
因子設計:
| 因子 | 水準 | 說明 |
|---|---|---|
| 產品類型(A) | ETF、個股 | 2 水準 |
| 策略(B) | DROP, DCA, Lump Sum, RSI, Fixed 20% | 5 水準 |
假說設定:
1. 產品類型主效果:
2. 策略主效果:
3. 交互作用:
4.5 簡單主效果分析
適用情境:
當雙因子 ANOVA 的交互作用顯著時,主效果的解讀變得複雜,需進行簡單主效果分析(Simple Main Effects Analysis)(Kirk, 2013)。
分析方法:
以 RQ5 為例,若市場 × 策略交互作用顯著:
1. 固定市場,比較策略:
- 在美股市場中,各策略的績效差異
- 在台股市場中,各策略的績效差異
2. 固定策略,比較市場:
- DROP 策略在美股 vs 台股的績效差異
- DCA 策略在美股 vs 台股的績效差異
- ...依此類推
簡單主效果的 F 檢定:
使用整體分析的 $MS_{Within}$ 作為誤差項,以維持檢定的效率。
五、多重比較校正
5.1 多重比較問題
本研究涉及大量的假說檢定:
- 參數搜尋:3,500 種參數組合的隱含比較
- 策略比較:5 種策略的成對比較(10 次)
- 分群分析:市場 × 策略、產品類型 × 策略
若不進行校正,整體型一錯誤率將遠超名義水準。
5.2 Benjamini-Hochberg 方法
原理:
Benjamini-Hochberg(BH)方法(Benjamini & Hochberg, 1995)控制錯誤發現率(False Discovery Rate, FDR),而非更嚴格的家族錯誤率(FWER)。FDR 定義為:
其中 $V$ 為偽陽性數量,$R$ 為總拒絕數量。
校正步驟:
- 將 $m$ 個 p 值由小到大排序:$p_{(1)} \leq p_{(2)} \leq ... \leq p_{(m)}$
- 找到最大的 $k$ 使得 $p_{(k)} \leq \frac{k}{m} \times q$
- 拒絕 $H_{(1)}, H_{(2)}, ..., H_{(k)}$
其中 $q$ 為目標 FDR 水準(本研究設定 $q = 0.10$)。
校正後 p 值計算:
並確保校正後 p 值單調遞增。
選擇 BH 方法的理由:
- 檢定力較高:相較於 Bonferroni,BH 方法較不保守
- 適合探索性研究:允許一定比例的偽陽性,適合參數搜尋階段
- 廣泛接受:在生物統計與財務研究中被廣泛採用
5.3 校正方法的選擇策略
| 分析階段 | 校正方法 | 理由 |
|---|---|---|
| 參數搜尋(RQ1) | BH(FDR) | 探索性,需較高檢定力 |
| 策略比較(RQ2) | Dunnett | 專為對照組比較設計 |
| 敏感度分析(RQ4) | Bonferroni | 確認性,需嚴格控制 |
| 分群分析(RQ5, RQ6) | BH(FDR) | 多重交互作用比較 |
六、Bootstrap 信賴區間
6.1 Bootstrap 方法概述
Bootstrap 是一種非參數重抽樣方法,透過從原始資料中有放回抽樣,估計統計量的抽樣分布(Efron & Tibshirani, 1993)。
優點:
- 不需假設母體分布
- 適用於複雜統計量(如夏普比率)
- 可處理小樣本情境
6.2 Bootstrap 程序
步驟 1:原始資料
設原始績效資料為 $\{X_1, X_2, ..., X_n\}$,計算統計量 $\hat{\theta}$(如平均夏普比率)。
步驟 2:重抽樣
重複 $B = 10,000$ 次:
- 從原始資料中有放回抽取 $n$ 個樣本
- 計算該 Bootstrap 樣本的統計量 $\hat{\theta}_b^*$
步驟 3:構建信賴區間
使用百分位數法(Percentile Method):
其中 $\hat{\theta}_{(0.025)}^*$ 與 $\hat{\theta}_{(0.975)}^*$ 分別為 Bootstrap 分布的 2.5% 與 97.5% 分位數。
6.3 本研究的應用
應用 1:績效差異的信賴區間
估計 DROP 與 DCA 平均報酬率差異的 95% 信賴區間:
若信賴區間不包含零,則績效差異具統計顯著性。
應用 2:夏普比率的信賴區間
由於夏普比率的抽樣分布複雜,使用 Bootstrap 估計其信賴區間較為穩健。
應用 3:參數穩定性的信賴區間
估計最佳參數 P* 的 Bootstrap 信賴區間,評估其估計的不確定性。
6.4 Bootstrap 的技術細節
重抽樣單位:
本研究以「股票—年度」為重抽樣單位,保持股票層級的資料結構。
Bootstrap 次數:
$B = 10,000$ 次足以提供穩定的信賴區間估計。Efron & Tibshirani(1993)建議 $B \geq 1,000$ 即可獲得合理的百分位數估計。
偏誤校正:
若 Bootstrap 分布明顯偏態,可採用 BCa(Bias-Corrected and Accelerated)方法進行校正。
七、參數穩定性分析
7.1 變異係數分析
適用情境:
RQ3 關注最佳參數的時間穩定性,使用變異係數(CV)量化穩定程度。
計算方法:
對於 10 個測試年度的最佳百分位數序列 $\{P_1^*, P_2^*, ..., P_{10}^*\}$:
其中:
- $\bar{P} = \frac{1}{10}\sum_{y=1}^{10} P_y^*$
- $s_P = \sqrt{\frac{1}{9}\sum_{y=1}^{10}(P_y^* - \bar{P})^2}$
判定標準:
| CV 範圍 | 穩定性評價 | 實務建議 |
|---|---|---|
| CV < 0.2 | 高度穩定 | 可使用固定參數 |
| 0.2 ≤ CV < 0.3 | 中度穩定 | 建議使用參數區間 |
| CV ≥ 0.3 | 不穩定 | 需每年重新最佳化 |
7.2 Levene 檢定
適用情境:
檢驗不同策略的績效變異數是否相等,用於評估策略穩定性的差異。
假說設定:
檢定統計量:
Levene 檢定使用各觀察值與組平均數(或中位數)的絕對離差:
其中 $\tilde{Y}_i$ 為第 $i$ 組的中位數(使用中位數較穩健)。
然後對 $Z_{ij}$ 進行單因子 ANOVA。
本研究的應用:
若 Levene 檢定顯著,表示策略間的績效穩定性存在差異,需在結論中特別說明。
八、敏感度分析方法
8.1 交易成本敏感度
分析設計:
測試四種交易成本情境對策略績效與最佳參數的影響:
| 情境 | 單邊交易成本 | 說明 |
|---|---|---|
| 無成本 | 0% | 理想情境(基準) |
| 低成本 | 0.1% | ETF 或大型股 |
| 中成本 | 0.3% | 一般個股 |
| 高成本 | 0.5% | 小型股或流動性差 |
分析方法:
- 在各成本情境下重新計算策略績效
- 比較最佳參數 P* 是否因成本而改變
- 使用配對 t 檢定比較不同成本情境的績效差異
8.2 子樣本穩健性
時間子樣本:
- 前半期(2015-2019)vs 後半期(2020-2024)
- 檢驗結論是否在不同時期一致
市場狀態子樣本:
- 牛市期間 vs 熊市期間
- 定義:年度市場報酬 > 0 為牛市,< 0 為熊市
分析方法:
在各子樣本中重複主要分析,檢驗結論的穩健性。
九、統計軟體與實作
9.1 使用的統計工具
| 分析項目 | 軟體/套件 | 說明 |
|---|---|---|
| ANOVA | Python scipy.stats | f_oneway, kruskal |
| 事後比較 | Python scikit-posthocs | posthoc_dunnett, posthoc_tukey |
| Bootstrap | Python scipy.stats | bootstrap |
| 多重比較校正 | Python statsmodels | multipletests |
| 資料處理 | Python pandas | DataFrame 操作 |
| 視覺化 | Python matplotlib, seaborn | 圖表繪製 |
9.2 統計顯著性報告格式
本研究採用美國心理學會(APA)格式(American Psychological Association, 2020)報告統計結果:
ANOVA 結果:
$F(4, 345) = 12.34$, $p < .001$, $\eta^2 = 0.125$
t 檢定結果:
$t(348) = 3.56$, $p = .004$, $d = 0.42$
事後比較:
DROP vs DCA: $\Delta M = 2.3\%$, $95\% CI [0.8\%, 3.8\%]$, $p = .012$
十、統計方法總結表
| 研究問題 | 統計方法 | 虛無假說 | 判定標準 |
|---|---|---|---|
| RQ1 最佳門檻 | 二次迴歸 F 檢定 | 績效曲線為水平線 | $p < .05$ |
| RQ2 策略優越性 | ANOVA + Dunnett | 各策略績效相等 | $p < .05$ |
| RQ3 參數穩定性 | CV 分析 | - | $CV < 0.3$ |
| RQ4 成本影響 | 配對 t 檢定 | 成本前後績效相等 | $p < .05$ |
| RQ5 市場差異 | 雙因子 ANOVA | 無交互作用 | $p < .05$ |
| RQ6 類型差異 | 雙因子 ANOVA | 無交互作用 | $p < .05$ |
十一、小結
本節說明了本研究採用的統計分析方法,主要內容包括:
- 假說檢定架構:將六個研究問題對應至具體的統計方法,統一採用 α = 0.05 顯著水準。
- 單因子 ANOVA:用於 RQ2 的五種策略績效比較,包含前提假設檢驗。
- 事後多重比較:Dunnett 檢定(與 DCA 控制組比較)、Tukey HSD(所有成對比較)、Bonferroni 校正。
- 雙因子 ANOVA:用於 RQ5(市場差異)與 RQ6(產品類型差異)的交互作用分析,必要時進行簡單主效果分析。
- 多重比較校正:Benjamini-Hochberg 方法控制 FDR,在探索性與確認性分析中適當選擇校正方法。
- Bootstrap 信賴區間:10,000 次重抽樣估計績效差異與夏普比率的 95% 信賴區間。
- 穩定性分析:變異係數評估參數穩定性,Levene 檢定比較策略間的變異數差異。
這些統計方法的組合使用,確保本研究的結論具有統計嚴謹性與實務可靠性。第四章將呈現應用這些方法所得到的實證結果。