3.6 統計分析方法

本節說明本研究採用的統計分析方法，包括假說檢定架構、變異數分析、事後比較、多重比較校正與信賴區間估計。這些方法將用於回應第一章提出的六個研究問題（RQ1-RQ6），確保研究結論具有統計嚴謹性。

一、假說檢定架構

1.1 研究問題與統計方法對應

本研究的六個研究問題各有其對應的統計分析方法：

研究問題	研究內容	主要統計方法	顯著水準
RQ1	最佳門檻存在性	二次迴歸 F 檢定、峰值檢定	α = 0.05
RQ2	動態門檻優越性	單因子 ANOVA + Dunnett 檢定	α = 0.05
RQ3	參數穩定性	變異係數分析、Levene 檢定	CV < 0.3
RQ4	交易成本影響	敏感度分析、配對 t 檢定	α = 0.05
RQ5	市場差異	雙因子 ANOVA（市場 × 策略）	α = 0.05
RQ6	產品類型差異	雙因子 ANOVA（類型 × 策略）	α = 0.05

1.2 顯著水準與檢定力

顯著水準設定：

本研究統一採用 $\alpha = 0.05$ 作為顯著水準，此為社會科學與財務研究的慣例標準。在多重比較情境下，將進行適當的校正以控制整體型一錯誤率。

檢定力分析：

事前檢定力分析（A Priori Power Analysis）用於確認樣本量是否足夠（Cohen, 1988）：

效果量（Effect Size）：Cohen's $f = 0.25$（中等效果）
顯著水準：$\alpha = 0.05$
目標檢定力：$1 - \beta = 0.80$
組數：5（五種策略比較）

根據 G*Power 軟體（Faul, Erdfelder, Lang, & Buchner, 2007）計算，所需樣本量約為每組 39 個觀察值。本研究每種策略有 116 檔股票 × 10 年 = 1,160 個年度觀察值，遠超最低需求，具有充足的統計檢定力。

二、單因子變異數分析

2.1 適用情境

單因子變異數分析（One-Way ANOVA）由 Fisher（1925）提出，用於檢定三個或以上獨立群組的平均數是否存在顯著差異。本研究用於 RQ2：比較 DROP 策略與四種基準策略的績效差異。

2.2 統計模型

單因子 ANOVA 的線性模型為：

$Y_{ij} = \mu + \alpha_i + \epsilon_{ij}$

其中：

$Y_{ij}$：第 $i$ 個策略、第 $j$ 個觀察值的績效指標
$\mu$：總平均數
$\alpha_i$：第 $i$ 個策略的效果（$\sum \alpha_i = 0$）
$\epsilon_{ij}$：隨機誤差，假設 $\epsilon_{ij} \sim N(0, \sigma^2)$

2.3 假說設定

$H_0: \mu_1 = \mu_2 = \mu_3 = \mu_4 = \mu_5$

$H_1: \text{至少有兩個策略的平均績效不相等}$

其中策略編號：

DROP（動態跌幅門檻）
DCA（定期定額）
Lump Sum（年初一次性投入）
RSI（相對強弱指標）
Fixed 20%（固定跌幅 20%）

2.4 F 統計量與計算

變異數分解：

$SS_{Total} = SS_{Between} + SS_{Within}$

其中：

$SS_{Between} = \sum_{i=1}^{k} n_i (\bar{Y}_i - \bar{Y})^2$：組間變異
$SS_{Within} = \sum_{i=1}^{k} \sum_{j=1}^{n_i} (Y_{ij} - \bar{Y}_i)^2$：組內變異

F 統計量：

$F = \frac{MS_{Between}}{MS_{Within}} = \frac{SS_{Between} / (k-1)}{SS_{Within} / (N-k)}$

其中：

$k$：策略數（= 5）
$N$：總觀察值數
$MS$：均方（Mean Square）

決策規則：

若 $F > F_{\alpha, k-1, N-k}$，則拒絕 $H_0$，結論為策略間存在顯著績效差異。

2.5 ANOVA 前提假設檢驗

假設 1：常態性（Normality）

使用 Shapiro-Wilk 檢定（Shapiro & Wilk, 1965）檢驗各組資料的常態性：

$H_0: \text{資料服從常態分布}$

若樣本量大（n > 30），根據中央極限定理，ANOVA 對常態性偏離具有穩健性。

假設 2：變異數同質性（Homogeneity of Variance）

使用 Levene 檢定（Levene, 1960）檢驗各組變異數是否相等：

$H_0: \sigma_1^2 = \sigma_2^2 = ... = \sigma_k^2$

若變異數不同質，可採用 Welch's ANOVA（Welch, 1951）作為替代方法。

假設 3：獨立性（Independence）

透過研究設計確保：各股票、各年度的觀察值相互獨立。

三、事後多重比較

3.1 事後比較的必要性

ANOVA 的 F 檢定僅能判斷「是否存在差異」，無法指出「哪些策略之間存在差異」。事後多重比較（Post-Hoc Multiple Comparisons）用於進一步識別具體的差異配對。

3.2 Dunnett 檢定

適用情境：

Dunnett 檢定（Dunnett, 1955）專門用於將多個處理組與單一控制組進行比較，適合本研究「DROP vs 各基準策略」的比較需求。

假說設定：

以 DCA 為控制組，進行以下比較：

$H_0^{(1)}: \mu_{DROP} = \mu_{DCA}$

$H_0^{(2)}: \mu_{LumpSum} = \mu_{DCA}$

$H_0^{(3)}: \mu_{RSI} = \mu_{DCA}$

$H_0^{(4)}: \mu_{Fixed20} = \mu_{DCA}$

檢定統計量：

$t_i = \frac{\bar{Y}_i - \bar{Y}_{control}}{\sqrt{MS_W \left(\frac{1}{n_i} + \frac{1}{n_{control}}\right)}}$

其中 $MS_W$ 為組內均方。

臨界值：

Dunnett 檢定使用特殊的臨界值表，考慮了多重比較的校正，控制整體型一錯誤率（Family-Wise Error Rate, FWER）。

選擇 Dunnett 檢定的理由：

檢定力較高：相較於 Bonferroni 等一般性校正方法，Dunnett 檢定專為「與控制組比較」設計，檢定力更高
概念清晰：本研究的核心問題是「DROP 是否優於 DCA」，Dunnett 檢定直接回應此問題
控制 FWER：有效控制整體型一錯誤率在 α 水準

3.3 Tukey HSD 檢定

適用情境：

Tukey's Honestly Significant Difference（HSD）檢定（Tukey, 1949）用於所有成對比較，適合探索性分析（如比較所有策略兩兩之間的差異）。

檢定統計量：

$q = \frac{\bar{Y}_i - \bar{Y}_j}{\sqrt{MS_W / n}}$

臨界值：

使用 Studentized Range Distribution 的臨界值 $q_{\alpha, k, df}$。

本研究的應用：

Tukey HSD 作為補充分析，呈現所有策略配對的比較結果，提供完整的策略排名資訊。

3.4 Bonferroni 校正

原理：

Bonferroni 校正（Dunn, 1961）是最保守的多重比較校正方法，將顯著水準除以比較次數：

$\alpha_{adjusted} = \frac{\alpha}{m}$

其中 $m$ 為比較次數。

範例：

5 種策略的成對比較共 $C_5^2 = 10$ 次，校正後的顯著水準為：

$\alpha_{adjusted} = \frac{0.05}{10} = 0.005$

本研究的應用：

Bonferroni 校正用於敏感度分析，驗證結論在最嚴格校正下是否仍然成立。

四、雙因子變異數分析

4.1 適用情境

雙因子變異數分析（Two-Way ANOVA）用於同時檢驗兩個因子及其交互作用的效果。本研究用於：

RQ5：市場（美股/台股）× 策略的交互作用
RQ6：產品類型（ETF/個股）× 策略的交互作用

4.2 統計模型

雙因子 ANOVA 的線性模型為：

$Y_{ijk} = \mu + \alpha_i + \beta_j + (\alpha\beta)_{ij} + \epsilon_{ijk}$

其中：

$Y_{ijk}$：因子 A 第 $i$ 水準、因子 B 第 $j$ 水準、第 $k$ 個觀察值的績效
$\mu$：總平均數
$\alpha_i$：因子 A 的主效果（如市場效果）
$\beta_j$：因子 B 的主效果（如策略效果）
$(\alpha\beta)_{ij}$：交互作用效果
$\epsilon_{ijk}$：隨機誤差

4.3 RQ5：市場差異分析

因子設計：

因子	水準	說明
市場（A）	美股、台股	2 水準
策略（B）	DROP, DCA, Lump Sum, RSI, Fixed 20%	5 水準

假說設定：

1. 市場主效果：

$H_0^{(A)}: \alpha_{US} = \alpha_{TW} = 0$

2. 策略主效果：

$H_0^{(B)}: \beta_1 = \beta_2 = ... = \beta_5 = 0$

3. 交互作用：

$H_0^{(AB)}: (\alpha\beta)_{ij} = 0, \forall i, j$

結果解讀：

交互作用	主效果解讀	實務意涵
不顯著	可直接解讀主效果	策略效果在兩市場一致
顯著	需進行簡單主效果分析	策略效果因市場而異

4.4 RQ6：產品類型差異分析

因子設計：

因子	水準	說明
產品類型（A）	ETF、個股	2 水準
策略（B）	DROP, DCA, Lump Sum, RSI, Fixed 20%	5 水準

假說設定：

1. 產品類型主效果：

$H_0^{(A)}: \alpha_{ETF} = \alpha_{Stock} = 0$

2. 策略主效果：

$H_0^{(B)}: \beta_1 = \beta_2 = ... = \beta_5 = 0$

3. 交互作用：

$H_0^{(AB)}: (\alpha\beta)_{ij} = 0, \forall i, j$

4.5 簡單主效果分析

適用情境：

當雙因子 ANOVA 的交互作用顯著時，主效果的解讀變得複雜，需進行簡單主效果分析（Simple Main Effects Analysis）（Kirk, 2013）。

分析方法：

以 RQ5 為例，若市場 × 策略交互作用顯著：

1. 固定市場，比較策略：

在美股市場中，各策略的績效差異
在台股市場中，各策略的績效差異

2. 固定策略，比較市場：

DROP 策略在美股 vs 台股的績效差異
DCA 策略在美股 vs 台股的績效差異
...依此類推

簡單主效果的 F 檢定：

$F_{A|B=j} = \frac{MS_{A|B=j}}{MS_{Within}}$

使用整體分析的 $MS_{Within}$ 作為誤差項，以維持檢定的效率。

五、多重比較校正

5.1 多重比較問題

本研究涉及大量的假說檢定：

參數搜尋：3,500 種參數組合的隱含比較
策略比較：5 種策略的成對比較（10 次）
分群分析：市場 × 策略、產品類型 × 策略

若不進行校正，整體型一錯誤率將遠超名義水準。

5.2 Benjamini-Hochberg 方法

原理：

Benjamini-Hochberg（BH）方法（Benjamini & Hochberg, 1995）控制錯誤發現率（False Discovery Rate, FDR），而非更嚴格的家族錯誤率（FWER）。FDR 定義為：

$FDR = E\left[\frac{V}{R}\right]$

其中 $V$ 為偽陽性數量，$R$ 為總拒絕數量。

校正步驟：

將 $m$ 個 p 值由小到大排序：$p_{(1)} \leq p_{(2)} \leq ... \leq p_{(m)}$
找到最大的 $k$ 使得 $p_{(k)} \leq \frac{k}{m} \times q$
拒絕 $H_{(1)}, H_{(2)}, ..., H_{(k)}$

其中 $q$ 為目標 FDR 水準（本研究設定 $q = 0.10$）。

校正後 p 值計算：

$p_{(i)}^{adj} = \min\left(p_{(i)} \times \frac{m}{i}, 1\right)$

並確保校正後 p 值單調遞增。

選擇 BH 方法的理由：

檢定力較高：相較於 Bonferroni，BH 方法較不保守
適合探索性研究：允許一定比例的偽陽性，適合參數搜尋階段
廣泛接受：在生物統計與財務研究中被廣泛採用

5.3 校正方法的選擇策略

分析階段	校正方法	理由
參數搜尋（RQ1）	BH（FDR）	探索性，需較高檢定力
策略比較（RQ2）	Dunnett	專為對照組比較設計
敏感度分析（RQ4）	Bonferroni	確認性，需嚴格控制
分群分析（RQ5, RQ6）	BH（FDR）	多重交互作用比較

六、Bootstrap 信賴區間

6.1 Bootstrap 方法概述

Bootstrap 是一種非參數重抽樣方法，透過從原始資料中有放回抽樣，估計統計量的抽樣分布（Efron & Tibshirani, 1993）。

優點：

不需假設母體分布
適用於複雜統計量（如夏普比率）
可處理小樣本情境

6.2 Bootstrap 程序

步驟 1：原始資料

設原始績效資料為 $\{X_1, X_2, ..., X_n\}$，計算統計量 $\hat{\theta}$（如平均夏普比率）。

步驟 2：重抽樣

重複 $B = 10,000$ 次：

從原始資料中有放回抽取 $n$ 個樣本
計算該 Bootstrap 樣本的統計量 $\hat{\theta}_b^*$

步驟 3：構建信賴區間

使用百分位數法（Percentile Method）：

$CI_{95\%} = [\hat{\theta}_{(0.025)}^*, \hat{\theta}_{(0.975)}^*]$

其中 $\hat{\theta}_{(0.025)}^*$ 與 $\hat{\theta}_{(0.975)}^*$ 分別為 Bootstrap 分布的 2.5% 與 97.5% 分位數。

6.3 本研究的應用

應用 1：績效差異的信賴區間

估計 DROP 與 DCA 平均報酬率差異的 95% 信賴區間：

$CI_{95\%}(\mu_{DROP} - \mu_{DCA})$

若信賴區間不包含零，則績效差異具統計顯著性。

應用 2：夏普比率的信賴區間

由於夏普比率的抽樣分布複雜，使用 Bootstrap 估計其信賴區間較為穩健。

應用 3：參數穩定性的信賴區間

估計最佳參數 P* 的 Bootstrap 信賴區間，評估其估計的不確定性。

6.4 Bootstrap 的技術細節

重抽樣單位：

本研究以「股票—年度」為重抽樣單位，保持股票層級的資料結構。

Bootstrap 次數：

$B = 10,000$ 次足以提供穩定的信賴區間估計。Efron & Tibshirani（1993）建議 $B \geq 1,000$ 即可獲得合理的百分位數估計。

偏誤校正：

若 Bootstrap 分布明顯偏態，可採用 BCa（Bias-Corrected and Accelerated）方法進行校正。

七、參數穩定性分析

7.1 變異係數分析

適用情境：

RQ3 關注最佳參數的時間穩定性，使用變異係數（CV）量化穩定程度。

計算方法：

對於 10 個測試年度的最佳百分位數序列 $\{P_1^*, P_2^*, ..., P_{10}^*\}$：

$CV_P = \frac{s_P}{\bar{P}}$

其中：

$\bar{P} = \frac{1}{10}\sum_{y=1}^{10} P_y^*$
$s_P = \sqrt{\frac{1}{9}\sum_{y=1}^{10}(P_y^* - \bar{P})^2}$

判定標準：

CV 範圍	穩定性評價	實務建議
CV < 0.2	高度穩定	可使用固定參數
0.2 ≤ CV < 0.3	中度穩定	建議使用參數區間
CV ≥ 0.3	不穩定	需每年重新最佳化

7.2 Levene 檢定

適用情境：

檢驗不同策略的績效變異數是否相等，用於評估策略穩定性的差異。

假說設定：

$H_0: \sigma_1^2 = \sigma_2^2 = ... = \sigma_k^2$

$H_1: \text{至少有兩個策略的變異數不相等}$

檢定統計量：

Levene 檢定使用各觀察值與組平均數（或中位數）的絕對離差：

$Z_{ij} = |Y_{ij} - \tilde{Y}_i|$

其中 $\tilde{Y}_i$ 為第 $i$ 組的中位數（使用中位數較穩健）。

然後對 $Z_{ij}$ 進行單因子 ANOVA。

本研究的應用：

若 Levene 檢定顯著，表示策略間的績效穩定性存在差異，需在結論中特別說明。

八、敏感度分析方法

8.1 交易成本敏感度

分析設計：

測試四種交易成本情境對策略績效與最佳參數的影響：

情境	單邊交易成本	說明
無成本	0%	理想情境（基準）
低成本	0.1%	ETF 或大型股
中成本	0.3%	一般個股
高成本	0.5%	小型股或流動性差

分析方法：

在各成本情境下重新計算策略績效
比較最佳參數 P* 是否因成本而改變
使用配對 t 檢定比較不同成本情境的績效差異

8.2 子樣本穩健性

時間子樣本：

前半期（2015-2019）vs 後半期（2020-2024）
檢驗結論是否在不同時期一致

市場狀態子樣本：

牛市期間 vs 熊市期間
定義：年度市場報酬 > 0 為牛市，< 0 為熊市

分析方法：

在各子樣本中重複主要分析，檢驗結論的穩健性。

九、統計軟體與實作

9.1 使用的統計工具

分析項目	軟體/套件	說明
ANOVA	Python scipy.stats	f_oneway, kruskal
事後比較	Python scikit-posthocs	posthoc_dunnett, posthoc_tukey
Bootstrap	Python scipy.stats	bootstrap
多重比較校正	Python statsmodels	multipletests
資料處理	Python pandas	DataFrame 操作
視覺化	Python matplotlib, seaborn	圖表繪製

9.2 統計顯著性報告格式

本研究採用美國心理學會（APA）格式（American Psychological Association, 2020）報告統計結果：

ANOVA 結果：

$F(4, 345) = 12.34$, $p < .001$, $\eta^2 = 0.125$

t 檢定結果：

$t(348) = 3.56$, $p = .004$, $d = 0.42$

事後比較：

DROP vs DCA: $\Delta M = 2.3\%$, $95\% CI [0.8\%, 3.8\%]$, $p = .012$

十、統計方法總結表

研究問題	統計方法	虛無假說	判定標準
RQ1 最佳門檻	二次迴歸 F 檢定	績效曲線為水平線	$p < .05$
RQ2 策略優越性	ANOVA + Dunnett	各策略績效相等	$p < .05$
RQ3 參數穩定性	CV 分析	-	$CV < 0.3$
RQ4 成本影響	配對 t 檢定	成本前後績效相等	$p < .05$
RQ5 市場差異	雙因子 ANOVA	無交互作用	$p < .05$
RQ6 類型差異	雙因子 ANOVA	無交互作用	$p < .05$

十一、小結

本節說明了本研究採用的統計分析方法，主要內容包括：

假說檢定架構：將六個研究問題對應至具體的統計方法，統一採用 α = 0.05 顯著水準。
單因子 ANOVA：用於 RQ2 的五種策略績效比較，包含前提假設檢驗。
事後多重比較：Dunnett 檢定（與 DCA 控制組比較）、Tukey HSD（所有成對比較）、Bonferroni 校正。
雙因子 ANOVA：用於 RQ5（市場差異）與 RQ6（產品類型差異）的交互作用分析，必要時進行簡單主效果分析。
多重比較校正：Benjamini-Hochberg 方法控制 FDR，在探索性與確認性分析中適當選擇校正方法。
Bootstrap 信賴區間：10,000 次重抽樣估計績效差異與夏普比率的 95% 信賴區間。
穩定性分析：變異係數評估參數穩定性，Levene 檢定比較策略間的變異數差異。

這些統計方法的組合使用，確保本研究的結論具有統計嚴謹性與實務可靠性。第四章將呈現應用這些方法所得到的實證結果。

3.5 績效評估指標參考文獻