假设我们做了10次实验,出现7次正面向上.
对于最大似然估计只需要要将n=10, k=7代入二项分布的概率质量函数,然后取对数,求一阶导数并设为0可以求得$\theta = 0.7$
而对于采用共轭先验的贝叶斯估计,我们则需要给出二项分布的参数的先验分布.对于上述抛硬币的实验,(个人认为)先验分布应当具有下列特性
对于共轭先验的wiki上的定义: 在贝叶斯统计中,如果后验分布与先验分布属于同类,则先验分布与后验分布被称为共轭分布. 高斯分布家族在高斯似然函数下与其自身共轭
那么对于二项分布似然函数的共轭分布是什么分布呢? Beta 分布
Beta分布的定义如下
上面的公式用到了Gamma函数和Beta函数
Gamma的介绍可以参考网上的文章, http://cos.name/2013/01/lda-math-gamma-function/, 快速的理解可以直接认为是阶乘在实数和复数域的推广. Gamma函数具有下列性质
同时
用$\alpha = k, \beta = n-k$代入Beta分布的公式,由于$\alpha,\beta$都被限制在整数,用阶乘的方式来表示Gamma函数
可以看出Beta分布与二项分布的差异,当取$\alpha = k, \beta = n-k $时beta分布为二项分布乘以系数项$\frac{k(n-k)}{n} \frac{1}{\theta (1-\theta)} $ 当$\alpha, \beta$取值较大时,$\frac{k}{n} \approx \theta, \frac{n-k}{n} \approx (1-\theta)$,beta分布就逼近真实概率下的二项分布. 当$\alpha,\beta$取值较小时,如(1,1),Beta分布为均匀分布
下图为beta分布的pdf
在进行n次试验,并发生k次正面向上的抛硬币的后,关于正面向上的后验概率为
D 为实验后数据即n次试验k次正面向上
似然函数为二项分布 $p(D \vert \theta) = \dbinom{n}{k} \theta^k (1-\theta)^{(n-k)} $ 先验概率为beta分布 $p(\theta) = \frac{1}{B(\alpha,\beta)} \theta^{\alpha-1} (1-\theta)^{\beta-1} $
上式中分子部分为
归一化因子为
回顾前面关于Beta函数的定义
最后的后验概率为
后验概率仍是一个Beta分布$Beta(\theta \vert \alpha+k,\beta+n-k)$, 可以作为下一次实验估计用的先验概率
当实验结果可能有k种取值时,二项分布要扩展成多项分布. 例如掷骰子游戏
对于n次实验,试验结果可能有k种取值,$\theta_i$为第i种取值发生的概率, 记$x_i$为第i种取值发生的次数, 多项分布的概率质量函数为
可以看出多项分布就是二项分布的扩展.
Dirichlet分布就是多项分布对应共轭分布. 在贝叶斯参数估计中,用作多项分布的先验概率
Beta分布的超参有两个$\alpha,\beta$, 而Dirichlet分布的超参则有k个,对应多项分布的k种取值,记为$\alpha = (\alpha_1, … \alpha_k)$
可以看出Dirichlet分布就是Beta分布的扩展.
对于n次实验,试验结果可能有k种取值,记$x_i$为第i种取值发生的次数, 采用超参为$\alpha=(\alpha_1,…,\alpha_k)$的Dirichlet分布为参数$\theta = (\theta_1, … \theta_k)$先验概率分布, 其后验概率如下
其中$\alpha^\prime = (\alpha_1^\prime,…, \alpha_k^\prime) = (\alpha_1+x_1, …, \alpha_k+x_k) $
推导过程类似于二项分布时,用Beta分布做先验分布求后验概率. 此处略去.