forked from shunliz/Machine-Learning
-
Notifications
You must be signed in to change notification settings - Fork 0
/
mle.md
64 lines (38 loc) · 4.08 KB
/
mle.md
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
给定随机变量的分布和未知参数,利用观测到的样本计算似然函数。
选择最大似然函数的参数作为参数的估计量。
最大似然估计的基本原理:极大化似然函数
假设样本$$\{X_1,X_2,...X_n\}$$服从概率密度函数$$f_\theta(x)$$,其中$$\theta=(\theta_1,\theta_2,....\theta_k)$$是未知参数。
当固定x的时候,$$f_\theta(x)$$就是$$\theta$$的函数,我们把这个函数称为似然函数,记做$$L_x(\theta)$$
似然函数不是概率,是概率密度函数在x固定时候,$$\theta$$的可能性的函数。
假设$$x = (x_1,.....x_n)$$是样本的观测值,那么整体样本的似然函数就是:
$$L_x(\theta)=\coprod_{i=1}^{n} L_{x_i}(\theta)$$
这是 一个关于$$\theta$$的函数,选取使得$$L_x(\theta)$$的最大化的$$\theta^{'}$$作为$$\theta$$的估计量。
最大化 似然函数,相当于最大化似然函数的对数$$lx(\theta)=ln(Lx(\theta))$$,一般我们求解似然函数或者对数似然函数的驻点的方程
$$\frac{\mathrm{d} l_x(\theta))}{\mathrm{d} \theta}=0$$或者$$\frac{\mathrm{d} L_x(\theta))}{\mathrm{d} \theta}=0$$ 由于$$L_x(\theta)$$中包含连乘,转化对数好求解。
然后判断整个驻点是否是最大点(求解驻点可以采用牛顿法或者梯度下降法)。
---
如何利用极大似然估计法来求极大似然估计量呢?
首先我们来看一个例子:有一个抽奖箱,里面有若干红球和白球,除颜色外,其他一模一样。我们每次从中拿出一个后记录下来再放回去,重复十次操作后发现,有七次抽到了红球,三次是白球,请估计红球所占的比例。
从题目可以分析出本次例子满足二项分布,现在可以设事件 A 为"抽到红球",那可以得到一个式子:
$$P(A)=P(A)^{7} *(1-P(A))^{3}$$ $$(1)$$
现在的目的就是为了求这个 P\(A\),那要怎么求才又快又准呢?如果用求导解驻点来寻找极值,7 次方好像也不是很大,那要是我们重复进行了一百、一千次操作呢?所以,优化算法势在必行,下面的骚操作就是先辈们经过不懈地探求总结出来的——先取对数再求导!
对\(1\)式取对数,得:
$$\ln P(A)=7 \ln P(A)+3 \ln (1-P(A))$$
对上式求导,整理得:
$$\frac{dln(P(A))}{d P(A)}=\frac{7}{P(A)}-\frac{3}{(1-P(A))}$$
令该导数为零,可得式子:
$$\frac{7}{P(A)}=\frac{3}{(1-P(A))}$$
解得$$P(A)=0.7$$
从这个例子中我们可以得到和《概率论与数理统计》一书中相匹配的抽象结果:设总体 X 为离散型随机变量,且它的概率分布为$$P\{X=x\}=p\left\{x_{i} ; \theta\right\}$$, 其中 θ 为未知参数$$X_{1}, X_{2}, \cdots, X_{n}$$和$$x_{1}, x_{2}, \cdot \cdot \cdot, x_{n}$$分别为 X 的一组样本和样本观察值。则参数 θ 的取值应该使得概率:
$$\begin{aligned} P\left\{X_{1}=x_{1}, X_{2}=x_{2},\right.& \cdots, X_{n}=x_{n} \}=P\left\{X_{1}=x_{1}\right\} * P\left\{X_{2}=x_{2}\right\} * \cdots \\ * & P\left\{X_{n}=x_{n}\right\}=\prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\} \end{aligned}$$
达到最大值,今后我们称 θ 的函数:
$$L(\theta)=\prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\}$$
为 θ 的似然函数,上式是其样本取对应观察值的概率。同时,如果有
$$\exists \hat{\theta}=\hat{\theta}\left(X_{1}, X_{2}, \cdots, X_{n}\right)$$
使得:
$$L(\hat{\theta})=\max _{\theta \in \Theta} L(\theta)=\max _{\theta \in \Theta} \prod_{i=1}^{n} p\left\{x_{i} ; \theta\right\}$$
则称 $$\hat{\theta}$$为 θ 的极大似然估计量。从上述一般结果的抽象描述中,我们可以剥离出求解 $$\hat{\theta}$$的一般步骤:
1. 写出似然函数 $$L(\theta)=L\left(x_{1}, x_{2}, \cdots, x_{n} ; \theta\right)$$ ;
2. 对似然函数取对数(视情况而定);
3. 求对数似然函数对未知参数的导函数 $$\frac{dln L(\theta)}{d \theta}_{ ; x=y}$$
4. 令导函数为 0,方程的解即为极大似然解;