极大似然估计(Maximum Likelihood Estimation)

点击量:506

在统计学中,最大似然估计,也称为最大概似估计,是用来估计一个概率模型的参数的一种方法。也就是说,在模型已知的情况下,我们通过采样样本数据,反推出最有可能导致该数据服从该模型分布的参数值,简单来说就是:模型已定,参数未知,通过采样求解模型参数。

问题描述

给定一组数据\(X=X_1,X_2,…,X_n\) ,他们的概率分布为\(D\)(参数为\(\theta\)),以及其概率密度函数\(f_D\),求解模型\(D\)的参数\(\theta\)。

求解

  • 采样
    我们从\(X\)中采样出一组数据\(x=x_1,x_2,…,x_n\),如果\(n\)足够大的话,这组数据肯定是服从分布\(D\)的。我们假设这组数据的采样是互相独立的,那么他们同时被采集到的概率(联合概率密度:joint density function)就是:

    $$
    f(x_1,x_2,…,x_n|\theta) = f(x_1|\theta) \times f(x_2|\theta) \times … \times f(x_n|\theta)
    $$

  • 定义似然函数\(L\)
    对于不同的分布参数\(\theta\)和固定的样本数据\(x\),我们希望概率\(f(x_1,x_2,…,x_n|\theta)\)最大!为什么?因为这组数据已经被采集出来了,事件已经发生,那么我们自然希望发生的概率最大。比如,假设我们有两个参数\(\theta_1\)和\(\theta_2\),他们所对应概率分别是:\(f(x_1,x_2,…,x_n|\theta_1) = 0.7\)和\(f(x_1,x_2,…,x_n|\theta_2) = 0.1\)。这时该怎么选择参数\(\theta\)呢?很明显是\(\theta_1\)。于是,我们定义似然函数:$$
    L(\theta;x_1,…,x_n) = f(x_1,x_2,…,x_n|\theta) = \prod_{i=1}^{n}f(x_i|\theta)
    $$在实际应用中,为了方便求导(\(\frac{\mathrm{d} \ln{x}}{\mathrm{d} x} = \frac{1}{x}\))我们会同时对两边取对数,这种被称为对数似然(log-likelihood):$$
    \ln{L(\theta;x_1,…,x_n)} =\sum_{i=1}^{n}\ln{f(x_i|\theta)}$$还有一种被称为平均对数似然(average log-likelihood):$$
    \hat{l} = \frac{1}{n} \ln{L}$$

  • 求解\(L\)的极值
    我们知道\(x_1,x_2,…,x_n\)是已知的,而\(\theta\)是未知的,也就是说函数\(L\)是关于\(\theta\)的方程,那么求解就简单了:对\(L\)求导,使其导数为0即可。

发表评论

电子邮件地址不会被公开。 必填项已用*标注