统计学习方法笔记之逻辑斯谛模型与最大熵模型
in 机器学习 with 2 comments

统计学习方法笔记之逻辑斯谛模型与最大熵模型

in 机器学习 with 2 comments

逻辑斯谛回归(Logistic Regression)模型是经典的分类方法,而最大熵则是概率模型中学习的一个准则,将其推广到分类问题得到最大熵模型(maximum entropy model)。两者都属于对数线性模型。

逻辑斯谛模型

逻辑斯谛分布

设$X$是连续随机变量,$X$服从逻辑斯谛分布是指$X$具有以下分布函数和密度函数:

$$ F(x) = P(X< x) = \frac{1}{1+e^{\frac{-(x-\mu)}{\gamma}}} $$

$$ f(x) = F'(x) = \frac{e^{\frac{-(x-\mu)}{\gamma}}}{\gamma(1+e^{\frac{-(x-\mu)}{\gamma}})^2} $$

其中,$\mu$是位置参数,$\gamma >0$为形状参数。

逻辑斯谛分布的密度函数$f(x)$和分布函数$F(x)$如下所示。分布函数属于逻辑斯谛函数,其图像是一条$S$形曲线,该曲线以$(\mu, \frac{1}{2})$为中心对称,即满足:

$$ F(-x+\mu)- \frac{1}{2} = -F(x+\mu)+\frac{1}{2} $$

曲线在中心附近增长速度较快,在两端增长速度较慢。形状参数$\gamma$的值越小,曲线在中心附近增长越快。

逻辑斯谛分布

二项逻辑斯谛回归

二项逻辑斯谛回归模型是一种分类模型,由条件概率分布$P(Y|X)$表示,形式为参数化的逻辑斯谛分布,$X$的取值范围为实数,$Y$的取值为1或0,那么如下的条件概率分布:

$$ P(Y=1|x) = \frac{\exp(w \cdot x+b)}{1+\exp(w \cdot x+b)} \\ P(Y=0|x) = \frac{1}{1+\exp(w \cdot x+b)} $$

其中$w \cdot x$表示内积,$x \in R^n$,$w \in R^n$和$b \in R$是参数,$w$称为权值向量,$b$称为偏置。

对于输入的实例$x$,逻辑斯谛模型计算其条件概率$P(Y=1|x)$与$P(Y=0|x)$,通过比较大小将$x$分到概率值大的那一类。

有时为了方便,将权值向量与输入实例$x$进行扩充,仍记作$w,x$,即$w=(w^{(1)},w^{(2)},\cdots,w^{(n)}, b)^T$,$x=(x^{(1)},x^{(2)}, \cdots,x^{(n)},1)^T$,这时,逻辑斯谛模型就变成了:

$$ P(Y=1|x) = \frac{\exp(w \cdot x)}{1+\exp(w \cdot x)} \\ P(Y=0|x) = \frac{1}{1+\exp(w \cdot x)} $$

模型特点

一个事件的几率是指该事件发生的概率和不发生的概率的比值。如果一个事件发生的概率是$p$,那么该事件的几率就是$\frac{p}{1-p}$,该事件的对数几率就是:

$$ logit(p) = \log\frac{p}{1-p} $$

对于逻辑斯谛模型来说,$Y=1$的几率就是:

$$ \log \frac{P(Y=1|x)}{1-P(Y=1|x)} = w \cdot x $$

也就是说,在逻辑斯谛模型中,输出$Y=1$的对数几率是输入$x$的线性函数。考虑到公式

$$ P(Y=1|x) = \frac{\exp(w \cdot x)}{1+\exp(w \cdot x)} $$

可以得到,线性函数的值越接近于正无穷,概率值就越接近1;线性函数的值越接近负无穷,概率值就越接近0。

多项逻辑斯谛回归

设随机变量$Y$的取值集合为$\{1,2,\cdots,K\}$,那么多项逻辑斯谛回归模型是:

$$ P(Y=k|x) = \frac{\exp(w_k \cdot x)}{1+\sum^{K-1}_{k=1}\exp(w_k \cdot x)},k=1,2,\cdots,K-1 \\ P(Y=K|x) = \frac{1}{1+\sum^{K-1}_{k=1}\exp(w_k \cdot x)} $$

其中$x\in R^{n+1}$,$w \in R^{n+1}$。

模型参数估计

可以应用极大似然估计模型参数。

设:

$$ P(Y=1|x) = \pi(x),P(Y=0|x) = 1 - \pi(x) $$

似然函数为:

$$ \prod^N_{i=1} [\pi(x_i)]^{y_i}[1 - \pi(x_i)]^{1-y_i} $$

对数似然函数为:

$$ \begin{align} L(w) &= \sum^N_{i=1}[y_i \log \pi(x_i) + (1-y_i)\log(1-\pi(x_i))] \\ &=\sum^N_{i=1}\left[ y_i\log \frac{\pi(x_i)}{1-\pi(x_i)} + \log(1-\pi(x_i)) \right] \\ &= \sum^N_{i=1}[y_i(w \cdot x_i) - \log (1+\exp(w \cdot x_i))] \end{align} $$

对$L(w)$求极大值,得到$w$的估计值。这样,问题就变成了以对数似然函数为目标函数的最优化问题。逻辑斯谛回归学习中通常采用的方法是梯度下降法及拟牛顿法。

最大熵模型

最大熵原理认为,学习概论模型时,在所有可能的概率模型分布中,熵最大的模型时最好的模型。

假设离散随机变量$X$的概率分布是$P(X)$,则其熵为:

$$ H(P) = -\sum_x P(x)\log P(x) $$

熵满足下列不等式:

$$ 0 \leq H(P) \leq \log|X| $$

式中,$|X|$是$X$的取值个数,当且仅当$X$的分布是均匀分布时右边的等号成立,这就是说$X$服从均匀分布时,熵最大。换句话说,最大熵原理认为要选择的概率模型首先必须满足已有的事实,在没有更多信息的情况下,那些不确定的部分都是等可能的。

定义

首先考虑模型应该满足的条件。给定数据集,可以确定联合分布$P(X,Y)$的经验分布和$P(X)$的经验分布,记作$\widetilde{P}(X,Y)$和$\widetilde{P}(x)$:

$$ \widetilde