线性回归原理推导与应用(七):逻辑回归原理与公式推导
逻辑回归是一种分类算法,常用于二分类,也就是得出的结果为是和不是,例如通过各种因素判断一个人是否生病,信用卡是否违约等。逻辑回归在社会和自然科学中应用非常广泛,
前置知识
线性回归
逻辑回归的底层方法就是线性回归,所以需要对线性回归有基本的了解。具体的一元,多元线性回归原理在之前的文章中已经讲过,可以查看之前的文章
https://blog.csdn.net/qq_42692386/article/details/140824402
https://blog.csdn.net/qq_42692386/article/details/138210463
https://blog.csdn.net/qq_42692386/article/details/146070598
回归:假设现在有一些数据点,我们用一条线对这些点进行拟合(这条线称为最佳拟合线),这个拟合的过程就叫做回归。
线性回归:最佳拟合线是一条直线,线性是指每个自变量(或者说特征) x x x与因变量(或者说结果) y y y的结果是线性的关系
逻辑回归
在线性回归中得到的结果一般是连续的结果,而分类需要的结果是离散型的,例如二分类就是最终结果只需要两类。逻辑回归可以进行分类就是使用了Sigmoid函数将结果转化为0到1的范围内,再将0.5作为分界线从而分类。
Sigmoid函数
又被称为对数几率函数、Logistic函数。Sigmoid函数的数学表达式为:
σ ( z ) = 1 1 + e − z \sigma(z)= \frac 1 {1+e^{-z}} σ(z)=1+e−z1
其函数图像为:
从图形可以看出,Sigmoid函数有如下性质:
1.函数定义域为 ( − ∞ , + ∞ ) (−\infty,+\infty) (−∞,+∞),值域为 ( 0 , 1 ) (0,1) (0,1)。
2.当 z z z趋近于 − ∞ −\infty −∞时,函数值 g ( z ) g(z) g(z)趋近于0;当 z z z趋近于 + ∞ +\infty +∞时,函数值 σ ( z ) \sigma(z) σ(z)趋近于1;当 z = 0 z=0 z=0时,函数值 σ ( z ) \sigma(z) σ(z)等于0.5.
3.函数单调可微。
Sigmoid函数的这些性质决定了它可以将 ( − ∞ , + ∞ ) (−\infty,+\infty) (−∞,+∞)的数据映射到 ( 0 , 1 ) (0,1) (0,1)上,加上它在中心点处取值为0.5,所以我们可以将0.5作为分界线来进行分类。当然选择0.5作为阈值是一个一般的做法,实际应用时特定的情况可以选择不同阈值,如果对正例的判别准确性要求高,可以选择阈值大一些,对正例的召回要求高,则可以选择阈值小一些
对Sigmoid函数求导,有:
σ ′ ( z ) = d d z 1 1 + e − z = e − z ( 1 + e − z ) 2 = 1 ( 1 + e − z ) ⋅ ( 1 − 1 ( 1 + e − z ) ) = σ ( z ) ( 1 − σ ( z ) ) \begin{aligned} \sigma'(z) & = \frac d{dz}\frac 1{1+e^{-z}}\\ & = \frac {e^{-z}}{(1+e^{-z})^2}\\ & = \frac 1{(1+e^{-z})} \cdot (1- \frac 1{(1+e^{-z})})\\ & = \sigma(z)(1-\sigma(z))\\ \end{aligned} σ′(z)=dzd1+e−z1=(1+e−z)2e−z=(1+e−z)1⋅(1−(1+e−z)1)=σ(z)(1−σ(z))
可以看到Sigmoid函数求导后仍然可以使用原函数表示,这也是它的一个比较好的性质。
逻辑回归的损失函数
逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层Sigmoid函数映射,即先把特征线性求和,然后使用Sigmoid函数 g ( z ) g(z) g(z)将线性回归的结果值映射到0到1之间。将线性回归模型的表达式带入g(z),就得到逻辑回归的表达式:
在之前的线性回归原理中多元线性回归的一般形式为:
f ( x ) = w 0 x 0 + w 1 x 1 + w 2 x 2 + . . . + w k x k = w T x f(x) = w_{0}x_{0} +w_{1}x_{1}+ w_{2}x_{2} + ... +w_{k}x_{k}=w^Tx f(x)=w0x0+w1x1+w2x2+...+wkxk=wTx
代入到逻辑Sigmoid函数的表达式中,结果为:
h ( x ) = σ ( w T x ) = 1 1 + e − w T x h(x)=\sigma(w^Tx)= \frac 1 {1+e^{-w^Tx}} h(x)=σ(wTx)=1+e−wTx1
此时如果按照之前的最小二乘法推导出最终的损失函数是非凸的,很难找到最优解,所以逻辑回归中使用最大似然法来确定模型的参数。
最大似然估计
最大似然估计认为我们既然已经抽取得到了一个结果,那么就认为这个结果就是所有情况、所有样本结果中出现概率最大的那一个。考虑到每次的抽取都是独立同分布的,所以将每一个取值对应的概率相乘就是这一个样本结果出现的概率(也就是似然函数),那么只要让这一个结果出现的概率(似然函数)最大就可以估算出每个值对应的概率
举个例子来说就是一个大桶里有红蓝两种球,现在有放回的随机抽了100个球,最终有70个红球和30个蓝球,那么我们可以推断认为桶里红蓝球的比例约为7:3,因为这种比例下出现已抽取到的结果的可能性最大.。
具体可以参阅如下链接文章:
https://blog.csdn.net/qq_42692386/article/details/139919043
最大似然估计的一般步骤为:
- 写出似然函数(也就是已知的样本结果出现的概率)。对于离散型变量是将对应概率相乘,连续型变量就是概率密度函数相乘。
- 求似然函数最大时对应概率的值。一般为了简化计算,首先对等式两边取对数,将相乘改为相加减,然后对似然函数求导,求导数为0时的值
逻辑回归损失函数推导
逻辑回归的最终结果是一个二分类结果,在概率中将结果表示为 y = 0 , y = 1 y=0,y=1 y=0,y=1,通常用数字1表示结果为正例,0表示结果为反例,可以分别表示发生与不发生,正面与反面,成功与失败,有问题与无问题等等二分类结果。在概率中我们用 P ( Y ) P(Y) P(Y)表示事件 Y Y Y发生的概率,例如 P ( Y = 1 ) P(Y=1) P(Y=1)可以表示硬币抛出正面,下雨这个事件发生等等的概率。同时二分类中的结果只有正例和反例,所以两者发生概率相加为1。用 P ( Y ∣ X ) P(Y|X) P(Y∣X)表示在条件 X X X的情况下事件 Y Y Y发生的概率,称为后验概率
所以在逻辑回归中,结果当取值为 x x x时为正例的概率为:
P ( y = 1 ∣ x ; w ) = h ( x ) = 1 1 + e − w T x = e w T x 1 + e w T x P(y=1|x;w)=h(x)= \frac 1 {1+e^{-w^Tx}}=\frac{ e^{w^Tx}} {1+e^{w^Tx}} P(y=1∣x;w)=h(x)=1+e−wTx1=1+ewTxewTx
同理可得出当取值为 x x x时为负例的概率:
P ( y = 0 ∣ x ; w ) ) = 1 − h ( x ) = 1 − σ ( w T x ) = 1 1 + e w T x P(y=0|x;w))=1-h(x)=1-\sigma(w^Tx)= \frac{1} {1+e^{w^Tx}} P(y=0∣x;w))=1−h(x)=1−σ(wTx)=1+ewTx1
需要注意的是这里直接将逻辑回归的计算结果 h ( x ) h(x) h(x)作为概率,例如一个样本计算结果 h ( x ) = 0.8 h(x)=0.8 h(x)=0.8,则就是认为其为正例的可能性为0.8,从而根据概率理解为其为正例,但是需要注意的是这个计算结果并不是一个真实的概率,只是在逻辑回归中计算结果可以作为概率来使用。
将两者合并到一起,可以得到逻辑回归的表达式:
P ( y ∣ x ; w ) = ( h ( x ) ) y ( 1 − h ( x ) ) 1 − y P(y|x;w)= (h(x))^y(1- h(x))^{1-y} P(y∣x;w)=(h(x))y(1−h(x))1−y
假设训练样本相互独立,则根据最大似然函数写出似然函数的表达式为:
J ( w ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ; w ) = ∏ i = 1 n h ( x ( i ) ) y ( i ) ( 1 − h ( x ( i ) ) ) 1 − y ( i ) J(w) = \prod_{i=1}^n P(y^{(i)}|x^{(i)};w) = \prod_{i=1}^n h(x^{(i)})^{y^{(i)}}(1-h(x^{(i)}))^{1-y^{(i)}} J(w)=i=1∏nP(y(i)∣x(i);w)=i=1∏nh(x(i))y(i)(1−h(x(i)))1−y(i)
其中 x ( i ) , y ( i ) x^{(i)},y^{(i)} x(i),y(i)是第 i i i 个观察样本的自变量值和实际结果值
对等式两边取以自然底数 e e e为底的对数,将累乘变为累加,有:
l n J ( w ) = l n ( ∏ i = 1 n h ( x ( i ) ) y ( i ) ( 1 − h ( x ( i ) ) ) 1 − y ( i ) ) = ∑ i = 1 n [ y ( i ) l n ( h ( x ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − h ( x ( i ) ) ) ] \begin{aligned} ln J(w) &= ln \bigg(\prod_{i=1}^n h(x^{(i)})^{y^{(i)}}(1-h(x^{(i)}))^{1-y^{(i)}} \bigg) \\&= \sum^n_{i=1} \Big[y^{(i)} ln(h(x^{(i)})) + (1-y^{(i)})ln(1-h(x^{(i)}))\Big] \end{aligned} lnJ(w)=ln(i=1∏nh(x(i))y(i)(1−h(x(i)))1−y(i))=i=1∑n[y(i)ln(h(x(i)))+(1−y(i))ln(1−h(x(i)))]
最大似然估计希望似然函数越大越好,而之前我们求解损失函数时用的梯度下降是求最小值,所以在前面可以加一个负号,这样就得到逻辑回归的损失函数如下:
J ( w ) = − ∑ i = 1 n [ y ( i ) l n ( h ( x ( i ) ) ) + ( 1 − y ( i ) ) l n ( 1 − h ( x ( i ) ) ) ] J(w)= -\sum^n_{i=1} \Big[y^{(i)} ln(h(x^{(i)})) + (1-y^{(i)})ln(1-h(x^{(i)}))\Big] J(w)=−i=1∑n[y(i)ln(h(x(i)))+(1−y(i))ln(1−h(x(i)))]
梯度下降更新公式
为了求解得到逻辑回归的损失函数的最小值,依旧使用梯度下降法
w j n + 1 = w j n − α ∂ ∂ w j J ( w ) w_{j}^{n+1}=w_{j}^{n}-\alpha\frac{\partial}{\partial w_{j}} J(w) wjn+1=wjn−α∂wj∂J(w)
其中 α \alpha α为学习率
根据Sigmoid函数求导的性质,对w求偏导有:
h ( x ) = σ ( w T x ) = σ ( w T x ) ( 1 − σ ( w T x ) ) ∂ ∂ w j w T x = h ( x ) ( 1 − h ( x ) ) ∂ ∂ w j w T x h(x)=\sigma(w^Tx)= \sigma(w^Tx)(1-\sigma(w^Tx))\frac{\partial}{\partial w_{j}}{w^Tx}= h(x){(1-h(x)}) \frac{\partial}{\partial w_{j}}{w^Tx} h(x)=σ(wTx)=σ(wTx)(1−σ(wTx))∂wj∂wTx=h(x)(1−h(x))∂wj∂wTx
对损失函数求偏导有:
∂ ∂ w j J ( w ) = − ∑ i = 1 n [ y ( i ) 1 h ( x ( i ) ) ∂ ∂ w j h ( x ( i ) ) + ( 1 − y ( i ) ) 1 ( 1 − h ( x ( i ) ) ) ∂ ∂ w j ( 1 − h ( x ( i ) ) ) ] = − ∑ i = 1 n [ y ( i ) 1 h ( x ( i ) ) ∂ ∂ w j h ( x ( i ) ) − ( 1 − y ( i ) ) 1 ( 1 − h ( x ( i ) ) ) ∂ ∂ w j h ( x ( i ) ) ] = − ∑ i = 1 n [ y ( i ) 1 h ( x ( i ) ) − ( 1 − y ( i ) ) 1 ( 1 − h ( x ( i ) ) ) ) ] ∂ ∂ w j h ( x ( i ) ) = − ∑ i = 1 n [ y ( i ) 1 h ( x ( i ) ) − ( 1 − y ( i ) ) 1 ( 1 − h ( x ( i ) ) ) ) ] h ( x ( i ) ) ( 1 − h ( x ( i ) ) ) ∂ ∂ w j w T x = − ∑ i = 1 n [ y ( i ) ( 1 − h ( x ( i ) ) ) − ( 1 − y ( i ) ) h ( x ( i ) ) ] ∂ ∂ w j w T x = − ∑ i = 1 n [ y ( i ) − h ( x ( i ) ) ] ∂ ∂ w j w T x = ∑ i = 1 n [ h ( x ( i ) − y ( i ) ) ] x j ( i ) \begin{aligned} \frac{\partial}{\partial w_{j}} J(w) &= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} \frac{\partial}{\partial w_{j}}h(x^{(i)}) + (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{(1-h(x^{(i)})})\Big] \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} \frac{\partial}{\partial w_{j}}h(x^{(i)}) - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{h(x^{(i)}})\Big] \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} )\Big] \frac{\partial}{\partial w_{j}}h(x^{(i)}) \\&= -\sum^n_{i=1} \Big[y^{(i)} \frac{1}{h(x^{(i)})} - (1-y^{(i)}) \frac{1}{(1-h(x^{(i)}))} )\Big] h(x^{(i)}){(1-h(x^{(i)}))} \frac{\partial}{\partial w_{j}}{w^Tx} \\&= -\sum^n_{i=1} \Big[y^{(i)} {(1-h(x^{(i)}))} - (1-y^{(i)})h(x^{(i)})\Big] \frac{\partial}{\partial w_{j}}{w^Tx}\\&= -\sum^n_{i=1} \Big[y^{(i)} - h(x^{(i)})\Big] \frac{\partial}{\partial w_{j}}{w^Tx} \\&= \sum^n_{i=1} \Big[h(x^{(i)} - y^{(i)} )\Big] x_{j}^{(i)} \end{aligned} ∂wj∂J(w)=−i=1∑n[y(i)h(x(i))1∂wj∂h(x(i))+(1−y(i))(1−h(x(i)))1∂wj∂(1−h(x(i)))]=−i=1∑n[y(i)h(x(i))1∂wj∂h(x(i))−(1−y(i))(1−h(x(i)))1∂wj∂h(x(i))]=−i=1∑n[y(i)h(x(i))1−(1−y(i))(1−h(x(i)))1)]∂wj∂h(x(i))=−i=1∑n[y(i)h(x(i))1−(1−y(i))(1−h(x(i)))1)]h(x(i))(1−h(x(i)))∂wj∂wTx=−i=1∑n[y(i)(1−h(x(i)))−(1−y(i))h(x(i))]∂wj∂wTx=−i=1∑n[y(i)−h(x(i))]∂wj∂wTx=i=1∑n[h(x(i)−y(i))]xj(i)
所以最终的梯度下降更新公式为:
w j : = w j − ∂ ∂ w j J ( w ) = w j − α ∑ i = 1 n [ h ( x ( i ) − y ( i ) ) ] x j ( i ) w_{j}:=w_{j}-\frac{\partial}{\partial w_{j}} J(w)=w_{j}-\alpha \sum_{i=1}^{n} \Big[h(x^{(i)} - y^{(i)} )\Big] x_{j}^{(i)} wj:=wj−∂wj∂J(w)=wj−αi=1∑n[h(x(i)−y(i))]xj(i)
可以看到梯度下降更新公式与之前说的多元线性回归梯度下降更新公式形式是一样的。但是这里的 h ( x ) h_(x) h(x)其中有Sigmoid函数,所以是非线性的函数,与多元线性回归是不同的。