机器学习系列—Logistic回归:我看你像谁 (下篇)

2016-09-29 11:53 阅读(325)    评论(0)   

作者:向日葵

Logistic回归

书接上回,在我们有了最小二乘法与极大似然估计做基础之后,这样我们就做好了Logistic回归的准备,渐渐的进入到我们的主题Logistic回归。 很多都属于分类的问题了,邮件(垃圾邮件/非垃圾邮件),肿瘤(良性/恶性)。二分类问题,可以用如下形式来定义它: y∈{0,1},其中0属于负例,1属于正例。 现在来构造一种状态,一个向量来代表肿瘤(良性/恶性)和肿瘤大小的关系。

1

2

Sigmoid 函数在有个很漂亮的“S”形,如下图所示(引自维基百科):

3

综合上述两式,我们得到逻辑回归模型的数学表达式:

4

Cost函数和J函数如下,它们是基于最大似然估计推导得到的。

5

下面详细说明推导的过程:

6

最大似然估计就是求使l(θ)取最大值时的θ,其实这里可以使用梯度上升法求解,求得的θ就是要求的最佳参数。但是,在Andrew Ng的课程中将J(θ)取为下式,即:

7

梯度下降法求的最小值

8

9

向量化Vectorization

Vectorization是使用矩阵计算来代替for循环,以简化计算过程,提高效率。 如上式,Σ(…)是一个求和的过程,显然需要一个for语句循环m次,所以根本没有完全的实现vectorization。

下面介绍向量化的过程: 约定训练数据的矩阵形式如下,x的每一行为一条训练样本,而每一列为不同的特称取值:

10

11

Logistic回归的推导过程,采用的是极大似然法和梯度下降法取得各个参数的迭代过程。以后很多公式的推导也是类似这个过程,机器学习的过程大部分的算法都归结到概率论,如果概率论不是很熟,可以继续温习一下。所以很多人都在总觉,机器学习的问题,归宗到底就是概率论的问题。而采用极大似然的算法,其中隐藏着一个道理:求出来的参数会是最符合我们观察到的结果,实验数据决定了我们的参数。

TensorFlow下的Logistic回归

现在有大量的机器学习的框架,个人开发者,大公司等都有。比较出名的还是FaceBook和谷歌的开源框架。

TensorFlow是谷歌2015年开源的学习框架,结合了大量的机器学习的算法,官方的文档也比较清楚,开篇的初学者入门讲的就是关于Logistic回归的问题,这里简单的介绍一下,主要是想说明TensorFlow还是属于比较强大的工具,可以进行工具的学习。

这篇文档的主要介绍如何使用TensorFlow识别MNIST,关于MNIST在之前神经网络的介绍有介绍过。MNIST里存放着一些手写的数据:

12

每个数字都可以用二进制向量数组来表示:

13

这些数据为神经网络的输入:

14

总结

这个章节里介绍了Logistic回归和推导的这个过程,Logistic回归是机器学习里最经常用到的算法,也是最基础的算法,通过推导Logistic回归就能够清楚机器学习的基础知识,后面有些算法的思想也和Logistic回归算法类似。

公司二维码

分享到:

相关推荐

  • 0 (5)

    外交不靠手腕靠萌物?连硬汉普京都深陷其中不能自拔

    被萌到,估计是人类永远都逃避不了的宿命。 “洛伦兹美学理论”认为,“被萌到”这种感觉来源于演化心理。 面对婴儿无辜的大眼、胖嘟嘟的脸颊和笨拙的动作,人们无不解甲投降,纷纷被萌到。 洛伦兹认为,被萌到,可以激发成人的保护欲,使婴儿得到大人关爱,有利于成长。 然而现在的情况...

  • 0 (30)

    阿加莎:侦探小说界的化学大咖,作品堪称“投毒指南”

    如果你喜欢推理小说,那么你已经有50%的机率是位“阿加莎迷”。 《东方快车谋杀案》、《尼罗河上的惨案》、《无人生还》、《阳光下的罪恶》等精彩作品,我们再熟悉不过。 阿加莎与她的部分作品 她被举世公认为“侦探小说女王”,在全球范围内坐拥无数拥趸。 在中国,阿加莎也被广大网友亲昵地...

  • 16

    都市遭毒雾曾5天致死12000人,40年艰难治理才摆脱“雾都”恶名

    伦敦是一座有着极致的文化气息的城市,如这威斯敏斯特宫旁的大本钟,便是伦敦的标志之一。 谈论伦敦历史,总不免想到工业革命与蒸汽朋克。 这座城市被赋予了超现实的科技感,以及黄昏下遍地鸽子的浪漫意境。 这大本钟比威斯敏斯特宫出名 但真实的伦敦历史实则充满了残酷。 在中世纪时...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 发掘你不知道的科技故事