自然语言文本分析实例:深度学习、分类和回归丨数析学院

2016-09-18 02:15 阅读(444)    评论(0)   

TA_Key phrases_R2

课程简介:

本节提供了自然语言文本分析的实用方法,通过深度学习、分类、回归简单的组合,利用博客文章准确地预测博主的性别、年龄。具体来讲,就是利用 Gensim库中的Word2Vec深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。

本节分为以下几个部分:

  • 设置
  • 准备数据集
  • 训练Word2Vec模型
  • 创建&评估分类器

每一部分都可以独立执行,所以可以按兴趣挑选并执行操作。

课程目标

  • 了解 Word2Vec 并学会使用 Gensim 相关包训练 Word2Vec 模型
  • 利用 Word2Vec 实现文本分类及相关回归预测分析

相关准备

所需要的Python包:

  • BeautifulSoup – 用于解析原始博客文章。
  • NLTK (包括下载stopwords and punkt ) – 用于文本预处理。
  • Gensim – 用于 Word2Vec 深度学习。
  • GraphLab Create – 用于分类、回归、数据工程和评估。

数析学院:http://datacademy.io/ 我们致力于打造更加精要的课程,如果小伙伴们在工作和学习中遇到什么问题,可以给我们留言。

公司二维码

分享到:

相关推荐

  • 920x920

    华裔科学家受尽屈辱终当上名校校长,只因是个“中国佬”而遭人入室暗杀

         谋杀的动机有很多种,常看今日说法等法制节目的观众应该有所了解。   但总的来说无非是情、仇、财,只要掌握了犯罪动机,刑警们的侦破工作就能变得开朗起来。      但在25年前,美国发生了一起震惊校园的谋杀案件。 女嫌疑人处心积虑地携带高温喷枪融化了地下室的玻璃进入室内。 ...

  • 21

    他靠一次实验失败拿下诺奖,80岁高龄仍改造DNA创人造细菌

    薛定谔撰写的《生命是什么》被奉为20世纪伟大科学经典之一。 书中内容以物理学家的角度思考生命的本真,精华处更有“生命以负熵*为生”之说法。 《生命是什么》为之后分子生物学的搜索方向提供了最初的灵感。 *注:“熵”代表着某种混乱和无序,“负熵”是与“熵”反其道而行之的一种...

  • 1983i.75-600w

    两次独揽诺奖的天才,晚年竟走火入魔煽动民众一起迷信维生素保健

    科学发展并非朝着真理直线前进,种种错误反而成为人类做出种种突破的催化剂。 但也并不是所有的错误都具备催化剂的属性,有些错误它能够进化为更大的错误。 十九世纪有一位改写了化学史的伟大化学家,他叫做鲍林。 作为一个诺贝尔奖双料得主,他不仅是一位天赋秉异的化学家,更是一位世界和...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 发掘你不知道的科技故事