自然语言文本分析实例:深度学习、分类和回归丨数析学院

2016-09-18 02:15 阅读(341)    评论(0)   

TA_Key phrases_R2

课程简介:

本节提供了自然语言文本分析的实用方法,通过深度学习、分类、回归简单的组合,利用博客文章准确地预测博主的性别、年龄。具体来讲,就是利用 Gensim库中的Word2Vec深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。

本节分为以下几个部分:

  • 设置
  • 准备数据集
  • 训练Word2Vec模型
  • 创建&评估分类器

每一部分都可以独立执行,所以可以按兴趣挑选并执行操作。

课程目标

  • 了解 Word2Vec 并学会使用 Gensim 相关包训练 Word2Vec 模型
  • 利用 Word2Vec 实现文本分类及相关回归预测分析

相关准备

所需要的Python包:

  • BeautifulSoup – 用于解析原始博客文章。
  • NLTK (包括下载stopwords and punkt ) – 用于文本预处理。
  • Gensim – 用于 Word2Vec 深度学习。
  • GraphLab Create – 用于分类、回归、数据工程和评估。

数析学院:http://datacademy.io/ 我们致力于打造更加精要的课程,如果小伙伴们在工作和学习中遇到什么问题,可以给我们留言。

公司二维码

分享到:

相关推荐

  • 18

    她是诗人家的大千金,却写出了世界上第一个程序,超越时代100年!

    在男性撑起计算机行业的今天,你绝对想不到世界上第一个程序员其实是个女人。 她活在180年前的英国,用短暂的一生写下了绚丽的科技诗歌。 她是大诗人拜伦唯一的婚生子,师从著名的数理逻辑学家德·摩根。 她写出的第一个程序,如今的后辈们也不敢随意修改。 google doodles纪念Ada诞辰19...

  • 47611b0661676c1eccf0c25daecb006a_r

    当年汉字简化作下的孽,全都成了语文书里令人费解的知识点

    不知道还有多少人记得当年语文试卷上那些匪夷所思的读音选择题。 下列各组加粗字读音相同的一组是: A.   干涉  干活  主干线  干燥; B.   发财  头发 千钧一发  发人深思; C.   尽量  尽善尽美  尽管  尽力; D.   硕果累累  拖累  危如累卵  累人; 虽说只是简简单单的读音...

  • 0

    照片曾因宗教正确惨遭魔改,首个女菲尔兹奖得主死后终于“素颜”上头条

    说到伊斯蓝教女性,大家可能会想到一个拿黑色头巾包裹头部的形象。 一年前,网上曾流传过一张叫做也门小姐选美的照片,照片里姑娘们都用黑布包裹全身,只露出一双眼睛。 虽然调侃意味居多,但也能由此看出伊斯蓝教对女教徒外形的管束之严。 伊朗便是政教合一的典型范例,伊朗的女性在公...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 发掘你不知道的科技故事