前沿科技创业的驱动者

自然语言文本分析实例:深度学习、分类和回归丨数析学院

2016-09-18 02:15 阅读(131)    评论(0)   

TA_Key phrases_R2

课程简介:

本节提供了自然语言文本分析的实用方法,通过深度学习、分类、回归简单的组合,利用博客文章准确地预测博主的性别、年龄。具体来讲,就是利用 Gensim库中的Word2Vec深度学习模型创建文本特征,进而用 GraphLab Create中的机器学习工具进行分类和回归分析。

本节分为以下几个部分:

  • 设置
  • 准备数据集
  • 训练Word2Vec模型
  • 创建&评估分类器

每一部分都可以独立执行,所以可以按兴趣挑选并执行操作。

课程目标

  • 了解 Word2Vec 并学会使用 Gensim 相关包训练 Word2Vec 模型
  • 利用 Word2Vec 实现文本分类及相关回归预测分析

相关准备

所需要的Python包:

  • BeautifulSoup – 用于解析原始博客文章。
  • NLTK (包括下载stopwords and punkt ) – 用于文本预处理。
  • Gensim – 用于 Word2Vec 深度学习。
  • GraphLab Create – 用于分类、回归、数据工程和评估。

数析学院:http://datacademy.io/ 我们致力于打造更加精要的课程,如果小伙伴们在工作和学习中遇到什么问题,可以给我们留言。

公司二维码

分享到:

相关推荐

  • e7f0b435-c04c-447b-b823-87da57023623

    火箭直径为何只能是3.35?原因竟和马有关

    我国最大的火箭直径是3.35米,而且不管火箭怎么改变,都不会超过这个宽度。为什么会出现这个奇怪的数据呢?火箭的直径,说起来竟然还和马有关。 我们都知道,火箭的直径和它的运载能力相关。也就是说,如果火箭需要运输更大的载荷,就要直径更大、箭体更长。这样的想法在理论上没错,但在现实中却受到...

  • QQ截图20160920105054

    首个月球村 将由3D打印来完成

    在月球上建造自己的空间站是人们探索月球的新目标。但是月球环境恶劣,在上面长期作业肯定不行,于是科学家们有一个更加快捷有效的方法,3D打印一个月球村。 据英国媒体报道,欧洲空间局计划在最短15年时间内,在月球上打造出一个3D打印的“月球村”。 不久前,来自世界各地的太空探索专家对建立...

  • 微信截图_20160912175144

    SME助力|中国声谷·人工智能产业高峰论坛

    点击活动详情,报名参加活动

  • QQ截图20160913095532

    焦虑魔方来了!帮你赶走负能量

      内容摘要 对于一个容易烦躁焦虑的人来说,在无聊的时候总会找一些事情来打发时间,比如把用过的纸杯撕成碎片,或是仔细的涂涂指甲油,要不就转转笔什么的,貌似学生党最爱这些掌上小游戏。当然挤泡泡这种高大上的小游戏想必大家都很喜欢吧。   Mark和Matthew McLachl...

  • 20131206093420447

    为了帮你减肥,上海科大解析了大麻素受体结构

    上海科技大学近日作出一项重要科研突破,该校iHuman研究所科研团队成功解析了人源大麻素受体(CB1)的三维精细结构,或将为治疗肥胖、尼古丁成瘾等方面药物的研发提供新思路。 10月21日零时,该项成果以“Crystal Structure of the Human Cannabinoid Receptor CB1”为题,在国际权威学术期刊《Cell》上...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 前沿科技创业的驱动者