数据工匠的文章

专栏

美国大选Facebook舆情分析——基于R

阅读(678)评论(0)

2016年7月27日,希拉里·克林顿顺利成为民主党总统候选人,这也意味着她将和之前成为共和党总统候选人的唐纳德·特朗普在11月份进行最终角逐。两位候选人在之前的五个月的网络口水仗,也使得各大社交平台异彩纷呈。为了从社交媒体这一渠道对两位候选 […]

阅读更多
专栏

跨境电商微信公众号推文热点解析

阅读(595)评论(0)

作者:数据工匠-SD Cry!! 近几年来,国内跨境电商发展势头良好,在习惯了由代购到海淘这类进口跨境电子商务模式之后,国内的电商卖家也将目光转向了广阔的全球市场。据中国商务部预测,2016年中国跨境电商进出口额预计增至6.5万亿元人民币, […]

阅读更多
专栏

R语言中的方差分析丨数析学院

阅读(401)评论(0)

问题 在R中,如何使用方差分析的方法来对比多个群组? 指南 假设这个是你的数据集: 单因素组间方差分析 双因素组间方差分析 Tukey HSD 多重比较 组内变量的方差分析 在进行组内变量的方差分析时,我们的对象数据必须为长数据的形式,而在 […]

阅读更多
专栏

机器学习通用框架

阅读(410)评论(0)

都在进行数据清洗和数据格式调整,将原始数据转变为可以用机器学习所识别的形式。本文主要集中在数据清洗后的过程,也就是机器学习的通用框架。这个框架是我在参加了百余场机器学习竞赛后的一个总结。尽管这个框架是非常笼统和概括的,但是绝对能发挥强大的作 […]

阅读更多
专栏

概率值的检验丨数析学院

阅读(325)评论(0)

问题 在对于定类数据的分析中,我们有时需要通过样本概率检验总体概率是否不同于某个既定的概率值,或是对比分组数据的分布情况,在R中,该如何处理这类问题? 指南 在概率值的检验中存在两个常见的问题: 总体中某一事件出现的概率是否不同于某一个给定 […]

阅读更多
专栏

R语言中的t检验丨数析学院

阅读(486)评论(0)

问题 在R中,我们如何检验从总体中抽样得到的两组样本是否有不同的均值,或是通过总体中的某一组样本检验总体均值与某一理论均值间的差异。 指南 示例数据 我们选择内置的sleep数据集作为示例数据。 接下来,我们将sleep数据集处理为宽数据; […]

阅读更多
专栏

R中的回归与相关丨数析学院

阅读(278)评论(0)

问题 在R中,如何进行线性回归或是度量变量之间的相关关系? 指南 我们需要先构造一些示例数据: 相关 相关矩阵(多元变量) 通过矩阵与数据框,我们可以实现对多元变量的相关系数度量。 线性回归 接下来我们将展示如何作以dat$x为自变量,da […]

阅读更多
专栏

永不过时的 K 均值算法

阅读(324)评论(1)

引言 众所周知,数据挖掘算法并非十全十美,在某些情况下他们也会失效。 使用 K 均值算法(K-Means)时就可能会出现这种情况,当然此时你可以尝试一下另一种方法—— K 中心聚类算法(K-Medoids),也许效果会更好。 在该网站之前的 […]

阅读更多
专栏

NA值的填充丨数析学院

阅读(419)评论(0)

问题 在R中,如何用非NA值替换向量或因素型变量中的NA值? 指南 下列代码将会告诉我们如何填补向量中的空缺,如果你需要反复地去进行这项工作,那么请好好看一下下文中的函数部分,我们给出的函数能够对一连串的NA值进行向前填充,并且也同时能适用 […]

阅读更多
专栏

[R]混合型数据聚类

阅读(356)评论(0)

利用聚类分析,我们可以很容易地看清数据集中样本的分布情况。以往介绍聚类分析的文章中通常只介绍如何处理连续型变量,这些文字并没有过多地介绍如何处理混合型数据(如同时包含连续型变量、名义型变量和顺序型变量的数据)。本文将利用 Gower 距离、 […]

阅读更多
专栏

整合序列中的连续相同值丨数析学院

阅读(226)评论(0)

问题 在R中,如何对一个向量或因素型变量序列中的连续的相同值进行序列整合? 指南 毫无疑问,我们可以通过一个简单的循环来实现对向量中连续相同值的序列整合,但是在R中,实现这一循环过程所需的等待是十分漫长的。在此我们推荐使用rle()函数,这 […]

阅读更多
专栏

Pandas中的链式方法

阅读(315)评论(0)

链式方法是当前比较流行的一种语法规则。 在过去的几个版本中,我们已经提到了几个支持链式方法的函数: assign (0.16.0): 用于往 DataFrame 中增加新变量(类似于 dplyr 中的 mutate 函数) pipe (0. […]

阅读更多

SME 发掘你不知道的科技故事