前沿科技创业的驱动者

沙龙回顾:大数据下的个人征信

导读:2016年1月21日,SME-Talk跨界对话活动邀请到上海商业发展研究院副院长刘斌以及厦门大学经济学院教授方匡南,与我们一起讨论大数据下的个人征信。下面SME小编就把两位嘉宾的分享整理出来分享给大家。点击“录音”,可以收听对话录音的完整版。

录音

沙龙回顾:大数据下的个人征信

大家好,我是上海商业发展研究院的刘斌。今天我与大家分享关于大数据下的个人征信中会遇到的几个问题。

沙龙回顾:大数据下的个人征信

首先我们遇到的第一个问题是:我们为什么要做个人征信模型。其实很多从业者都很少自我拷问这个问题。我们发现,很多公司做个人征信模型的目的、方法都有很大差异。第一种场景是:对于2C的商家,他想卖更多的商品给消费者,消费者可能采用分期付款的方式,消费者信用的好坏直接影响到这次贷款的质量。第二种场景是:银行为中小微企业提供贷款服务,在这个业务的过程中,也需要知道企业法人、骨干的个人信用情况。另外,有些人把个人征信作为评选劳模、先进个人的参考,这些都是大数据个人征信的应用场景。

但在做基于大数据的个人征信工作之前,一定要明确做这项工作的目的是什么?也就是说要了解公司发展的发展战略发展目标?有的公司要成为专业的第三方个人或企业信用评估公司,如现在已经发牌照的8家;有的公司为了加强对其中小客户的管理;有的为了在平台上与金融机构联手增加对小微企业的金融贷款等等。不同的公司,不同的目的,会使得建立模型时有很大的区别。这也就是提醒数据工作者们,不要盲目地引进模型,例如银行用的征信模型不一定适合你家。否则情况严重时,甚至会把公司的此项工作带上弯路。

还有第二个提醒,我们基于大数据的个人信用评估模型还处于初级阶段水平,模型建好了还要不断演练磨合优化。这个时间不会短的,即使是引入国外的模型,也注意水土问题。

第二个问题是:基于大数据的个人信用评估与传统评估方法有什么不一样的地方?大数据时代,不管从数据来源还是建模方法上都产生了巨大的变化。在信用风险管理上,一些意想不到的数据可能会跟信用产生一些关联。举个例子,在美国,你会发现使用护照以及用身份证来办理信用卡的时候,系统会显示用护照的人出现信用问题的风险会高于用身份证的人,类似的案例层出不穷。

还有就是关于变量的问题。我们在评估项目的时候发现,很多公司竭尽全力找了上千个他们认为可靠的变量,但最后起作用的可能就只有二十个。大数据研究、机器学习妙趣在于:帮助分析师从那些认为可能存有关联,或者看似完全不具有关联性的数据中,提取、聚焦出真正相关的变量。此外,在建模的时候你会发现,即使是在同样的行业,企业规模不一样,具体变量的维度是不同的。社会型第三方评估机构尤其要注意这个问题。第三方评估机构的报告要求有公信力,在评估上出现偏差是要负责的。

第三个问题是:国际上经验能不能用?有没有通用的模型?经验表明,某些属性、维度、字段并非属于金融数据的数据类型对于信审模型起到的作用比原始金融数据更重要。在金融数据缺失的当前情况下,这些数据就会显示巨大的价值。目前中国存在大量金融数据缺失的客户,如果能够证明,其他非金融数据在某种程度上能够代替原始金融数据,甚至有产生比金融数据更好的效果,那么将会大幅提升中国信贷领域的效率,同时中国信用体系也会实现跳跃式发展。

不同市场所运用的模型以及授信评分机制存在差别较大,这种区别受制于经济、文化等多种因素。很多风险预测维度存在国际差异,有一些维度是国际通用的,有一些是与不同国家的特定情况相关联。做大数据人首先要有大数据的哲学思考,很多研究个人征信的人居然不去了解本国人的文化、态度、消费行为、趋势等等,这是非常可笑的。

我们举一个例子。在听沙龙的各位都是18到36岁之间的人,是在独生子女下出生的第一代人,是改革开放时代成长的第一代人,价值观集中了三个文化系统的所有元素(传统文化,社会主义文化,西方文化,小编注),你们对成功的渴望非常强烈。所以我们在做个人征信的时候需要更好地理解青年人的态度和行为。

沙龙回顾:大数据下的个人征信

中国青年信用卡余额付款情况

沙龙回顾:大数据下的个人征信

中国青年最常使用的信用卡

第四个问题是:是不是有了各种来源的大数据,金融数据的作用就不大了?这种理解是错误的。金融数据依旧扮演非常重要的角色。一个人信用额度用的使用比例、还款情况,这样的信息,比该客户在淘宝上买了什么?到星巴克喝了什么?看了什么书?看了什么电影?到哪里旅游了?坐什么交通工具等等更有价值。但目前问题是,中国大量群体金融数据缺失,也只能通过他有没有喝星巴克咖啡等其他数据来代替了,再去发现该类数据可能存在有效性,可以尝试,但是谨慎使用!除非有效。

风险评分是一项非常专业和严肃的工作,要求准确度和稳定性。有些创新的变量有可能只在某段时间某种情形下有作用。这一类变量就是有相关性但稳定性很差。这时候就要平衡好准确性和稳定性的选择。要避免过度拟合!

做模型难!做好模型更难!做有效果的行业、社会认可的模型更是难上加难!要反复测试、实验、优化!做出的结果科学、公正,要对个人负责!要对社会负责!要对国家负责!红星美凯龙的征信模型炼了3年多了!美国FICO从上个世纪60年代就做这个事情,漫长之路之后才形成了今天的江湖地位!几年几十年这可怎么办呢?大数据时代这么长时间咱等不起啊!

所以需要创新研究!必须使用创新的建模方法。把神经网络、机器学习、逻辑回归等等方法综合实验,让机器自动模型训练,要大幅度提高建模效率,实时反馈实时优化,充分发挥后发优势。这样才能形成核心竞争力。

沙龙回顾:大数据下的个人征信

最后一个问题:隐私和商业机密保护问题。隐私保护问题往往是很多做大数据的人都忽略了。有人会这样问:我是创业公司,是不是只能卖数据或者提供数据服务?有没有别的商业模式?千万要注意,在你卖数据的过程中可能将就不经意违法违规了。目前,与大数据安全相关的法律法规还跟不上大数据技术的发展。

由于时间关系,我的分享就到这里,谢谢大家。

121

沙龙回顾:大数据下的个人征信

大家好,我是厦门大学的方匡南。

今天我主要从四个方面与大家分享大数据下的个人征信。第一个方面是国内外征信发展的概况;第二是个人征信评分模型问题;第三是我国个人征信市场发展前景;第四是目前我国个人征信存在的几个问题。

我们先来看看国内外个人征信发展情况。一般来说,可以用作个人征信产品设计的个人信息有以下九方面:

1.个人银行交易记录

2.个人网上购物信息及上网搜索记录

3.通讯业务记录

4.水电费、物业费缴费记录。

5.法院判决记录

6.医疗看病记录

7.个人保险信息

8.交通违规信息

9.社交信息记录

个人征信在国外已经有多年发展。从大范围来看,主要分为美国、欧洲、日本三个市场。

美国是自由市场模式,由市场化的征信公司来完成个人征信评级。美国的个人征信最初是由商人投资建立的非营利性组织来运作。到了二十世纪六十年代,一些地区性的小公司通过合并和收购,逐步形成几家大的征信公司,开始从非营利组织转变为以盈利为目的的私人公司。

欧洲是政府主导模式,由中央银行主导建立征信体系。欧洲的个人征信机构不属于营利机构,而是由政府以及央行主导,因此,欧洲个人征信机构的权威性以及数据的安全性都有所保障。

日本则介于两者之间,在征信体系建设中行业协会发挥了重要作用。我们简单介绍一下,日本的征信机构主要由行业协会主导,数据也仅限于行业协会内部会员分享。

再来看看我国的个人征信系统发展情况。我国个人征信系统的建立是在20世纪80年代,随着刺激消费、拉动内需等宏观政策的出台发展起来的。我国的个人征信评级正在由之前的政府主导模式转向自由市场模式,但在这个过程中,不能忽视行业协会的作用。除了像银联、阿里这样的巨无霸公司,中小征信公司必须与行业协会合作才能建立起有效的数据库并进行个人征信评级。有鉴于此,建议中小征信企业考虑与保险行业协会合作,建立长期稳定的数据共享机制。

沙龙回顾:大数据下的个人征信

我们来举一些例子,看看大数据个人征信机构与传统征信机构的区别。芝麻信用主要从行为偏好、信用历史、人脉关系、履约能力、身份特征五个维度收集相关数据,再用信用评分模型算出具体的信用情况。传统的个人征信评价机构服务机构针对的则是有丰富信贷经验的人,其数据绝大部分属于结构化数据。而类似芝麻信用这种机构则是面向没有信贷经历的人,其数据也都是非结构化数据。传统个人征信数据来源单一,而大数据个人征信数据来源非常丰富,这需要运用到一些机器学习的技术加以处理。但数据量一多,有时候机器学习技术并不能满足我买的需求,所以优化评分模型算法是非常重要的。

下面我们主要看一下这些模型在评估的过程中会涉及到哪些问题。数据挖掘的流程如下:

在大数据时代下,我们会接触到很多的变量,但并非把所有的变量都放进去的模型就是好模型。具备筛选数据能力的模型才是好模型。

下面我们谈谈我国征信市场的发展前景。我个人是非常看好中国的个人征信市场。我国人口众多,但个人征信完全发展成熟之后,其市场价值必将超过现在美国市场的价值。个人信用主要应用在哪里呢?我想主要可以从金融和生活两方面来阐述。

金融领域的应用,一是在个人信贷消费领域,二是在信用卡领域,第三是互联网借贷的平台,第四是网络购物平台。个人生活的应用,则可以用在签证的发放、职业升迁、应聘,甚至是相亲等方面。

虽然目前我国个人征信市场发展迅速,但还是存在这几个问题。第一个问题是:不同评级机构的评价结果差异较大。目前还没有权威的征信机构存在。比如,我在芝麻信用上信用分数很高,但在阳光信用上的信用分数很低,那我该相信谁呢?我个人的分析是,因为我平时使用支付宝频率很高,所以在芝麻信用上有很好的信用,但我平时很少使用微博,因此在微博推出的阳光信用上分数就很低。

那么由此可以引出第二个问题:如何规范个人征信市场。这又回到我前面提到的三种个人征信评级模式,我个人认为是需要一个由政府和企业共同成立的权威评级机构,把个人征信九大信息做一个整合,这个结果将会比较可信。

第三个问题是,现在个人征信的公司很多,但它们拥有的数据实际上是很有限的,为了抢占市场,他们非常匆忙地推出评估报告,导致结果非常不可行。一般来说,一个评估模型需要测试和调整时间。

第四个问题是,评级机构参差不齐,一些小的评级公司对个人数据的管理非常不规范,这会导致很严重的隐私问题。

由于时间关系,我今天的分享就到这里,谢谢大家。

分享到:

相关推荐

  • samsung4

    在为电池质量把关这件事儿上 三星原来如此与众不同

    三星电子的Note 7质量丑闻,目前逐渐平息,而三星尚未找到电池燃烧或者过热的原因,外界也十分关注此次质量事故是否是锂电池的问题。 据美国《华尔街日报》最新爆料,在美国手机市场,除了三星电子之外的所有手机厂商都通过第三方电池检测机构进行产品检测,唯独三星采用了隶属于本公司的电池检测...

  • QQ截图20160930102522

    中国天眼究竟牛在什么地方? 为什么全世界都佩服

    中国天眼的建成开眼是一件全世界都在关注的大事。中国天眼望远镜是全世界最大口径的望远镜,但是这个望远镜可不止是大而已,中国天眼上还运用了多种科技,帮助我们倾听宇宙深处声音、探索宇宙奥秘。 一问:射电望远镜是不是口径越大越好? “500米口径球面射电望远镜,可不是肉眼观测的普通望远镜,是...

  • Use R

    R语言中的t检验丨数析学院

    问题 在R中,我们如何检验从总体中抽样得到的两组样本是否有不同的均值,或是通过总体中的某一组样本检验总体均值与某一理论均值间的差异。 指南 示例数据 我们选择内置的sleep数据集作为示例数据。 接下来,我们将sleep数据集处理为宽数据;在之前发布的教程中,我们曾谈到过数据集长宽转换的方法...

  • AD-2.1

    手把手教你掌握竞品热销款式与销售旺季

    继市场数据、品类爆款、竞品跟踪等选品运营功能的一一上线,为了进一步满足众多用户的分析需求,数据脉又重磅推出“销售趋势透视”功能,这一功能可以帮助卖家快速了解某一产品各个款式的销售情况以及销售旺季。 作为一个亚马逊卖家,我们需要时刻了解竞争对手的状态。那么如何能够更好地了解竞争对手呢...

  • QQ截图20160830110143

    3.3亿光年外发现神秘“幽灵”星系:99.99%由暗物质组成

    天文学家近日发现了一个几乎完全由暗物质构成的“幽灵”星系。尽管这个编号为“蜻蜓44”(Dragonfly 44)的星系质量相当大,并且从宇宙的尺度上来说距离我们是相当近的,但它太暗了,以至于在过去的几十年里科学家们一直没能发现它的存在。直到去年,天文学家们才终于从后发座星系团中将这个距离我们大约3...

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

SME 前沿科技创业的驱动者