你好,游客 登录 注册 搜索
背景:
阅读新闻

互联网和金融,在数据挖掘上究竟存在什么区别?

[日期:2015-11-20] 来源:微头条  作者: [字体: ]
大数据

  一、数据挖掘的层次

  一直想整理下对数据挖掘不同层次的理解,这也是这两年多的时间里面,和很多金融领域、互联网做数据相关工作的小伙伴,聊天交流的一些整理和归纳。大概可以分为四类:

  (一)纯粹的数据加工

  侧重于变量加工和预处理, 从源系统或数据仓库,对相关数据进行提取、加工、衍生处理,生成各种业务表。然后,以客户号为主键,把这些业务表整合汇总,最终可以拉出一张大宽表,这张宽表就可以称之为“客户画像”。即,有关客户的很多变量和特征的集合。

  在这个阶段,主要的数据加工工具为SQL和SAS base。

  (二)傻瓜式的挖掘工具

  较为典型的就是SAS EM和clementine,里面嵌入很多较为传统成熟的算法、模块和节点(例如逻辑回归、决策树、SVM、神经网络、KNN、聚类等)。 通过鼠标的托拉拽,流程式的节点,基本上就可以实现你挖掘数据的需求。

  傻瓜式操作的优点就是使得数据挖掘,入手非常快,较为简单。但是,也存在一些缺陷,即,使得这个挖掘过程变得有点单调和无趣。没办法批量运算模型,也没办法开发一些个性化的算法和应用。用的比较熟练,并且想要进一步提升的时候,建议把这两者抛弃。

  (三)较为自由的挖掘工具

  较为典型的就是R语言和Python。这两个挖掘工具是开源的,前者是统计学家开发的,后者是计算机学家开发的。

  一方面,可以有很多成熟的、前沿的算法包调用,另外一方面,还可以根据自己的需求,对既有的算法包进行修改调整,适应自己的分析需求,较为灵活。此外,Python在文本、非结构化数据、社会网络方面的处理,功能比较强大。

  (四)算法拆解和自行开发

  一般会利用Python、C、C++,自己重新编写算法代码。例如,通过自己的代码实现逻辑回归运算过程。甚至,根据自己的业务需求和数据特点,更改其中一些假定和条件,以便提高模型运算的拟合效果。尤其,在生产系统上,通过C编写的代码,运行速度比较快,较易部署,能够满足实时的运算需求。

  一般来说,从互联网的招聘和对技能的需求来说,一般JD里面要求了前三种,这样的职位会被称为 “建模分析师” 。但是如果增加上了最后一条,这样的职位或许就改称为 “算法工程师” 。

  二、模型的理解:传统的和时髦的

  据理解, 模型应该包括两种类型。一类是传统的较为成熟的模型,另外一类是较为时髦有趣的模型。 对于后者,大家会表现出更多的兴趣,一般是代表着新技术、新方法和新思路。

  (一)传统的模型

  传统的模型,主要就是为了解决分类(例如决策树、神经网络、逻辑回归等)、预测(例如回归分析、时间序列等)、聚类(kmeans、系谱、密度聚类等)、关联(无序关联和有序关联)这四类问题。这些都是较为常规和经典的。

  (二)时髦有趣的模型

  比较有趣、前沿的模型,大概包括以下几种类型,即 社会网络分析、文本分析、基于位置的服务(Location-Based Service,LBS)、数据可视化等。

 

  它们之所以比较时髦,可能的原因是,采用比较新





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款