你好,游客 登录 注册 搜索
背景:
阅读新闻

到底穿T恤、正装还是道袍?数据挖掘师的定位

[日期:2015-11-03] 来源:36大数据  作者:周学春 [字体: ]
大数据

  (图为:剑网3 玩家Cosplay)

  心态不够平静,晚上在小区里面逛了一圈又一圈、一圈又一圈、一圈又一圈。

  最近看了《再次出发》,大意是讲两个失意的音乐人重振旗鼓再次出发,挺不错。但是,总觉得在电影院里面看剧情片,节奏太慢受不了,个人偏好。倒是里面所有的音乐都很好听。它会给你平静、简单、自然、祥和、空灵和穿透的感觉。适合写这篇文章的时候循环播放。

  大数据是什么?其实我也不太清楚。但是人们常常用四个关键词去刻画和描述它。即Volume、Variety、Value和Velocity。

  什么样的人在从事数据挖掘的工作?别人说:“T恤、正装和道袍”。

  做挖掘采用什么工具?开源、“众人堆柴火焰高”。

  (一)大数据的本质(4V)

  (1)Volume(容量)

  就是说数据规模和容量非常庞大。简单来说,传统的银行数据仓库中大概有小几万张表,记录着各个系统的数据。拿其中一张表举例(零售客户金融资产表),一般而言,零售客户都是非常海量的。股份制银行至少有千万级的零售客户。基本上,每天的零售客户金融资产表,其产生的数据量就有几个G。

  银行哪里来的大数据。有些人不太理解银行里面记录的都是什么数据,还是比较抽象,不够具体清晰。假设你有一张借记卡。你转账、存款、取现、贷款、购买理财、基金、保险、刷卡、交易数据、你开户时填写的个人资料、办理业务时填写的个人资料,都会被记录下来。简而言之,你和银行的每一次交互,在后台系统都会存在记录,这就是数据仓库的原始数据来源。

  (2)Variety(多样性)

  就是说数据类型非常多样。但是,天下数据,基本上也就包括三种类型。

  第一种,结构化数据。就是常见的二维表。一条记录代表一个客户(行维度),列维度代表属性和特征。例如,张三的定期余额、活期、理财、保险、国债余额等。

  第二种,半结构化数据。需要通过一定的技术抽取关键的特征和变量。

  例如简历,一般来说,都能够从简历里面抽取一些通用的特征,如年龄、性别、工作单位、工作年限、教育背景等。例如,网络日志分析,互联网公司常常从用户的浏览日志中抓取一些特征和变量,例如IP地址、浏览器类型、系统类型、登陆时间、登陆市场、登陆次数等等。有些做风控的公司,通过抓取全国所有法院的判决文书,抓取企业是否涉诉,涉诉金额,作为判断还款能力的重要标准和依据。

  第三种,非结构化数据。非结构化数据处理起来就比较复杂,这也是当前数据处理的一个前沿方向。例如图像识别、人脸识别、视频识别、音频识别等。

  (3)Value(价值)

  就是说,海量数据意味着挖掘后产生的价值也是非常高的。通过数据挖掘去探索数据背后的规律和模式。

  例如,通过挖掘,大致可以判断客户购买理财产品的概率有多大。如果比较大的话,就会向该客户推荐该理财产品。例如,通过挖掘,可以识别客户的交易图谱,客户关系网络。

  (4)Velocity(速度)

  其实说实话,大数据之所以会为大众所知,还是因为数据存储和加工技术的进步,运算不再成为一个瓶颈。

  (二)数据挖掘工种:T恤、正装和道袍

  因为业务的关系,最近听一个人做介绍和分享,有个观点还是挺有趣的。他说做大数据的,大概有三类人群。在此借用一下观点。

  第一种是穿T恤的,这种人一般都在互联网公司。

  第二种人穿正装,这种人一般在金融机构(例如银行、证券)、金融相关的咨询公司(SAS、FICO)。

  第三种人是穿道袍的,到处忽悠,向非专业的layman倾销观点。例如一些第三方数据公司、或者一些动辄就扯大数据概念,从来不落地的公司等。其实银行里面更多,很多时候呼喊大数据口号的都是做战略管理和规划的,估计压根没接触过海量数据。

  前两种人都较为偏技术一些。他们的差别更多的来自行业形态的差异。比方说,互联网是较为充分竞争的领域,因此,穿T恤的,一般都挺有几把刷子的。银行和金融领域,还是处于政策管制的领域,竞争不是特别充分,投入产出和效率意识并不强。数据挖掘更像是锦上添花、花拳绣腿的产物。由此表现出来非常明显的差别就是,银行永远都是花最贵的钱,买最贵的技术、产品和外包服务,例如SAS。互联网一般都是,怎么免费怎么来,数据库和挖掘的软件基本上都是开源的,例如R语言、python。

  第三种穿道袍的人。虽然有些忽悠成分,但是,很多时候,也正是他们教育了普罗大众,培育了整个市场,启蒙了大环境。其实,想一想,T恤、正装、道袍各自有各自的定位和受众。广义一点,其实穿道袍的人多了去了,任何行业,任何领域,夸夸其谈扯不到一点专业实质的,都可以称之为“道袍先生”。但是,存在,就是合理的。

  (三)挖掘工具:开源的力量

  接着上面的话题。

  互联网公司一般用免费开源的挖掘软件,例如Mysql、R语言、Python。高大上的银行一般花了数千万采购TD、SAS,常常采购的都是各种阉割的版本。毕竟SAS是封闭的商业软件。

  我自己使用最为熟练是SAS和R。简单进行比较一下。其他一些统计类软件,例如SPSS、Eviews、AMOS、STATA,比较适合小样本数据分析,适合高校科研环境,不展开。

  (1)SAS的封闭

  SAS base。侧重大样本数据分析,可以做千万和上亿样本级别的数据分析。Base最擅长数据的加工、整理、汇总。然后,统计模块部分,基本上能实现SPSS所有的功能。

  SAS EM。和Modeler基本上一模一样。傻瓜式的、拖拽风格的挖掘工具。它之所以能够贴上挖掘的称号,是因为其嵌入了很多成熟的统计和机器学习算法(聚类、贝叶斯、神经网络、决策树、SVM、随机森林、集成学习、逻辑回归等)。但是,他们却是非常傻瓜式的挖掘工具,因为他们是基于图标、节点和流程的。入手很快,结果较为粗糙,难以进行个性化、定制化的数据分析和挖掘,难以进行批量化的参数优化和调整。

  初期入手还行,后期处处受限。

  (2)R的开放

  R语言。是目前遇到的最自由式的数据挖掘工具。因为是采用内存加工处理数据,限制了数据分析的体量,有时候样本或者算法较复杂,内存会溢出报错。但是,说实话,这是我非常喜欢的挖掘工具。

  一方面,它有很多算法包,我可以很容易找到最前沿的算法和模块。例如,做社会网络分析igraph、例如做文本分析tm等。而这些对于SAS来说,都是收费模块,很难获取。

  另一方面,你可以定制自己的算法和包。EM最大的一个局限就是不能定制化自己的玩法,没办法修改模型算法,没办法对数据进行遍历和加工。但是,R可以做到。

  例如,做kmeans聚类时,R可以批量跑很多分组,但是EM每次只能run一个。例如,你可以用R同时循环50棵决策树,从而找出最优的决策树。但是EM就做不到。

  换言之,EM傻瓜操作的同时,就难以满足熟练工的更高阶的需求。鱼和熊掌,难以兼得。

 

  我的一个感受。常常有人说,统计软件,你只要精通一个就行了。其实,我是比较不认同这种说法的。很多时候,你的挖掘能力完全受制于你的工具。做挖掘,你的想象空间与你的工具完全是相关的。每个工具之所以能存在,必然是因为,它能够完成其他软件不能够完成的部分。这也是我当时熟练SAS后,接触R语言的一个最基本的理由和出发点。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款