你好,游客 登录
背景:
阅读新闻

大数据挖掘机器学习人工智能的维恩图战争

[日期:2018-05-03] 来源:公众账号  作者: [字体: ]
大数据

  马上要召开半年会了,老板说,大家要做好规划,以后我们方向不再是机器学习了,而是人工智能。原话怎么说的,我已经忘记,只记得当时听着特别难受,于是我当场就提出了,到底什么是机器学习?什么是人工智能?BD小姑娘特别积极说,我知道我知道,就去黑板上画了三个方块。类似下面的这样:

  这也不是原图,类似这样的意思,比较简略的关系。(记忆真是太不靠谱的东西!)我不以为然,第一想到的图是题图,也很简略地去白板上画了下,每个人同学又各抒己见了下,引起一片笑声。虽然这个事情就过去,但是我这个人,在这种场景下,就没有“过去”,因为我是一个特别纠结概念的人。

  回来一搜,不得了,原来,搞不清楚这些术语边界的人可真不少,很多本身就是这个领域的学者和研究者,就是说,连专业的人士都众说纷纭,互不能信服,真是太逗了,甚至有篇文章,叫《Battle of the Data Science Venn Diagrams》 [1] 这篇文章里,搜集了很多的维恩图,不打算一一转载,各位可以自行观看。

  挑一些我个人比较感兴趣的图说说吧。

  这张图也就是题图,据说,来自 SAS 公司在 KDD1998* 提供的数据挖掘基础课程中的一副图[2]。很多辨析这几个领域的Slides,还有一些技术人士做的 PPT 里,会引用这张图,因为 SAS 是全球最大的软件公司之一,是商业智能和数据分析软件的领袖,所以,他们的观点不能说是不权威。

  这幅图里,以数据挖掘(Data Mining)为核心,当然因为这是 KDD 会议的讲稿,所以图里还有 KDD 的一个圈圈,哈。模式识别(Pattern Recognition)和神经计算(Neurocomputing)这俩,我基本完全没概念,就不讨论了。这图里有意思的是统计学(Statistics)、机器学习(Machine Learning)和人工智能(AI)的关系。以 SAS 的观点来看,人工智能是完全包含了机器学习的内容的,机器学习根本就是人工智能的子学科。而统计学跟这俩基本没有交集,但是仔细点看看,不是完全无关,完全无关是像数据库(Databases)的表达方式,离得远远的,也即,机器学习和人工智能,跟统计有关系,也仅仅一丁点而已,哈!

  另有一幅图,派生自这幅图。

  这幅图的作者 Brendan Tierney,查了一下也是一个行业资深人士,曾在 Oracle 工作过,现在是咨询师,很多 Quroa 答案啊,行业文章啊,引用这张图也比较多,这图本质上不是说领几个属于的边界问题的,标题也可以看出来,不过也引发了不少人讨论(呵呵)。Brendan 2012年发表了博客[3],2016年回来更新说,中间的维恩图呢,是数据挖掘领域很常见的图啦(然而我没找到原图),他随便引用的,并且他认为派生自上面 KDD1998 那图(可我觉得不是),他自己加了外面一圈东西才是他想表达的。

  这图里,取消了数据挖掘和模式识别的交集,正中间换成了数据可惜,新增了可视化,还真是…… 2010年有一篇博客[4],引用这幅图,辨析了数据科学,数据挖掘和机器学习三者,也挺值得一看的。

  下面这幅维恩图,定义了什么是数据科学。

  绘制这幅图的,是一个叫 Drew Conway 的伙计,他是纽约技术社群里的一位类似意见领袖的人物。维基百科对他的介绍[5],他竟然因为绘制了上面的图而成名,被记入维基百科,另一个因素是把大数据应用于恐怖主义研究,当然,画出这幅图还排在研究恐怖主义前面,大家能领会吧?

  据 Battle 文说,这图绘制于2010年,但是2013年才在博客发表[6],博客的归档时间和声称发表时间,确实能看到这两个时间点。据说就是这个图,点燃了 Battle,也是 Battle 文中的第一幅图。

  这幅图,让人注意的两个点,第一个是 Substantive Expertise,第二个是危险区域(Danger Zone!),哈哈,前者看到感受是“草,什么鬼,这英语我不认识啊”,后者感受是“神秘啊!”。大可不必为英语看不懂而脸红,Battle 文作者,也觉得这俩词选得不好,很操蛋啊(……all I can say, is if Conway meant something other than what I would call domain knowledge (e.g. physics), he chose the name Substantive Expertise very poorly.)当然还有一重很重要的可能性,就是咱们都没有 Conway 老哥有文化,人家另一重身份是纽约大学的 Political Science 的博士啊!

  于是没文化的技术民工,将 Conway 老哥的图改得可爱了一点[7]。

  这幅图我倒是觉得更呵呵一点了。当然,值得肯定的是三个圈在我四级的英语能力下,确实更容易看懂一些了。但是,数据科学从中央被移走了什么鬼?而且中央区域放入了一个什么鬼?好吧。“数学和统计知识”被换成了“量化方法”?“骇客能力”被换成了“计算机科学”?这俩的替换方法看,基本上也可以判断,第三个被换的,也高明不到哪里去,所以这个老哥可没有因为这幅图被收录维基百科。那个问号,据说是对危险区域不太能接受,所以替换成问号了。

  看一个集大成者的图[8]。

  干脆加了一个圈圈叫 Evil(魔鬼?),当然了,多了很多什么鬼的英语,我能看懂的就不多了,难道邦德大哥也来客串了?

  还是沉溺到了数据科学领域的 Battle,无奈。这幅图也是来自那篇文章。

  这幅图,是最为切题的一副图了吧,大数据,数据挖掘,机器学习,人工智能全都提到了,应该做题图才对啊!(我也是无奈)[9]。感觉这幅图,提供了一种全新的视角来看待问题,把 Conway 老哥著名的图里,那些更主观,更模糊的东西砍掉了,留下了客观的,跟数据有关的,跟技术有关的东西,几个术语,确实可以在一个层次上去比较了。文章自称解决了大 Puzzle 的一部分。

  文章辨析了几个术语的一些意思和简史,也提供了另一幅我很喜欢的图。

  说实在,这才是到目前为止我最喜欢的图,不但提供了作者对于概念内涵外延的阐释,还把不同概念之间的作用关系给解释了。真是太棒了!

  还有一篇文章我也比较喜欢,比如这篇[10]辨析了机器学习和统计学的异同点。文章认为,统计学和机器学习两者,有着相同的目标(在咱们讨论的这个方面),就是“我们能从数据中学到什么”,而不同的是两者的方法。这篇文章里也引用了题图。文章中引述的一种观点认为,机器学习方法,不需要任何前置假设,不关心各种变量内在的联系,只要一股脑丢到算法里面就可以了,算法更像一个黑盒子。你的数据越多,预测越准。机器学习方法,通常应用在一些高维的数据集上。

  而统计学,特别注重数据的采集方式,样本的各种属性的分布,你必须精确地知道你到底在干什么以及到底有什么变量来提供预测能力。统计学方法,通常应用于低维的数据集上。

  当然,结合目前的工作,很容易就发现,虽然我们使用的是机器学习方法,我们却十分关心统计学要求的那些领域,我们也关注数据取得的方式,属性的分布特征等等问题。所以,也正如文中的结论,两者的区别在日益变小,而且在未来可能越来越难以区分。(而这半句,是我加的,我觉得在工业界会是这样)

  还有一幅图,我也挺喜欢。

  这幅图,介绍了机器学习的整个过程[11]。我觉得也是很重要的。

  总结

  基本上,数据科学这门学科到底涵盖些什么内容,其边界是模糊的。对于一个新兴的学科来说,这一点都不奇怪。我们有一点是确认的,这是一个综合性很强的交叉学科。大数据也是一个宽泛的概念。机器学习和深度学习则是内涵外延比较明确的概念,公认有包含关系。人工智能则是更大的范畴,但是人工智能和大数据、数据科学都不是一回事情。

  [1]Battle of the Data Science Venn Diagrams,http://www.prooffreader.com/2016/09/battle-of-data-science-venn-diagrams.html

  [2]Looking backwards, looking forwards: SAS, data mining, and machine learning,https://blogs.sas.com/content/subconsciousmusings/2014/08/22/looking-backwards-looking-forwards-sas-data-mining-and-machine-learning/

  [3]Data Science Is Multidisciplinary, http://www.oralytics.com/2012/06/data-science-is-multidisciplinary.html

  [4]Difference of Data Science, Machine Learning and Data Mining, https://www.datasciencecentral.com/profiles/blogs/difference-of-data-science-machine-learning-and-data-mining

  [5]https://en.wikipedia.org/wiki/Drew_Conway

  [6]THE DATA SCIENCE VENN DIAGRAM, http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram

  [7]Data Science in Business/Computational Social Science in Academia? http://giventhedata.blogspot.ca/2013/03/data-science-in-businesscomputational.html

  [8]http://joelgrus.com/2013/06/09/post-prism-data-science-venn-diagram/

  [9]The Data Science Puzzle, Explained, https://www.kdnuggets.com/2016/03/data-science-puzzle-explained.html

  [10]http://www.edvancer.in/machine-learning-vs-statistics/

  [11]https://imarticus.org/what-is-machine-learning-and-does-it-matter/

  [*]KDD 是 SIGKDD 简写,Special Interest Group(SIG) on Knowledge Discovery and Data Mining





收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻       数据挖掘机器学习人工智能 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款