你好,游客 登录 注册 搜索
背景:
阅读新闻

看大牛们说大数据–-《海量数据分析前沿》读后感

[日期:2015-07-15] 来源:科技博客  作者:唐常杰 [字体: ]

  一本姗姗来迟但未过时的好书 两个月前(2015年5月),清华大学出版社出版了由华东师大周傲英教授及其团队翻译的《海量数据分析前沿》. ( Frontiers in Massive Data analysis),此书由美国国家学术院研究委员会组编,2013年年底出版。中译本出晚了一点,但值得一读。

  “大数据“已由热词升级为熟词 “Big Data” 在2012年成为美国社会中仅次于 "fiscal cliff(财政悬崖)"的第二热词; 在中国的升温来得晚一些,2014年在中国的网络热词中,名列第三,前两名是 “改革”和”并购”(可见,政治、经济之后才是技术)。

  到2015年,大数据一词不只是由温而热,而是由热而“熟”,成了人们熟练使用,用来分析其他热词的工具词。例如,人们见到了如下的文章 《“大数据分析两会热词:’四个全面’,’互联网+”》,《大数据说春运》,《大数据和….> 。

  近两年,在数据处理圈子内外,过去做数据的,和过去不做数据的,都言必称大数据,以至于有人担心,已经够热了,再加热就煮烂(滥)了。

  在鱼龙混杂的时候,人们要问,这一领域的大牛们是怎样说大数据的?

  信息时代选书看作者 我和我的同学这一代,经历过信息饥渴的年代,那时候八亿人看八个样板戏,年轻人渴书,朋友交流最好方式就是借书,说书,甚至抄书(参见博文《看蜀韵、闻书香、遥想当年手抄本-- 书博会有感(图&文) 。

  如今,海量信息时代,人们发愁的不再是找不到书,而是如何从书山文海中挑选适读材料。正如选影视时看导演、编剧和演员,选书的方法之一,是选作者群,选出版社。

  《海量数据分析前沿》一书的作者群和编审群有多牛? 留一点悬念,也给一点线索:七十多位国际顶级专家参加了对此书撰写和编审工作,他们来自 UC 伯克利,卡内基梅隆,耶鲁大学,密西根大学斯坦福大学,MIT,谷歌,美国喷气推进实验室,国防分析研究所,….

  读者在书中,会看到三页篇幅列出的名单,是对此书撰写、编审做出贡献的三个委员会(海量数据分析委员会、应用和理论统计委员会,数学科学应用委员会)的人员名单。有人说,学术新兵要进入一个领域,就要知道这个领域的牛人,这算是阅读的附加收获吧。

  大数据和海量数据的关系:前些年,海量数据一词是数据处理领域常说常听的词汇,如今人们,都说大数据了,虽然深者见深,浅者见浅,都更时髦了,大数据和海量数据两个概念到底有什么关系?

  此书译者序中有一句话,“按这本书的观点,大数据的本质是海量数据分析“。

  笔者想把把这句话进一步展开,“大数据”是比海量数据更广义的概念,大数据中包括两部分,(1)对象部分-海量数据是被处理的对象;(2)工具部分--分析处理海量数据的工具,方法,算法和过程。

  用面向对象编程作比喻 为不落俗套地把大数据与海量数据的关系理清,同时介绍此书的主要章节的内容,杜撰了一个面向对象编程中的对象例子。

  面向对象编程是计算机专业大一学生的必修课,近两年,在成都中学生科技竞赛上,笔者见到,一些中学生,也能熟练运用JAVA,C++,写出很有创意的移动应用,有iPhone的,也有安卓的。这些创明的中学生不但能写程序,还能谈思想,经得起诘难,通得过答辩,说明面向对象编程技术和关联已经比较普及,不算高深科技了。

  面向对象编程中的对象有两个基本要素:

  (1) 成员属性(以智能汽车为例, 品牌,动力类型,功率,缸容,缸容,时速,…..是成员属性)

  (2) 成员方法(以智能汽车为例, 启动,制动,转弯,后退,换挡,...,是成员方法或成员函数,它们有行为的内涵或动作的外延,能改变对象状态,编程中,通过函数或过程调用实现)。

  当然还有一些特性,如封装,继承和重载。

  下面是杜撰的一个抽象对象BigData: 其中,按编程惯例,在双反斜杠符号//后面的是注释。

  BigData //大数据

  { //成员属性部分:

  海量数据源 ; //见该书第2章 海量数据来源

  海量数据特征; //见该书第3章 大、多、快、疏等4个V的数据

  大数据表示; //见该书第5章

  ……

  //第二部分,成员函数,处理大数据的方法,算法,函数,过程

  建模 (频率学,贝叶斯,无监督学习,可视化,众包) //见该书第7章

  采样;/见该书/第8章

  七个计算巨人(统计,N-提问题,图论计算,

  线性代数,优化,积分,对齐等) //见该书第10章

  …….

  }

  相信读完该书,大多数读者会觉得中译本看起来还是要快一些,成本(包括时间和经费)都低一些。

  还是有一点遗憾 由于各种原因,中译本在两个月前才出版,比期待时间晚了一年多,不能说不是遗憾。

  计算机科学的知识,日新月异。一年,在计算机界能发生什么事?很可能,芯片性能增加50%以上,数据量增加50%以上,一年前的计算冠军(算法或硬件),可能已经落出前三。

  幸好,这是一本说原则,说思想,说框架的书,高屋建瓴,反而不容易过时。

  读完之后,如果觉得从牛人们那里学到了一招两招,祝贺你开卷有益 ;

  如果你发现你的见解已经超过、或部分超过了这本书,恭喜你,你的水平至多比牛人们晚一年,或者,已经站在了大数据研究前沿。

  总之,正如译者序中所说,这本书,来迟到了 ,还没有过时,值得一读。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (1)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款