你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据,也就那么回事——一个“码农”眼中的大数据

[日期:2014-11-03] 来源:电脑上WAP网  作者:明教觉主 [字体: ]

大数据

  大数据,自从这个“高大上”的概念出现,便像病毒一样蔓延,以至于对于我们这种搞IT的人员来说,不了解这个概念似乎都不好意思承认自己是干这一行的,估计各大软件公司也都已经或者准备涉足这个领域。本人所在的公司也一样,近期一直强行推广相关的技术。不过,不清楚我们的那些大BOSS们到底是装懂呢,还是装懂呢,还是装懂呢,总感觉这种推广的方式有些偏离了大数据的实际含义。

  本人自认为一直从事着数据处理方面的工作,长期以来,工作的流程一直是:各运营商会提供各自的接口(比如FTP),从接口处取得各种类型的文件(例如 csv格式、xml格式,甚至包括二进制文件),解析文件并将所需要的信息取出后load到数据库中;入库后,有些数据会针对时间粒度或者空间粒度进行汇总处理;然后,对于本人来说就木有然后了,会有另外一批人员进行上层界面的开发,根据数据库中的原始数据或者汇总后的数据,做出一个很炫的界面以显示这些信息,并提供给客户使用。

  之所以要推广大数据相关的技术,是因为需要处理的数据量越来越大,而且以后还会有继续增大的趋势;而由于数据采集的实时性,需要对处理的效率有一定的要求(一般数据是每小时都会生成的,如果一次处理在一小时只能还无法完成,那结果可想而知)。基于这些原因,引进了大数据相关的诸如Hadoop的技术。然而,这就是唯一的区别,仅仅是将数据处理部分从原先的程序改成通过那种“高科技”的方式实现,仅有的区别就是直接得到汇总后的结果并将其导入到数据库中。处理后,相关的数据将彻底完成历史使命,并于一段时间以后“灰飞烟灭”。

  这就是传说中的大数据乎?深表怀疑,也许充其量就是数据量比较大的数据罢了。

  于是乎,在工作之余,研究了一下传说中的“大数据”,发现它确实不是这个样子的,它是一种全新的思维模式,甚至跟数据量的大小本身没有半毛钱关系。与此同时,也深深的感受到,长时间在这么一个安逸的工作环境下,自己确实已经有些out了。也许,真到了应该充充电、全面提升自己的时候了。

  不过,出于多年以来的习惯,总是有反权威的倾向,喜欢按照自己的方式理解,而不是对所有理论完全照搬;而且,总喜欢将自己的理解用一种完全另类的方式表达出来,于是,才有了下面的文字。在此声明,本作品纯属自娱自乐,如果其中的某些部分对各位有那么一丁点儿帮助,能够成为各位的非物质文化遗产,那也算功德一件;如果感觉没有任何实际的价值,那也不要浪费各位的宝贵时间,直接无视即可。当然,由于是初学者,理解上势必会有一些偏差或者不足,所以也欢迎各位能够以“就事论事”的方式进行学术上的探讨。

大数据时代

1.1 引言

  诈骗短信、广告推销短信,都是让人很闹心的;如果再被这些短信骗了一下,那估计就更闹心了。然而,如果留意一下这些短信,会发现这类短信的精确性越来越强:比如刚买完房子的,就收到了装修类的广告短信;刚有了小孩,就收到了婴儿产品的广告短信;刚到银行准备准备汇款,就收到了陌生的汇款账号……确实,随着时代的进步,骗子这个行业也在与时俱进。

  最开始的时候,这类骗子们还属于完全没有技术含量,就是单纯的随机发送,或者对某个号码段进行全覆盖发送。然而这种方式确实很不实惠,就算短信一毛钱一条,这样疯狂的发送也是很耗成本的;而且这种方式会出现将大量的信息发给空号或者废号,即使是发给正在使用的号码,如果接收方都是那些不太可能上钩或者对相应内容完全不感兴趣的,那也只能“点儿背不能怨社会”了。

  接下来,骗子们就通过买一些相关信息,从而更有针对性的发送短信。但随着社会的进步,人们也重视了个人信息的安全性,更多的相关人员也提高的职业操守,导致了相关信息的购买成本提高以至于可能达到不划算的程度,甚至有可能出多少钱都买不到相关信息。

  然而,一个好东西的出现解决了骗子们的困境,而且这个东西的构造并不复杂,只需要一部手机、一个短信发射器、一台电脑、一根天线、一个电瓶,以及一个电源转化器,将这六个并不昂贵的机器其组装到一起,就可以使用了。这个东西又一个学名,叫做“伪基站”。

  它的工作原理也很简单,就是在一定范围内,屏蔽掉所有运营商的信号,使其只能接受到这个伪基站的信号,同时搜索在这个范围内的所有手机号,通过这个伪基站的信号将短信发送到这些手机中。这样就可以用很低的成本,定点的发送诈骗或者广告推销短信。比如,在售楼处附近安装一个伪基站,用来发送装修类的广告短信,就可以基本达到他们想要的效果。只要拥有这么一个“伪基站”,就可能获得意想不到的收益,绝对的商机无限,而且该工具价格公道、童叟无欺,是居家旅行必备“神器”……

  不对呀,作为一个社会主义好公民,貌似是不应该干这种违法的事情的。确实,对于这种违法行为,确实需要严厉打击。但关键是,怎么打击呢?

  这类违法行为的最大特点是没有特点,因为可以把这个“伪基站”放在任意一个角落:出租屋、宾馆客房,甚至可以放在行进中的车里(只要车速低于一个值,这种“伪基站”依然可以正常工作)。它不像抓扒手那样,只要盯着了车站、商场这类地点就可以了,而是需要关注几乎全部的角落。

  如果加大警力,也许可以实现上面的目标(同时顺便解决一些人的就业问题),但这里还有一个更让人头疼的问题。对于扒手,不管多么有技术含量的,它都是需要在公共场所进行的,所以那些有经验的反扒**们可以直接看到扒手们工作的全过程,这样就可以将其抓个现行。然而这种利用“伪基站”的人们,是绝对不可能脑残到把这个东西安装在公共场所的,必然是安装在封闭的空间中:比如门窗都上锁并且拉上窗帘的房间中,或者车窗为黑色以至于无法从外面看到里面情形的车里。在正常情况下,除非得到准确情报,否则的话,**是没有权利进入室内或者车上进行搜查的。这种对公民自由权、隐私权的保护,反而给骗子们留下了生存的空间。

  当然,还有“除非得到准确情报”这个例外,接下来的问题就是,这个情报从何而来。至少,从骗子那里直接获取的可能性几乎没有,应该不会有哪个骗子会脑残到自己发一个类似“在哪儿安装的伪基站真好用,赚了多少前”这样的微博。

  既然这种“伪基站”是因为技术的进步而生产出来的,那么同样通过技术方式是否就解决这种问题呢?貌似还有些希望。由于在使用伪基站的时候,在相应范围内的手机会出现短暂断网的现象,如果某个区域内的大部分手机都出现这种断网的现象,并且紧接着就会收到相关的短信息,就可以认为那附近可能有人安装了伪基站。原理很简单,而且似乎也有实现的可能(毕竟这种断网导致的客户满意度的下降也是各运营商所不愿意看到的,所以运营商和警方之间是有合作意愿的),但仔细想来,这还远远不够。

  首先,由于它需要覆盖一个很大的范围,会涉及到大量的数据。即便是单单一个城市,统计在整个区域内的所有手机在所有时间点内的信息,那都不是一件容易的事情。就算是仅仅保存,也需要很大的空间;如果再加上分析处理呢,难易想象。

  其次,骗子们可不会老老实实的等着**来抓,也许我们辛辛苦苦分析出来了他们位置的时候,他们已经完成了当天的工作并将相应工具藏好了,或者换到了另外一个地方(最典型的情形就是将“伪基站”安装在车里,等确定位置再来抓捕的时候,可能已经不知道那辆车开到哪里去了,这里还没包括可能由于遇到上下班高峰期导致在路上所消耗的时间)。

  这样看来,此题似乎要无解了。

  确实,在传统的技术手段上,它是无解的。但我们现在有了一个新的思路,通过它,我们就能够解决这个问题。它的名字叫做——“大数据”。

什么是大数据

1.2 什么是大数据

  随着业务量的增加,需要处理的数据量也在增加,当然,相应服务器的处理能力也在提高。就目前而言,如果数据没有达到上万条记录,处理它所耗费的时间基本上可以忽略不计;对于处理几万条记录的情况,消耗的时间完全可以实现以秒为单位(当然,这个秒数不会很大);对于上十万数量级的情况,只要处理流程合理,分分钟解决战斗的可能性也是有的;到了上百万数量级的情况,只要处理流程足够合理、服务器足够给力,所消耗的时间也是在可以忍受的范围之内;如果是上千万数量级的情况呢,最多就是需要一些耐心,当然,前提同样是处理流程足够合理以及服务器足够给力;对于上亿条记录呢……如果还能忍受的话,这个数量级还会不断增加,直至无法处理。

  也许某些人会认为,对于那种数据量超过一定数值,以至于传统的技术无法实现的,就是传说中的“大数据”。而实际上真的是这样吗?

  数据量达到多少的才能被称为“大数据”?这似乎是个伪命题,就像“有多少根头发才不会被认为是秃子”一样,是一个没有确切答案的问题。当然,我们可以认为,头发少于100根的就算作秃子,但有101根头发的算吗,102根的呢……这个数加到多少才合适呢?这已经够纠结的了,但更重要的一点是,即使存在这么一个数,能够成为秃子和非秃子之间的分水岭,那谁会有闲工夫去数一个人到底又多少根头发,即便那个人没多少根毛儿。对于大数据也一样:首先,没有一个确切的数值或者数量级能够作为是否是大数据的分界线;其次,对于海量的数量来说,谁会闲的没事一条记录、一条记录的数。

  其实,“大数据”并不是一个确切的名称,它本身就带有一定的欺骗性。所谓的“大数据”,并不在于它的数据量大,而是在于它的数据——“全”。通过分析全部的数据找到相应的规律从而对未来进行预测,这才是大数据的主要思想。

  维克托?迈尔?舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。

  1.1.1 大数据的理念之:用全量代替样本

  1841年埃德加?爱伦?坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式 ——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。

  刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。

  举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:

  首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。

  就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽 (0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。

  综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。

  当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。

  之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。

  记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。

  由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。

  接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。

  而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。

  数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。

  中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候**课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。

  其实分析一下,道理是一样的:

  对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。

  对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。

  当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (3)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款
第 3 楼
* 匿名 发表于 2014-11-18 1:08:35
这位作者,我喜欢!!
第 2 楼
* 匿名 发表于 2014-11-6 13:59:05
我只能说:你太有才了!!!!!
第 1 楼
* 匿名 发表于 2014-11-3 19:57:05
废话太多