你好,游客 登录 注册 搜索
背景:
阅读新闻

然并卵 说好的效益和收成呢?大数据别再闹了

[日期:2015-07-24] 来源:36大数据  作者:穆文杰 [字体: ]

大数据

  大数据这两年赚足了眼球,从小众分享到众人皆知,升势比创业板还凶一些……然并卵,说好的效益和收成呢,倾注心血和金钱的企业纷纷大数粉转大数黑。既然没有基本面支撑,它也只好熊一阵子了。从闪耀登场到众人侧目,大数据算是无辜的,不过只要苦练内功,有朝一日练出马甲线,路人转粉那也是分分钟的事儿。

  我们被大数据玩坏了,抑或说大数据被我们玩坏了,回想起过去这一年与她的爱恨纠缠,真是割都割不掉。下面就讲讲我们之间的故事吧。

  国内的白皮书

  2014年初春,正值花满羊城、踏青游园的好时节,我和大数据相遇了。问度娘关于她的消息,度娘也支支吾吾说不清楚。好在计算机学会(CCF)已经发布了2013年的白皮书,背景、应用和技术的现状、产业链及生态环境、发展趋势一应俱全。五月份,工信部电信研究院也发布了一份白皮书,虽然只有30多页,但是标题观点提炼得很精彩。

  什么是大数据呢?

  大家经常用3个V来描述大数据,体量大(Volume)、速度快(Velocity)、类型多(Variety)。量大类多比较容易理解,快速是怎么回事儿呢,IBM有一则广告“1秒能做什么”,能检测出台湾铁道故障并预警,能发现德克萨斯州的电力中断避免电网瘫痪,能帮助金融公司锁定欺诈,在这些场景中大数据要求快进快出,分析的结果出来晚一丁点就没用了。

  美国的白皮书

  同在五月份,又一重磅报告出炉了,美国白宫发布了白皮书「Big data: seizing opportunities, preserving values」,浙江大学历史数据研究小组第一时间出了中文版,翻译成员大部分是2012级的浙大本科生,他们来自各个专业,在那么短时间内翻译出来,想必一定付出了很多艰辛。

  报告开题“抓住机遇,保存价值”,原以为是保存数据价值,通篇读完才知道这是美国人的思维,他们关注的是大数据利弊对美国价值观的冲击。

  白皮书源于奥巴马对情报问题的关注。顾问团队90天后提交了两份报告,一份是白皮书,另一份是「Big Data and Privacy: A Technological Perspective」。这让我想到此前去上海电力调研的收获,上海电力信息部门统管科技项目和信息化项目,他们第一年通过科技项目做可行性研究,条件具备的话第二年再上信息化项目。这种台面上一杯水台下一桶水的做法还是靠谱的。

  关于政府的职责,「公共部门的数据管理」这一章节的开篇特别精彩,像美国大片一样带劲儿。报告谈到医疗领域正在扩大数据采集范围时,提议建立统一数据标准以及合理的架构,谈到整合教育数据时,表明计划成立虚拟实验室,为进一步研究提供方法论指导。这些看起来高大上的东西,报告中娓娓道来,像在和你拉家常。

  印象最深的还是关于伤害的辩论。比如大数据可能带来不平等,连锁超市通过数据分析选择在不同区域差异定价造成价格歧视,不使用智能手机人群在打车软件面世后更难打车。比如大数据可能带来伤害,基因预测模型一旦出错则会误伤一片。再比如大数据可能对社会造成潜移默化的负面影响,过滤器泡泡(纳尼?请见文末番外篇)正在孜孜不倦的构筑意识形态和文化的隔离,使每个人都沉浸在自己感兴趣的信息当中,减少冲突体验。时间长了,人们对熟悉领域的愿望和期待增强了,却慢慢忘记了那潜伏在暗夜的,未知爪牙。

  什么是Hadoop

  话说蓦然闯入大数据的领地,扑面而来的是Hadoop。问问度娘,度娘直接拿一堆英文专有名词把人砸晕。其实没那么复杂啦,现在国际上大数据技术创新,主要因循了“自主研发-开源实现-套装产品”的路径,Hadoop就是Google自主研发技术的开源实现。

  Hadoop有很多组件,像MapReduce,HDFS,HBase,ZooKeeper等等。简单的说,HDFS负责存,MapReduce负责算。HDFS是分布式存储,它将一个文件拆成几块,每块存放在不同的地方,一般至少有三个地方存放了同一块东西,这样就有了冗余,等需要时再分别取出来,合并。MapReduce它的名字就暗含了一下一上两个过程,Map除了地图还有映射的意思。没错,就是高中数学里一一映射的映射,印象中只记得几根毛线连接了两坨东西。这里的Map就是把一个计算任务分解成多个,比如查询某个文件中关键字,刚才提到文件在Hadoop里是分块分散存的,那么Map就是去到这些分块所在的节点(即服务器),然后在众多机器中分别查找,找到的内容集中一起之后,再Reduce,即过滤、合并、排序。

  对于一根筋的理科生来说,好想知道它为什么叫Hadoop,有什么由来吗?还是见番外篇吧。

  科学研究的第四范式

  先说说前三范式吧,千年以前是经验驱动的,通过观察记录进行研究,近百年来是理论驱动的,离不开抽象的理论和模型,近几十年是计算仿真驱动的,毕业设计用的Matlab仿真就属于这一类。当前最新的是数据驱动的,又称为数据密集型的科学研究。这一次,数据不仅是食材和佳肴,更是刀和案板,科学家用数据来思考、设计和研究问题。想想啤酒尿片那个经典的案例,一堆数据进去一条漂亮的知识诞生了。那么在科研领域,一堆数据进去会不会有十分美妙的结果呢,无尽畅想啊,说不定哪天科学家通过分析地外影像数据就找到外星人啦。

  关于她的消息如雨后春笋

  因为工作的原因,一直在跟踪大数据的信息,2014年下半年某段时间,突然发现坊间多了好多内容。一方面因为加入了36大数据的集体,另一方面政府和行业专家不断抛出新鲜果子。迎着互联网+的浪潮,各地政府都很重视,自用则强身健体,提高现代化治理水平,他用则提质增效,传统行业转型需要它,培育新兴市场也需要它。而行业专家往往聚焦在某一解决方案上,有基础架构的,有分析应用的。然而,期望越大,要求越严苛。当人们都关注她时,非议也多了起来。

  国内大数据桥头堡

  如今大数据最红的地方当属贵州了,正好今年6月初作为随行人员去调研了一次,去之前很纳闷为什么大数据能在贵州搞起来呢。印象中贵州是个好吃好玩的地方,青山绿水不像是配大数据的菜啊,怎么也应该是高楼林立,节奏如梭的城市吧。

  后来发现,贵州正占了天时地利人和。

  天时,近年来中央给贵州下了硬指标,既要快速增长又不能污染环境,这对于能矿依赖的省份来说真的好难啊,粗放型经济发展被掐死了,那只好另辟蹊径,选择增长快带动效应强的产业,此时又恰逢大数据蓬勃兴起。

  地利,这一点应该是独占优势。地质结构稳定,相比同纬度气温低,空气质量好,这对建数据中心是绝好的条件。贵州借此大力宣传,吸引大家来黔建房,尤其是长江经济带上的。虽然数据中心只是大数据中的一个基础部分,但是这成了贵州很好的切入点。

  人和,政府推大数据一定要是一把手工程,因为要协调的部门太多了,触及的利益也太多了。敏尔省长此前一直在浙江任职,贵阳陈刚书记此前在北京任职7年,分管过科技,分管过中关村,领导班子都是锐意进取、开拓创新的。

  贵州大数据很有特色,抓政务应用,先做各专业系统云迁移,系统和数据物理集中后由各单位对各自数据自行定级开放,年底横向评比考核,厅长是云长都不敢懈怠,在这种倒逼机制下,有价值的政务数据就慢慢流动起来了。其他像招商引资、创业大赛、数博会、和国家部委合作、产业基金引导、云上贵州公司运作等等,贵州走出了自己的一条路,也树立了政府推动发展的标杆,然而这些举措未必适合其他地方。

  她是美女一枚 但不适合古装戏

  今年开始,不断听到人们评说大数据就是忽悠。静下来想想,从技术到产业、从政府到社会、从经济到科研,何处不见她婀娜身姿。在大洋彼岸,她已经是演技派了,不过在这里大部分时间她还是偶像派。有时不禁要想一想,我们处在什么样的水平,期望达到什么样的目标,这条路又该怎么走。诚然,在这次的大数据浪潮中,我们没有落后,甚至在一些地方处于引领位置。但是很多地方,还要一步步走,比如医疗信息化、K12教育信息化等等。

  如果说忽悠,应该不是大数据本身,理解不到位、基础不扎实都是诱因,更不用说,打着大数据的名义要钱要地的。这又如千百年佛教的经历,唐代出个家比考进士都费劲,宋代没点慧根也别想参禅悟道,而到了明代,买卖度牒成了政府特权,渐渐地人们对佛教的认识也变化了。历史踩着相同的韵脚。或许我们在说大数据没用的时候,应该仔细想想错过了什么。

  我老了 她依然年轻

  以前和朋友开玩笑说,大数据这碗饭我吃完留给儿子吃,儿子吃完还能留给孙子吃。人类的存在正在不断数字化,未来关于数据的故事有太多空间可以遐想了。数十年后,她或许不再叫这个名字,但是我相信,她依然年轻。

  番外篇:

  1、过滤器泡泡,filter bubble,一种预测引擎,根据用户兴趣,呈现出过滤后的搜索结果。

  2、Hadoop名字的由来,它的作者Doug Cutting希望给它个“简短,容易发声和拼写,不会被乱用”的名字,这位老爹还认为小孩子是起名字的高手,于是乎,Hadoop就以他孩子给棕黄色玩具大象起的名字来命名了。难怪Hadoop的标志是只可爱的大象。

  End.





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (1)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款