你好,游客 登录 注册 搜索
背景:
阅读新闻

利用大数据解决大城市中的大挑战

[日期:2014-04-21] 来源:企业网  作者: [字体: ]

  北大国家发展研究院20周年暨BiMBA15周年庆典于2014年4月16-21日北京举办。和讯网全程报道。微软亚洲研究院主管研究员郑宇在19日的“大数据与互联网金融”分论坛上表示,城市变得越来越繁华,但是也带来了很多问题,交通拥堵,以及污染。要注意这些问题在很多年前几乎是不可能的,因为城市的设置太复杂了,牵一发而动全身。但是现在随着传感器技术的发展,和大规模的计算环境的成熟,我们又有了很多的大数据,比如从社交媒体到交通流量,从人的移动性到地理,从空气质量到我们的环境,如果使用得当的话,如果把这些数据进行很好的分析,我们可以利用这些数据发现问题,解决问题。

  以下为文字实录:

  郑宇:非常感谢国发院给我这个机会,让大家跟我们分享一下利用大数据在城市里做的研究个应用产品。

  我们这个城市变得越来越繁华,但是也带来了很多问题,交通拥堵,以及污染。要注意这些问题在很多年前几乎是不可能的,因为城市的设置太复杂了,牵一发而动全身。但是现在随着传感器技术的发展,和大规模的计算环境的成熟,我们又有了很多的大数据,比如从社交媒体到交通流量,从人的移动性到地理,从空气质量到我们的环境,如果使用得当的话,如果把这些数据进行很好的分析,我们可以利用这些数据发现问题,解决问题。

  基于这个场景,我们做了一个城市计算的框架和愿景,它包括四个环节。第一,城市感知。二,城市管理,三,城市数据的分析和挖掘,四,服务提供。我们最后达到一个城市、人和环境三盈的局面。我们用大数据解决大城市中的大挑战。

  这是一个多数据,它的数据种类非常多,任务也很多,可以是改进城市规划,也可以缓解交通拥堵,在一个任务中我们要同时用到多个数据。我们要改善我们的城市规划,我们既要看道路结构,也要看流量,这要求我们对数据要进行整合分析。

  城市里面有哪些大数据?第一,红色的是高速公路,蓝色的是房子,如果有这样的数据连续多年的累计,我们知道这个城市是朝哪个方向发展。

  第二兴趣点数据。这个图显示的是北京市酒吧和电影的图,黄点是电影院,蓝点是酒吧。里面已经有上万个了。如何有多连接的数据,我们知道城市里面的有些商业在衰亡,有些商业在发展,商业模式在变化。北京市电影院的数目在过去五年里面持续增加,现在是260家,越来越多人愿意去电影院看电影。

  空气质量图,现在中国政府多么关心空气质量,美国政府也很关心空气质量。   气象数据,气温、气压、湿度,这些数据跟我们空气质量是相关的。

  这个是社交服务,人到底吃饭和出去玩儿的时候会标注什么时间在什么地方,他们其实是大规模移动的。

  最后这个图是北京市3问辆出租车三个月GPS所记的热度,越亮的是密度越高,3个月的数据加在一起,距离是从地球到太阳距离的3倍,这只是三个月的数据。而且我们还要说我们不只有一组数据,我们可以用它来表达这个城市里面的人在城市里是怎样的移动。

  我们可以做一个热度的分析,这两个图是北京在工作日和节假日到达区域人数的数据,东部地区,国贸附近人是比较多的,我们对比两个图,同一个区域的看看,工作日大家来市里的概率远远高于节假日,这非常容易理解,节假日大家都外出了。

  我们从早年间开始基于大规模出租车的行车路线设计,到利用人的出行数据来发现我们交通路网中设计不合理,或者是不符合需求的设计环境,把它们找出来,建议给我们城市规划局,以后作为改进目标。

  2013年有一个关于大规模的出租车的时时动态打车。第二是关于空气质量,第三是时时感知我们城市的友好(音)。

  我们先讲一下空气质量,这不是中国的问题,它是一个全球的问题。现在很多城市都建了一些空气质量监测站,每个小时都会发布一些数据,告诉大家这个地方空气质量是多少。但是非常不幸的是,我们的站点数目是非常有限的,六环以内22个站点已经是全国最多了,这个站点非常贵,不光要花钱,还要占地,但是非常不幸的是,一个城市里面空气质量是不均匀的。这里面每一个图表表示是一个政府建的站点,越大越不小,越小越好。绿的是非常好的,紫的,黑红色是非常差的。同一时刻这22个站点会差得非常多,因为它受到很多复杂因素的影响,包括交通流量,空气的扩散条件,以及气象状况。这些因素在城市里面分布是怎么样,并且随着时间的变化也是不一样的。

  这是2月份的时候北京市空气质量有一天从500到50,在一个晚上,因为下雨了。它并不是在同一时间所有的空气质量都变成了50,每个地方变化也是不一样的。这就是变化的挑战。

  如果我们有的地方没有站点,他的空气质量是多少我们并不知道,不能用一个平均读数来代表整体,也不能通过简单的差值来算出空气质量。这个问题非常大了。

  我们利用两方面的大数据,来做时时的细密度的空气质量更新。第一是基于历史和时时的空气质量数据来进行。另外一个是其他数据,包括气象,天气下雨,还有湿度,气压,气温等等。第二交通流量数据。兴趣点数据,这里有多少公园,密度是多少。最后是道路结构数据,有多少红绿灯,多少高速公路。结合这些数据我们就可以把细密度的空气质量质量数据拿出来。经过计算之后我们可以看到,整个城市里面每个角落的空气质量就算出来了。我们可以知道,比如说什么时候该关开窗户,什么时候该关窗户,去哪里跑步,线路是什么样的。政府部门更加需要这个信息。我们要治理,我们首先要知道什么地方不好,我们现在的工作正在和环保局合作。第二步我们还要做因果分析,包括预测。这个服务已经上线了。

  它是一个云加端的,时时的分析,把空气质量的信息提供给大家,大家可以通过手机客户端,或者通过网页查看这个空气质量的情况。

  大家会问你做的准不准?我们在9个城市的数据站点做了验证,我们可以把已有站点的数据拿掉,用我们的方法来预测这个地方的空气质量,然后和这个站点目前来校验。我们敢于把过去两天的时时记录公布在网站,大家可以看看,这个精度是80%几,这个概念是什么,传统的基于空气动力学模型的污染物扩散模型,只能做到0.6,现在用大数据的方法来做,看似很多弱相关的数据放在一起,能达到20%的提升。所以环保部门对这个工作非常的重视。

  我们看第二个例子,人的兴趣点数据来分析这个城市里面不同功能区域的分布和它的核心区域所在。我们看这些东西,这个是用两部分数据做出来的结果,哪里是我们的商业区,哪里是住宅区。一个地方区域的功能它不是单一的,比如说北大,它主要功能是学校,周边也有公司,只能说这个区域70%是教学,20%是公司企业,还有10%是住宅。

  我们要知道某一种区域的核心区域所在,比如黑色的,就反应了北京市成熟商业区的核心区域覆盖,这是一个动态的,趋于人的变化。

  这个工作有什么用呢?第一,我们用它来校验城市规划,这个城市变化了的可能不一样,有很多原因,可能以前做得规划不合理,有人提出一些新的驱动,可能我们政策变了,我们很需要再做下一个版本规划的时候,我们要知道我们需要什么。这是很重要的应用,帮助我们城市规划的人来做决策。

  还有一点就是商业传承,如果我开一个超市,我要知道它离我居民住宅区的居民,我开电影院要知道周边的分布,选址还有价值。

  我们为什么要用两种数据?单单只有一种数据是不能完全反应地貌的。这两个餐馆在数据库里都是表示是中餐馆,反应的地域地貌是完全不一样的。一个是住宅区,一个是商业区,它代表的意义是完全不同的。另外人的移动性也反应了区域的功能。如果这两个数据我们就能发现城市里的功能区化在不断的变化。

  我们把这个区看成一篇文章,就相当于这个区域的功能,相当于一个文章里的词语,每个区域都有不同功能的分布。我们可以把过去两年的数据拿来做出结果来对比,看看变化是不是真的有意义。第一个例子,区域A在2010年的时候浅黄色区域是新兴住宅区,到2011年银灰色是在建设区。B区是前门大街,2010年的时候还是一个偏向于公园的范围,但是2011年的时候变成黑色的成熟商业区。在奥运会的时候,这个区域基本上重建了,所以现在已经是一个成熟商业区。

  这个图是望京的图,这是一个住宅区,但是紫色的区域是新兴商业区,我们要让人们知道这已经变化了,你要考虑这个因素。这就是它的价值。

  第三个问题,关于能耗,有谁能告诉我在北京市刚刚过去的一个小时里面有多少汽油被汽车加掉?谁能告诉我在周边的3公里范围内哪个加油站排队时间最少?我们用装有GPS传感器的出租车做移动传感器,去感知他们在加油站的等待时间,用这个等待时间估计排队长度,就知道多少人在排队,每个人加多少油,加油量是怎样分布的。你如果能把每个加油站的速度进行分析的话,就可以得到整个城市的情况。我们不能保证每个加油站在每个时间点里都有出租车司机在加油,这个做不到的,这个数据是很稀疏的,所以一定要有一些算法把数据吸收进去去消除。

  两方面用,以前推荐加油站的时候,我们都是做的最近加油站的选择,最近的加油站可能排队,远一点可能不排队。我们知道我这个区域最是排队,人很多,说明它不够,要考虑建新的加油站。有的区域加油站过度建设,根本就没人去加油,大量的浪费。

  这两张图也是真实的结果,在早上8点钟早高峰的时候,在北京加油站有多少人加油,大概接近6万人,平均的花消是12分钟,到夜里8点钟的时候,每个人花的时间是6分钟左右。

  我们看看结果,我们并不是估计出租车多少,我们是用出租车做移动传感器,感觉城市的能耗。出租车去得多的地方,并不以为着其他车多,反过来根据出租车的车来判断是有区别的,通过对600多加油站分析,我们可以知道这个城市里面每个加油站有多少人加油,加油的量是多少。一个城市里面大概有一百多个公司在不同的运营。第二,他们即便知道总加油站是多少,他们不知道时时,他们更不知道用户花了多长时间加这点油。时间确实很重要,反映了人员设施是不是优化,布局是不是合理。

  我们讲城市计算很好,我们的方法是三个M,数据管理,数据挖掘。谢谢大家!





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款