你好,游客 登录
背景:
阅读新闻

TUP第28期:Intel 微软 Yahoo的大数据实践

[日期:2013-03-17] 来源:CSDN  作者:包研 [字体: ]

摘要:大数据正在成为改变人们生活的重要因素。从生活用水到出行,从购物习惯到流感监测,而对于许多企业而言,数据正成为在商战中取胜的决定性要素。TUP第二十八期以大数据实践为主题,邀请了来自Intel、微软和Yahoo的一线实践者,分享对大数据的见解。

【CSDN报道】TUP第二十八期在中关村软件园举行,在这里已经举行过若干次TUP活动。活动开始后,中关村软件园培训中心负责人邓延嵘进行了致辞,《程序员》杂志编辑部主任董世晓为本场活动主持。场地大约容纳200名听众,但活动的关注度还是超过了预期,工作人员在原有的基础上增加了几十个座位。

现场演讲PPT下载

图:《程序员》杂志编辑部主任 董世晓

图:中关村软件园培训中心负责人 邓延嵘

英特尔中国研究院首席工程师吴甘沙——大数据的发展脉络:见自己、见众生、见天地

吴甘沙首先分享了重要的观点,他认为:现在是做数据非常好的时候,为什么呢?

我们信息技术革命经历三次小周期,第一个是架构化、出现指令集、操作系统、编译器,是50年到70年。70年到90年就是数字化,数字化使得我们对于材料、对于信息这样一种存储和使用提升了效率。第三次周期就是网络化,网络化极大的缩短了时空的距离,同时又使得这个社会化互动成为主流。差不多二十到三十年是一个周期,现在这个时代这个时间点正好处在第四个周期的时候。

图:英特尔中国研究院首席工程师 吴甘沙

接下来,吴甘沙介绍了大数据发展脉络。他认为有三个重点的领域。第一个就是见自己,要认识自己。第二个是见众生,大数据事实上能够更好的去分析我们群体和社会行为。第三就是见天地,天地自然运行的规律,从我们的环境、从我们生命的原理,到我们知识的图谱到城市科学等等。

第一见自己。吴甘沙认为我们每个人现在都有我们的数字足迹,可能是我们在网上发了一个博客,或者是一个微博、一个微信,或者是数字废弃不经意留下的,所谓基督教凡走过必留下痕迹,这些足迹里面蕴藏着很多很多的信息。吴甘沙举了许多身边的例子,比如北大做微博的可视化、清华做了微博的关键词,通过机器学习研究用户兴趣的 Prismatic公司,能够量化在社交平台上和网络上的影响力的Klout等等。

见自己的第二种是对个人消费数据的研究。例如,美国个人消费的信用管理公司 FICO,它的CEO赤裸裸的说我知道你明天要买什么样东西。

第二见众生,如何了解群体和社会的行为。吴甘沙举了一个非常有名的例子,沃尔马的Retail link购物链效应,他们发现了啤酒和尿布的效应,他们又发现在巨峰来临的时候发现蛋挞加电筒这个组合效应并不是持续的。而后马上发现了蛋挞加啤酒的效应,而且是大捆啤酒的组合效应,这就是对群体的一种理解。

吴甘沙举了EUCLID的例子,这家公司能够帮助一家零售的店铺去了解你这个顾客的行为。他不需要在你顾客上面装任何软件,只要你的手机有WIFI,他就能检测WIFI信号,就可以进行统计,能够统计出来新的客户有多少,老的客户有多少,然后多少人看了又买了,转化率是多少。 City Sense是另外一个比较有趣的项目,它能够了解群体的一个行为,或者移动一个趋势。

吴甘沙还提到了众包。例如,谷歌去扫描了很多书,然后用OCR把这些图片转化成文字,但是有些OCR识别不出来,他就放到校验码里面,让人去输入去识别,这是众包。比如商店里面通过视频分析我不知道的有关没有人偷东西,但是我切成几秒钟发给众人去看。

第三是见天地,天地万物自然运行的规律。

接下来,吴甘沙研究好大数据的思维,首先必须客观、全面测量这个世界,其次必须得有新的分析的思维和分析的技术。

首先要多数据源进行整合,我们不能依赖于单数据源它的精确性,举一个例子比如说智能交通,智能交通非常依赖于多数据源的整合。其次,不能基于主观因果假设。吴甘沙举一个例子,这张图是美国单身这样一个统计,蓝色代表单身男性多,橙色代表单身女性多,圈越大表明这种不平衡越厉害,你在这上面有任何假设,但是每一个假设不一定成立。比如说高科技的城市单身男性多。确实是,比如说在硅谷、在洛杉矶确实单身男性多。但是事实上五大湖的区域,事实上也有很多高科技的,但是它是女性多。所以不成立。

图:Intel在hadoop生态圈的贡献

之后,吴甘沙总结了目前大数据所面临的归属权不清,侵犯个人隐私等问题。最后,他介绍了Intel在大数据方面所做的努力和实践。

微软Windows Azure微软大数据技术架构专家林墨——微软大数据应用的生命周期

林墨首先分享了一个重要的消息,Apache考虑到微软的Windows Server在全球占有率是73%左右,他会把Windows作为Apache除了Linux以外的一个支持平台。接下来他提到,现在大数据真的使BI成为非常非常重要一个商业机会。

图:微软Windows Azure微软大数据技术架构专家 林墨

林墨举例说,我们最流行的微博、Facebook还有微信这种系统,大家也能想到说怎么用这种东西来实现一个商业上的一些价值。有一些公司就开始做,分析微博上面一个情感指数和情感变化,来帮助企业判断自己企业的一个形象。比如说我有一个新产品发布,我做了很多的资产的活动,我要知道我这个活动产生了什么效果?我知道我做了活动之后我的产品的知名度是不是提高了,我产品大家对这个产品的一个正确的一个意向是不是提高了,你完全可以用在微博里面可以判断大家对你这个产品一个评价来获得一种认知。

同时,他认为传感器可以带来许多创业机会。比如耐克+在鞋上加了一个传感器,能够在运动跑步之类的数据传到社区里面。耐克+的鞋卖的比耐克所有篮球什么品牌鞋销售都非常好。

接下来,林墨分享了微软认为的大数据的生命周期。我们认为第一个就是管理,所谓的管理就是你的数据在哪里?你怎么管理数据?你怎么取得数据。第二个就是丰富,丰富包含这些数据你怎么清洗、怎么提炼、怎么挖掘。还有就是Insight就是洞察力,就是你怎么从理念获得洞察力,怎么分析这些数据,怎么取得这些数据的一个价值。

图:微软的Hadoop平台基于Hortonworks

此外,林墨还分享了去年六月份帮泰国司法部做了一个大数据的解决方案,并现场演示了微软的大数据分析工具:找到了某一时间段《饥饿者游戏》、《复仇者联盟》、《泰坦尼克号》在Twitter的讨论和电影票房之间的对应关系。

雅虎北京全球研发中心技术经理林战刚——基于Hadoop的低质流量检测

林战刚的主题是怎么用Hadoop来处理现实中真正的问题,就是广告系统中怎么处理判测低质流量(Bad Traffic)。首先,他对低质点击进行了定义:广告发布商通过机器人进行恶意点击,用户的无意识的点击,老人的操作等等。接下来,他提到了低质流量的第二个问题——发包问题,例如页面是非常垃圾的页面,这些广告根本无关,用户随便看看点了一下,流量就花了,也没有效果。

图:雅虎北京全球研发中心技术经理 林战刚

林战刚介绍了Yahoo进行低质流量过滤的具体方案,我们用了Classifier,它描述了那些是好的Traffic,哪些是Bad Traffic。我的逻辑架构分五个部分,首先是Online Part,我们做特征的计算,当然我们会有一个内部的Framework。第二部分就是流处理,这一部分直接从Streaming里找,这样非常快反馈到Model里面去。第三部分就是Offline Part,这一部分是做Model Tuning,我们必须对一些Bad Traffic进行惩罚。第四部分就是Serving部分,我们在Serving就把这个Sport来做。最后是有一些平台,就是AnalyticsWorkbench,这部分不需要非常及时的处理了。

图:Yahoo跨数据中心的Hadoop Name node的HA架构

最后,林战刚还简要介绍了Yahoo跨数据中心的Hadoop Name node的HA架构。不过,由于这部分涉及Yahoo的核心技术,他并没有做过多介绍。


图:活动现场

本次TUP活动录制了视频,错过现场活动的朋友请关注CSDN网站陆续更新的视频内容。(文/ 包研  审校/仲浩)

什么是TUP?

 

Technology 技术

 

User Experience 用户体验

 

Product 产品

 

分享产品背后的技术和用户体验故事

TUP是由全球最大的中文IT技术社区CSDN和最具影响力的IT技术期刊《程序员》发起组织的线下活动,以业界知名专家讲座和论坛形式在北京、上海等主要城市定期举行,主要针对IT产品研发相关的技术、设计、运营、运维、管理专业人士,目的是与技术界人士共同关注IT产品研发背后的成败经验,关注技术、用户体验和产品设计,信仰开放、创新、交流和社区。





收藏 推荐 打印 | 录入: | 阅读:
相关新闻