你好,游客 登录 注册 搜索
背景:
阅读新闻

大掌门与阿里云和解:云生态系统呼之欲出

[日期:2013-05-14] 来源:CSDN  作者:郭雪梅 [字体: ]

这两周,中国云计算的圈子一直聚焦一件事情:因技术与服务问题,4月27日《大掌门》开发商玩蟹科技CEO叶凯在微博上炮轰阿里云,跟帖吐槽者不少,围观者亦多,博客园的翔实日记类记录被迅速挖了出来,甚至阿里云迁移方案也出现了数种。对此,阿里云第一时间在微博回复叶凯希望私下沟通,但未获得有效回复后,保持了“沉默”。直到阿里云总裁王坚来到北京,5月6日与叶凯见面达成和解,并“进一步深度合作”。这个事件看似不大,但在中国云计算高速成长的关键点上,意义非同一般。虽然这类事件在美国云计算市场屡见不鲜,但这次,是在国内,就在我们的圈子中。为此,CSDN云计算频道特别采访了叶凯,博客园CEO杜勇,Ucloud CEO季昕华,并在5月7日面对面专访了王坚。以此事件为因,聚合云计算典型用户和云计算服务提供商,探讨云生态系统构建的迫切和可能性之果。

前因 

叶凯:吐槽故障与服务

在美国云计算应用高潮迭起的示范下,创业企业对云计算平台的认知度和使用度达到了新层次,而暴漏的问题也更多。比如频道2月报道的《 响应高达6秒 用户揭露Heroku私自修改路由造成高支出》,Rap Genius的James Somers炮轰Heroku私自修改路由,目前集体诉讼律师已经介入;再如3月报道的《 AWS“山寨”技术伙伴创意与产品,是自我完善还是杀鸡取卵?》所谈到的AWS“山寨”技术合作伙伴产品,如Newvem(云优化企业),Zencoder(视频代码转换器),Rightscale(为AWS,Rackspace,HP Cloud提供跨平台云监控、 警报和管理服务)、Cloudyn、Cloudability等。而相对平静的国内云计算,正处在快速发展阶段,虽然零星有些信息,比如《 又是备案惹的祸?盛大云主机停机4天数据删除引开发者热议》,但并未有足够代表性。直到阿里云近日在微博做的“我与阿里云的故事”主题活动引出了叶凯,漩涡开始浮出水面。

事件回放:4月27日11:04 @叶凯Kevin:我们在阿里云上用了20多台。半年时间,出现过1次所有机器全部断电,2次多台硬盘突然只读,3次硬盘IO突然变满(给的解释是同台物理机上的其他虚拟机和我们抢资源),1次客服不通知直接重启。10次以上运维不响应,电话从没五分钟内接通过。已准备陆续迁出所有机器。

叶凯的愤怒溢于言表。而在随后事件发酵中,又有多位业内应用云计算平台的用户提出了类似的问题:比如由于网络不稳定提出赔偿方案但却不了了之的@郑瑞生,感觉客服响应确实很糟糕的@郑敦煌瞎胡搞V,遭遇RDS数据库挂了的@喳喳鸟zzbird和无法访问内网SLB的@JumpingQu,,还有博客园。几乎所有问题都集中在技术和服务两个方面。这也在记者采访叶凯时得到了印证:

“他们只是让我们改架构来适应他们的缺陷,但我们的服务正常运营其它云和IDC上。我们当然自己一直在优化自己的架构,主要是我们在其它的云平台和IDC物理机都跑的好好的,但他们从来不正视自己的缺陷,不说要解决自己的问题,只是推卸责任,产品和服务都跟不上,态度还不好,这个比较要命。而且故障出的频次太高。收购万网后,人也比较乱。过来的人也不知道是谁,也不清楚自己负责哪一块。感觉他们并不重视这块业务的发展。”

如果叶凯所说的是问题集中爆发的话,那么博客园的日志记录就更为连续和写实。

发酵 

博客园:用日志记录的问题与方案 

博客园能代表云计算应用中颇具潜力的一类用户,网站。而自从他们迁移到阿里云平台后,每一次问题其CEO杜勇都按照博客日记的方式记录了下来。其中Request.UserHostAddress记录IP地址问题,解决images.cnblogs.com响应速度慢的诡异问题,数据库写入超时的问题及解决方案,为什么memcached会堵车等等经验,对其他云端用户而言,很有参考价值。

但事实也如博客园的读者所说的,从去年底准备迁移阿里云到现在,出现的问题确实不少。在与杜勇沟通中,他们认为技术才是根本制约,服务值得肯定。

CSDN:看到你们的系列文章,很有感触。感觉最痛苦的问题是什么? 

杜勇:云服务器磁盘I/O不稳定。我们开始用的是云服务器跑数据库,当时磁盘I/O稳定时,跑得很好;后来由于磁盘IO问题引起了几次数据库服务器故障。而我们的搜索产品到现在还被云服务器磁盘I/O问题困扰。

CSDN:是什么原因造成问题频频发生? 

杜勇:对用户的实际应用场景考虑不周,比如用户占用的资源之间未进行有效隔离;对系统的稳定性重视不够。

CSDN:是否遇到服务质量差(运维不响应、电话不通)等问题?你对阿里云的服务如何看?

杜勇:没有遇到过没有响应的情况,目前最值得肯定的就是阿里云的服务,通过阿里云的服务我们感觉到的是他们在努力解决问题,不是敷衍了事。

CSDN:从托管到使用云平台,博客园最突出感受是什么? 

杜勇:拥有了可以随时扩展计算能力的自由,想加服务器就加服务器,想减服务器就减服务器,这种感觉很美妙。

CSDN:如果有机会与阿里云王坚面对面沟通,你会问什么?对阿里云的建议是什么? 

杜勇:会问:阿里云的虚拟化技术在业内究竟处于什么样的水平?
对阿里云的建议:稳定大于一切,因为云上成千上万的网站服务着成万上亿的用户;把产品做好,阿里云网站在用户体验上真的很糟糕。

CSDN:AWS,Heroku也经常出问题,国内外的区别是什么?你对整个云生态系统怎么看?对国内建设云生态系统的建议是什么? 

杜勇:只要出问题影响到了用户,国内外没区别,只能说明技术不成熟;为什么发电厂出故障不能发电,我们却可以正常用上电?我对云生态系统的理解不深,我只是觉得云服务商是关键角色。只要云服务商每天上班第一件事就是想着要像电网、自来水公司那样不出半点问题,就是云计算开始普及的时刻。

CSDN:有网友建议从阿里云迁出?是否有计划来迁出? 

杜勇:我们只会根据自己的实际使用体验进行评估。没有从阿里云迁出,是因为我们相信阿里云能解决我们遇到的问题。我们也不希望迁出,我想任何一位云平台用户的迁出都不是计划出来的,而是被逼出来的。

这显然与围观网友对技术和运维方面的分析相契合: 

@架构师Jack:公有云需要的知识除了分布式文件系统还有网络部署规划能力。“2次多台硬盘突然只读”说明阿里云的分布式文件系统在硬盘故障处理时可靠性设计还不够精细。“3次硬盘IO突然变满”说明其文件系统还缺乏足够的IO的Qos机制设计。这些都说明阿里云在存储子系统的可靠性设计/性能设计和测试能力还有待提高。 

 

@运维老周:无论云服务器说的多神,抢占资源是避免不了,基础都是虚拟化,关键看谁的监控机制,动态迁移,扩展,自动化能力做的好,以及自主管理平台是否完善。路还很长,前期会节省资金和人力,但问题绝对不会比自己托管硬件少。

 

而最实在的一句话,道出了云计算平台用户的心声,迁移,本身也困难。

建议 

迁移,是继续迁往云还是回归IDC托管? 

随着云计算服务的普及,这样的问题屡见不鲜。但无论是国外还是国内,给出的解决方案似乎只有一种,迁移。比如有网友建议叶凯迁移到UCloud、杭州网银的Linkcloud、品高、托管机房、qcloud和又拍(静态文件存储和CDN加速)上,也有网友建议还是回归传统IDC托管服务。

但后者显然声音更小。尽管目前确实相当多的企业走的是“混合云”的路线,但是一旦尝试了快速部署与灵活资源配置的云计算的“甜头”之后,愿意再次回归者寥寥无几。

而前者,作为呼声最高的迁移对象,记者对Ucloud CEO季昕华也进行了采访。他认为:

这是云计算产业的必经之路。“用户对于产品的稳定性和服务的专业性是最为关心的,因此云计算要在这方面重点加强,且需要更多底层核心研发和运维高手的贡献。我们云计算产业目前处于初级阶段,还需要大家一起努力,把行业做好做大。云计算自身也要更重视产品和技术支持,确保业务的稳定。建议CSDN可以组织一些专家介绍如何更好地使用云计算。我们UCloud会以更加稳定的产品和服务支持中国的创业团队。”

 

事实上,云计算平台的稳定性和服务能力一直饱受争议,无论是美国还是中国。比如频道近期曾报道的数篇此类文章: 

1. 2012年6月14日Amazon云服务故障分析 

2. 亚马逊、谷歌、苹果云端宕机背后的故事 

3. 风暴击倒亚马逊数据中心,舆论一边倒? 

4. AWS东部地区再次发生宕机 Netflix等网站受影响 

5. 响应高达6秒 用户揭露Heroku私自修改路由造成高支出 

但同样的,也有一些云计算典型用户在使用云计算服务的时候,开发并开源分享了十分有帮助的技术与应用。季昕华所说的“专家”,有一类就是如同AWS上如同Netflix、Instagram一样的,不仅是云用户,同样也是生态系统中重要的一环,甚至直接填补了AWS服务短板的企业。比如Netflix所开源的如Janitor Monkey(云计算管理工具),Eureka(载均衡服务)等,已帮助若干企业更好地使用AWS。

解决 

王坚:我将成为最大的客户经理,敦促提升服务质量

圈子都在观望阿里云的态度和解决办法:是私下悄悄解决,满足相关要求?是置之不理,等着时间冲淡评论?还是其他。5月7日,记者专访刚刚在GMIC 2013上演讲完的阿里云王坚。情理之中的是,(5月6日经过数小时长谈)双方已经和解,阿里云会帮助玩蟹科技提供更多服务;出人意料的是:阿里云将支持《大掌门》开发针对游戏行业的技术和服务(如同Netflix、Instagram等一样的角色),王坚将成为叶凯的客户经理,敦促团队提升服务质量。

CSDN:相信您已经知道玩蟹叶凯这件事了?是否已经解决? 

王坚:昨天(5月6日)我和叶凯和他们CTO坐在一起聊天,从下午一直聊到晚上,聊了四五个小时。我能很清楚地感觉到,这是我们不会做服务的问题。做好服务是我们的职责,需要构建起生态系统,并通过合作伙伴的引入,提供针对不同行业用户的服务。我对叶凯说,第一,要将他的系统在我们这恢复起来,成本先算我们的,等你跑稳定了,再用也可以。第二,我们一起将游戏行业做深、做好服务,我们愿意投钱给他们。第三,针对手游服务优化,继续深入合作。他都很愿意。未来,玩蟹会成为像我们的合作伙伴云络一样,来帮助客户使用阿里云计算服务。

CSDN:问题主要集中在两点,技术与服务。尤其是服务,为什么会出现这些不该发生的问题? 

王坚:叶凯和我说,半个月之前就针对问题做了反馈,但是有人信誓旦旦地说回去就解决,结果没了下文,也没有客户经理跟进,说要打的电话也没打。后来又有人来,说谈赔偿问题。结果又是不了了之。他最生气的是,不是谁对谁错的问题,而是做事不地道。当时听到这些,我的眼泪都要掉下来了。因为如果换位思考,我可能也会这么生气。看到微博后,我给负责客户服务的同事打了电话,就问了他一个问题“你是不是觉得这样的客户不讲道理?”他说:“是”。当时我就知道出问题了。因为在他心中已经做了界定,这个问题已经并非最初的问题。我没有继续问下去,而是5月3号在机场的时候给叶凯打了电话,说到北京想和他见一面。

CSDN:这算“公关危机”么? 

王坚:还真不算。在机场给叶凯打电话时,就是说我到时候来看你,道个歉,没什么别的意思。所以我下了飞机直接到他们公司见了叶凯和他们CTO,但他们讲的却让我无地自容。为什么会无地自容?他们说,对我很敬仰,这件事有点不好意思。而且他们不要赔偿方案,只是让阿里云重视一下。但是他的问题实实在在就在那里,就是我们服务没有做好,连续出了故障。这对我而言是非常好的机会(来深入了解一线的信息)。我最要反省的是,为什么之前根本不知道这些事情,而是后来通过微博才能知道。

CSDN:这与当年的彩程设计TeamCola投诉服务的事件如出一辙。那时您提出“流程上提高平台组件的产品化程度,更好实现自助服务,并明确拆分运维。使开发交付和运维维护形成背对背的关系”。这次,又准备如何来做?

王坚:以前我认为员工在服务方面做的是比较好的。但是这案例让我知道还有很多方面需要做的更好。今年最大的一件事就是将工单处理透明化,让客户可以看到工单处理流程,把握进度。现在我就在做这个系统。只有透明化,客户才能更加放心。对媒体,我们也要透明,只有透明才能真正看到事情的全方面,了解进展,解决问题。

CSDN:类似游戏这样具有典型意义的行业用户,阿里云是否会自己来设计更为优化的方案/产品/服务?这是否与所倡导的通用平台理念一致? 

王坚:是一致的。虽然很多人都误解了这一点。但是,阿里云做的是通用平台,其上会有很多方案,而针对行业的深层服务应该是合作伙伴的空间。我们不会做行业,在一些行业方面也远不如体系内的企业认识深刻。比如叶凯,他们手游和网页游戏都做,有这个经验,更适合行业服务的角色。我们这次就会从方面进行实践。而随着他们对大数据需求的出现,也许这样的合作还将更深。这也是我一直强调的,从客户中学习云计算。这并非冠冕堂皇的口号,而是实在的心得,已经成为阿里云血液的一部分。

CSDN:阿里云在服务方面的规划? 

王坚:阿里云最初规划时,原则是提供最小集合的服务,为了在规模和服务中间平衡。但是在服务起来时,发现应用少了。阿里云有很多储备,比如大数据处理,目前没有开放。因为我们想现将现有产品做稳定,建设好团队,而后在稳步发展。下面3-5个月你会发现很多质的变化,比如万网已经彻底合并进来。中国做云计算,域名备案是不可分割的一部分。万网在域名备案和运维方面很强。通过合并,我们将提供端到端,最短链条的云计算服务体验。另一方面,更好地转变服务思路,叶凯所说的没有客户经理,实际上是有的。但是客户经理并不在客服团队。这方面确实是脱节了,也造成了彼此信息不对接。我回去第一件事就是告诉他谁是他的客户经理。而在这个问题解决以前,我就是他最大的客户经理。此外还有,目前至少有3万个客户在阿里云中使用各类服务,但我们并不知道他们所应用的方向。事实上,每个客户肯定目的和所需要的服务是不同的,我们正在学习,以后也要做客户分析,改进服务质量。

CSDN:我们一直认为中国应该需要更大的云计算生态系统。这其中,Netflix或者未来玩蟹可能的发展方向都是其中一环。 

王坚:我觉得今天中国的土壤其实很好,土壤好到超出我的想象。土壤好是什么意思?举个例子,大家今天买了药,其信息都在药监局网站上可以查到,而这个网站就在阿里云上。这就是对云计算服务的信任。也许以前不能想象,但是现在很多企业已经信任云计算。另外,一家国内并不知名的小企业制作了一部动画,最高峰用了6000台云服务器。这在没有云计算平台服务的时候是无法想象的,抛开投入成本的对比不算,时间方面,如果要完成现在这样可以媲美好莱坞标准的制作,传统手段仅渲染就需要40人3年的时间,但现在只需要3个月就完成了。现在,片子已经去加州找狮子王的团队配音去了。这样的快速成长的团队,通过云计算完成了之前不能完成的事情,很让人高兴。甚至还有一些大型制造企业在找我们,希望将私有云上的系统迁移过来。我们要做的事情,就是就是实现土壤的产出。

我最痛苦的有两件事:第一是阿里云能够发开工资,如果有一天开不出工资了,那我相信员工会改变很快,包括我自己,这样服务意识的塑造会非常快。第二是客户汹涌而来,我想没有客户都做不到。这和一般企业找资金发工资,找客户维持运转完全相反。所以,最具挑战的就是在快速发展中实现服务提升。叶凯这件事教育了我,内部我们会一个个地追加这样的案例。当彩程设计事件如果没有得到及时处理,现在也许不是一个,而是许多个了。叶凯这件事也是如此。这也是我为什么每个场合都要强调“客户交给我们很多事情”。

建议

20年与9年,生态系统需要时间 

“今树以前因,报以后果。”(《南齐书》)翻开云计算历史,从2004年AWS出现,到现在,仅9年的时间。而在建造平台,研发技术之外,打造生态系统已经成为如今云计算服务提出的最响亮的口号。但企业端的商业系统的形成并不同于iOS或Android。国内的传统信息系统搭建过程中,以企业用户为核心,咨询顾问、SI/ISV、硬件/软件提供商,运营商(众多SP)还有其他特定服务提供商的闭环系统已经存在和发展了近20年(以1994年会计电算化为标注点)。而现在,开放的(公有)云计算生态系统除了云服务提供商之外,哪一环节都不完整。即使是AWS,在全力冲进利润最为丰厚的商业企业市场时,也需要不断补充技术产品,拉入大的行业合作伙伴,提升更为细致的服务水平。在这个时间点上,阿里云代表的国内云计算服务提供商所面对的有“危”也有“机”,透明、开放、协作、共赢的云生态系统也许以此为契机,呼之欲出。





收藏 推荐 打印 | 录入: | 阅读:
相关新闻