你好,游客 登录
背景:
阅读新闻

专访童小军:Hadoop是未来大数据的标准

[日期:2013-09-17] 来源:IT168  作者: [字体: ]

  2013年11月22-23日,作为国内唯一专注于hadoop技术与应用分享的大规模行业盛会,2013 Hadoop中国技术峰会(China Hadoop Summit 2013)将于北京福朋喜来登集团酒店隆重举行。届时,来自国内外各行业领域的近千名CIO、CTO、架构师、IT经理、咨询顾问、工程师、Hadoop技术爱好者,以及从事Hadoop研究与推广的IT厂商和技术专家将共襄盛举。

  Haoop中国技术峰会由China Hadoop Summit专家委员会主办,由IT168、ITPUB、ChinaUnix协办,渠达传媒负责承办。本届大会将秉承“效能、应用、创新”为主题,旨在通过开放、广泛的分享和交流,着力于促进中国企业用户提高应用Hadoop的能力和水平,降低Hadoop技术应用门槛和投资预算门槛,推广大数据的应用价值。

    在2013 Hadoop中国技术峰会即将召开之际,记者采访到大会专家委员会成员——Hadoop大数据红象(RedHadoop)云腾公司创始人童小军。他是EasyHadoop开源社区创立者、Hadoop云计算讲师,专注于Hadoop大数据技术的普及和推广工作,致力于让Hadoop大数据应用更简单。在采访中,他向记者介绍了自己与Hadoop的故事,以及Hadoop的现状与未来。

  与Hadoop的不解之缘

  从初识、初用Hadoop到EasyHadoop,再到RedHadoop,童小军与Hadoop结下了不解之缘。最初,作为技术爱好者,童小军开始关注Google的三篇论文(GFS、BigTable、MapReduce),并在随后的博客搜索引擎和自动分类的核心开发工作中用到Lucene类库,它与Hadoop出自同一位作者——Doug Cutting。

  在暴风影音做搜索引擎工作时,童小军获得从零开始做Hadoop的机会。在启动Hadoop计划之前,他与同事们尝试了好几种数据仓库方案都没有成功,最终铤而走险决定上Hadoop。通过对淘宝数据平台架构的调研,项目核心成员逐步设计出CronHub调度器、ComEtl数据分析、FriDay报表平台、phpHiveAdmin平台等,并将数据原有平台迁移至新平台。

  为了让其他人少走弯路,童小军注册了easyHadoop.com域名,把自动部署脚本开放给网友下载,使很多人获得了帮助。EasyHadoop社区在朋友们的帮助下越做越大,到目前为止共举办过9次技术聚会活动,单个群有2000人左右。

  今年5月,童小军成立了RedHadoop公司,组建第一批开发团队。经过几个月的努力,公司发布了RedHadoop Enterprise Edition 1版本,并在后续会推出针对个人学习使用的RedHadoop Personal Edition,让更多人能学会和用上Hadoop是RedHadoop一直追求和为之努力的事情。

  与Hadoop的缘分,童小军总结到:“总体来说走了不少弯路,但最终殊途同归了,一句话:做事得有坚持到底、乐于探索、敢于冒险和乐于分享的心态,不断总结和优化,并将自己了解到的分享给更多人。用心培养一个开放的研发团队,发现每个人的独特价值,让每个人发出自己的光和热。给自己机会,也多给别人创造机会。”

  Hadoop是未来大数据的标准

  谈到Hadoop的应用,童小军认为Hadoop从互联网应用发展而来,已经在互联网公司得到大规模应用。比如在百度有上万个节点集群,在淘宝有几千个节点存储几十个P的集群。目前,Hadoop在非互联网行业也开始了探索和使用,主要用于补充原有IOE平台处理海量日志的问题,用于数据仓库平台构建。其中电信领域已经比较成熟,在交通、电力等领域正在跟进,在技术选型上比较保守的银行业也在用Hadoop做备份,只是在总体商业模式上并无突破。

  Hadoop平台如果要在非互联网行业得到大规模应用,在数据安全性和易用性上还有待改进,需要提供更多类似SQL的易用查询接口。在Hadoop 2.0出来后,希望Hive 2.0也能平台化发展,支持更多存储引擎,一个平台化的Hive会带来更多惊喜。童小军认为Hadoop是未来大数据的标准,已发展成分布式的操作系统平台。

  ▲Hadoop大数据红象(RedHadoop)云腾公司创始人 童小军

  对于Hadoop初学者,童小军建议要多实践、多分享,一定要热情和勇敢。Hadoop 有一个U型学习曲线,刚开始很难,如Hadoop安装、部署、调试和测试阶段。Hadoop需要多个组件配合,每个组件都有依赖,判断是否成功不容易。当度过难关进入试用期间就简单了,普通SQL、脚本、MapReduce 就能应对一些统计工作。当集群规模变大,集群平台化发展,深入到机器学习和各行各业深度定制,难度又增加了。其中最大的感触是要敢于尝试,敢于把系统部署上线。

  作为这次大会内容的组织方之一,童小军希望这次大会能更深入到行业中,提供整个行业技术发展的同时,能挖掘更多行业的案例,树立更多行业成功运用Hadoop的典型。期待这次大会Hortonworks Jeff 带来的Hadoop2.0热潮,Hadoop爱好者更多的参与其中。

  据悉,Hadoop中国技术峰会2013是国内基于Hadoop平台的第一次全产业链的大数据行业技术峰会,大会将围绕Hadoop生态系统展开全方位的技术分享、专题讨论与成果展示。大会议题将涉及以下七大方面:Hadoop技术创新、Hadoop基础架构部署与优化、虚拟化与Hadoop、Hadoop在互联网领域的应用、Hadoop在非互联网行业的应用、Hadoop与企业现有IT架构的整合、大数据创业与投资。

  更多精彩尽在2013年11月22~23日的Hadoop中国技术峰会(China Hadoop Summit 2013),北京永泰福朋喜来登酒店。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款