摘要:分享hadoop研究心得。
关键词:Hadoop 研究心得
我研究Hadoop及相关技术已经有一段时日了,这个过程既是不断学习的过程,也是不断更新的过程。在这个过程中,有过兴奋,也有过彷徨。但是,依旧一直还在Hadoop研究的路上耕耘着。
我为什么要研究Hadoop呢?原因有三。
一是,今年年初,我读了一本书《大数据时代 生活、工作与思维大变革》,最大的收获是我决定在大数据时代里面做点有意义的东西,我决定从大数据丛林里面寻求“宝贝”。
二是,Hadoop是适合于大数据的分布式存储和处理的开源框架,并且以Hadoop为中心所构建的生态系统正在不断发展和完善。
三是,我具备Java语言和机器学习的基础。因而,我能够很快地进行Hadoop技术的学习和实践。
总之,在Hadoop研究过程中,我已是非常欣赏这个框架和为这个框架贡献的人们。我希望自己能够使用这个框架在大数据里创造价值。
我要学习Hadoop技术那些内容呢?俗话说,“术业有专攻”。通过各种途径确定我的Hadoop技术学习路线图。这些途径包括Hadoop官网、 Hadoop经典著作、Hadoop著名商业化公司、Hadoop工程师 职位要求、Hadoop相关技术文档和博客等。我关于Hadoop的研究主要包括四个方面。
方面一:Hadoop基础,了解Hadoop的发展历程、Hadoop的应用场景、Hadoop的操作环境构建。
方面二:Hadoop编程,研究HDFS和MapReduce工作原理,掌握MapReduce编程,探讨Hadoop程序的性能优化。
方面三:Hadoop应用,涉及到MapReduce程序的应用和Hadoop技术的综合应用。
方面四:Hadoop生态系统里的项目,研究HBase项目、Hive项目、Pig项目和Mahout项目。
我是如何研究Hadoop及相关技术呢?我是这样做的。
首先,阅读Hadoop书籍,包括《Hadoop实战》、《Hadoop权威指南》。对我而言,看书让我较快地入门Hadoop。通过阅读,就可以 搭建 好Hadoop操作环境,并且基于这个环境可以做一些实践。包括运行现成的例子、自己编写Mapreduce程序解决小问题等。
其次,阅读Hadoop官网,它是研究Hadoop技术的第一手资料,里面有着非常丰富的文档介绍Hadoop及其相关技术。
第三,善于利用搜索引擎(Google或者百度)解决Hadoop研究中的各种问题,并且注重总结和分享。
最后,不断学习、不断思考、不断实践和不断更新,关注Hadoop技术的进展,时常想想Hadoop技术如何解决大数据时代里的各种问题,并且身体力行的去尝试和解决问题。
Hadoop研究这条路很长,也很苦。但是,我既然决定了,就会一直行进于这条路上。
Resource:
1 http://www.wangluqing.com/2014/05/hadoop-research-attainment/