你好,游客 登录 注册 搜索
背景:
阅读新闻

老司机给Hadoop学习新手的一些建议

[日期:2016-10-10] 来源:极客头条  作者: [字体: ]

  上篇( Hadoop 新手学习指导之入门需知)我们介绍了新手学习 hadoop 的入门注意事项。这篇来谈谈 hadoop 核心知识学习。

Hadoop

  核心知识 学习

  分为 和 ,并且还有 生态系统。这里只能慢慢介绍了。一口也吃不成胖子。

  那么下面我们以 为例进行详细介绍:

  的核心是 和 。

  Mapreduce : 是很多人都需要迈过去的槛,它比较难以理解,我们有时候即使写出了 程序,但是还是摸不着头脑。我们都知道 是一种编程模型,那么它能干什么,对我有什么用。它的原理是什么,为什么我们编写了 函数, 函数就可以在多台机器上运行,这些问题或许都给初学者带来了困扰。

  那么我们就要了解:

  什么是 ?

  的工作原理是什么?

  的工作流程是什么?

  的编程模型是什么?

  是什么?

  是什么?

  是什麽?

  他们三者之间的关系是什么?

  的个数由谁来决定,如何计算?

  个数由谁来决定,如何计算?

  熟悉了,还有一些问题困扰着初学者,虽然有了 基础,但是我们需要搭建开发环境,该如何搭建开发环境?

  Windows 上如何使用 Eclipse 远程连接 Hadoop 并进行程序开发

  mapredcue 过程中伴随着操作 hdfs ,就像我们传统开发,编程是离不开数据库一样。 hdfs 可以理解为传统编程的数据库,但是其实他不是,真正的数据库是 hadoop data base ,也就是 hbase 。好了下面,我们开始讲如何学习 hdfs :

  HDFS 及 HDFS 架构设计?

  hdfs ?

  hive , hbase 。

  Hive hadoop )行业最好的选择入口,因为它提供了简单的类 sql 语句,使得不懂得 mapreduce 程序编写的学员也能够很轻松的进入大数据行业。所以建议大家(尤其是零基础的学员)在学习 hadoop 的过程中,可以着重加强对 hive 的学习,尤其是 hive 语句的熟练操作。当然对于有数据库基础的学员学习 hive 就更容易一些。

  Hbase nosql 数据库,只有当数据量非常大时,比如 TB 、 PB 级, hbase 才能发挥出很好的效果,所以对于致力于加入大公司的学员,可以深入学习 hbase ,尤其是 hbase 表的设计, rowkey 的设计, hbase 性能的调优, hbase 和 hive 、 impala 的结合等。

  Yarn hadoop2.x 和 hadoop1.x 明显不同的地方,所以我们还是有必要对 yarn 的原理、框架、组成部分进行详细的了解的。

  hadoop 其他的组件:比如海量日志收集工具

  mahout 、机器学习、算法等相关知识,根据学员自己的职业选择和兴趣爱好自主选择,建议零基础的学员最好是先从 hive 入手。

  Storm mapreduce 的计算框架,但作用都是对数据的处理和分析,建议初学者在学习好 mapreduce 的前提下,可以对 storm 和 spark 进行深入的学习,切记贪多嚼不烂。通而不精。

  shell 、 python 脚本语言, Redis 、 MongoDB 等 nosql 数据库,如果想做 hadoop 运维的,也可以学习 ganglia 和 nagios 等监控工具。

 

  hadoop 生态系统的工具比较多,每个工具有不同的侧重点,所以再次提醒大家切记贪多、切记浮躁、只有基础扎实了,后续的学习才会更轻松、更快速、更高效。





收藏 推荐 打印 | 录入:elainebo | 阅读: