开源技术第305页-@大数据资讯

我是接着用上次已经部署好的环境，故已经有ssh以及java。没有安装这两个的朋友可以看本人关于伪分布式安装的博文。

日期：02/09/2015 13:14:24 作者：阳光技术宅

常言道：男人是视觉动物。我觉得不完全对，我的理解是范围再扩大点，不管男人女人都是视觉动物。某些场合（比如面试、初次见面等），别人没有那么多的闲暇时间听你诉说过往以塑立个关于你的完整模型。所以，第眼，先走外貌协会的路线，打量番，再通过望闻问切等各种手段获取关于你的大量信息（如谈吐、举止等），以快速建立起对于你的认识。

[查看全文]

日期：02/09/2015 11:57:21 作者：大数据小世界

Hadoop阅读笔记—— 幅图看透MapReduce机制

时至今日，已然看到第十章，似乎越是焦躁什么时候能翻完这本圣经的时候也让自己变得更加浮躁，想想后面还有半的行程没走，我觉得这样“有口无心”的学习方式是不奏效的，或者是收效甚微的。如果有幸能有大牛路过，请指教如何能以效率较高的方式学习Hadoop。

[查看全文]

日期：02/09/2015 11:54:56 作者：大数据小世界

Hadoop中HDFS读取和写入的工作原理

介绍
HDFS和HBase是Hadoop中两种主要的存储文件系统，两者适用的场景不同，HDFS适用于大文件存储，HBASE适用于大量小文件存储。本文主要讲解HDFS文件系统中客户端是如何从Hadoop集群中读取和写入数据的，也可以说是block策略。
正文
写入数据
　　当没有配置机架信息时，所有的机器hadoop都默认在同个默认的机架下，名为“/default-rack&rdqu...

[查看全文]

日期：02/04/2015 11:18:08 作者：haohaozhang

大数据解决方案:国美在线Apache Hadoop的大数据平台

明略数据为国美在线打造基于Apache Hadoop的大数据平台，通过对数据的深度挖掘、分析和整合分析，有效实现业务提升与创新。

[查看全文]

日期：02/04/2015 11:16:03 作者：·明略数据

Spark解析及基于Redis的开源分布式服务

1月24日，场基于Spark和Redis组成的分布式系统实践分享由Spark资深布道者陈超和豌豆荚资深系统架构师刘奇联手打造。

[查看全文]

日期：02/04/2015 11:14:55 作者：陈超

HBase的特征和优点

Hbase是运行在Hadoop上的NoSQL数据库，它是个分布式的和可扩展的大数据仓库，也就是说HBase能够利用HDFS的分布式处理模式，并从Hadoop的MapReduce程序模型中获益。这意味着在组商业硬件上存储许多具有数十亿行和上百万列的大表。除去Hadoop的优势，HBase本身就是十分强大的数据库，它能够融合key/value存储模式带来实时查询的能力，以及通过MapReduce进行离线处理或者...

[查看全文]

日期：02/04/2015 11:14:07 作者：lomoxy 翻译，sunbiaobiao 校稿

阿里巴巴技术专家杨晓明：基于Hadoop技术进行地理空间分析

【编者按】交通领域正产生着海量的车辆位置点数据。将这些车辆位置信息和道路进行关联的统计操作则是项颇为浩大的工作，而随着Hadoop技术的成熟和普及，使得在海量数据中进行该统计运算的工作变得相对容易了很多。本文将介绍种通过使用地理网格进行数据关联，并利用Shuffle过程的二次排序实现高效的统计各条道路上位置点分布情况的方法。

[查看全文]

日期：02/04/2015 10:54:04 作者：杨晓明

专访:大数据群雄逐鹿 Hadoop坚持开源？

【IT168 评论】出身雅虎的Hortonworks拥有许多优秀的Hadoop架构师与源代码的贡献者，它们为Apache Hadoop项目贡献了超过80%的源代码。随着各种Hadoop发行版的涌现，Hortonworks如何能枝独秀，坚持自己的开源路线呢? 本期IT名人堂嘉宾，我们在2015中国Hadoop技术峰会上，邀请到了Hortonworks的 CTO Jeff，对他进行了视频访谈。

[查看全文]

日期：02/04/2015 10:53:07 作者：

大数据计算平台Spark内核解读

Spark是起源于美国加州大学伯克利分校AMPLab的大数据计算平台，在2010年开源，目前是Apache软件基金会的高项目。随着 Spark在大数据计算领域的暂露头角，越来越多的企业开始关注和使用。

[查看全文]

日期：02/03/2015 09:41:01 作者：明略数据科学家孟嘉

Hadoop急诊室的半小时

十万火急
　　上周二，朋友公司的Hadoop集群服务不可用，从早上9点开始直持续到12点。业务方催得比较急，希望尽快恢复，至少给个可以恢复的时间点。这种心情做过线上服务运维的同学应该都能理解。特别是在没有任何思路的情况下,就只能干着急!
　　症状了解
　　朋友联系我，咨询了下具体症状为namenode启动过程中，直打印如下log：
这个情况以前也...

[查看全文]

日期：02/02/2015 11:27:18 作者：jeff

如何选择合适的hadoop版本进行学习或企业应用

目前Apache Hadoop发行版越来越多，版本更新演进很快，如何进行区分? 众多厂家都发布了自己的商业版本，企业如何选择较适合自己的解决方案?

[查看全文]

日期：02/02/2015 11:20:36 作者：杨贵妃

Hadoop4 利用VMware搭建自己的hadoop集群

前言:
前段时间自己学习如何部署伪分布式模式的hadoop环境，之前由于工作比较忙，学习的进度停滞了段时间，所以今天抽出时间把较近学习的成果和大家分享下。
本文要介绍的是如何利用VMware搭建自己的hadoop的集群。如果大家想了解伪分布式的大家以及eclipse中的hadoop编程，可以参考我之前的三篇文章。
1.在Linux环境中伪分布式部署hadoop(SSH免登陆)...

[查看全文]

日期：02/02/2015 11:18:06 作者：Sky_YiBai

Hadoop rpc服务端初始化和调用过程详解

本文主要描述了hadoop rpc服务端的初始化和调用过程，相比客户端的初始化，rpc服务端感觉会简单点，但是调用过程却比客户端复杂些。本文还是以namenode为例，namenode会在执行main方法的时候，创建个namenode实例，及完成系列的初始化过程，其中就包括了rpc的初始化过程。 rpc服务端的初始化

[查看全文]

日期：01/30/2015 10:02:18 作者：彭苏云

Hadoop阅读笔记（三）——深入MapReduce排序和单表连接

继上篇了解了使用MapReduce计算平均数以及去重后，我们再来探MapReduce在排序以及单表关联上的处理方法。

[查看全文]

日期：01/30/2015 10:00:21 作者：大数据小世界