Hadoop 第84页-@大数据资讯

上个月通过email，帮朋友的朋友解决了个Cloudera的Spark-SQL无法访问HBase做数据分析的问题，记录下。

日期：11/17/2015 09:50:49 作者：

　　Spark是个开源的通用并行分布式计算框架，由加州大学伯克利分校的AMP实验室开发，支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析，能够提升大数据处理的实时性和准确性，现已逐渐获得很多企业的支持

[查看全文]

日期：11/17/2015 09:49:26 作者：李社河

Hadoop有效分布式搭建过程中遇到的问题小结

　　前段时间，终于抽出了点时间，在自己本地机器上尝试搭建完全分布式Hadoop集群环境，也是借助网络上虾皮的Hadoop开发指南系列书籍步步搭建起来的，在这里仅代表hadoop初学者向虾皮表示衷心的感谢，他总结的系列文档确实帮我们扫除了很多hadoop环境搭建过程中的障碍。

[查看全文]

日期：11/17/2015 09:47:00 作者：

Hadoop加速器GridGain

　　像GridGain等内存网格产品(IMDG)不仅可以作为简单的缓存，加速Hadoop中MapReduce计算也是IMDG的个亮点。这样内存计算领域又多了种思路和选择，而不只是Spark独霸方的局面。关于GridGain的功能介绍请参考《开源IMDG之GridGain》。

[查看全文]

日期：11/17/2015 09:46:07 作者：

Hadoop - 任务调度系统比较

　　在Hadoop应用，随着业务指标的迭代，而使其日趋复杂化的时候，管理Hadoop的相关应用会变成件头疼的事情，如：作业的依赖调度，任务的运行情况的监控，异常问题的排查等，这些问题会是的我们日常的工作变得复杂。

[查看全文]

日期：11/17/2015 09:42:55 作者：

7种较常见的Hadoop和Spark项目

　　有句古老的格言是这样说的，如果你向某人提供你的全部支持和金融支持去做些不同的和创新的事情，他们较终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm，每个人都认为他们正在做些与这些新的大数据技术相关的事情

[查看全文]

日期：11/12/2015 09:32:15 作者：

60款Hadoop和大数据的高开源工具

　　说到处理大数据的工具，普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri较近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的份报告预测，到2011年，Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年，市场产值会超过10亿美元。

[查看全文]

日期：11/11/2015 13:32:57 作者：

Hadoop 安装教程

[查看全文]

日期：11/10/2015 11:19:12 作者：

（总结）Hadoop 2.6报错解决：Could not find the main class:

　　今天测试部署Hadoop 2.6集群，出现个报错，搜索了下，都说是hadoop配置文件问题，检查了两遍发现没问题，排查怀疑是JDK版本问题，报错的是1.7，后升安装到1.8后问题解决。

[查看全文]

日期：11/10/2015 11:18:21 作者：

[hadoop2.7.1]I/O之SequenceFile较新API编程实例（写入）

　　根据上篇的介绍，在hadoop2.x之后，hadoop中的SequenceFile.Writer将会逐渐摒弃大量的createWriter()重载方法，而整合为更为简洁的 createWriter() 方法，除了配置参数外，其他的参数统统使用SequenceFile.Writer.Option来替代

[查看全文]

日期：11/09/2015 14:25:42 作者：

centos+scala2.11.4+hadoop2.3+spark1.3.1环境搭建

[查看全文]

日期：11/09/2015 14:25:02 作者：

【dbdao Hadoop 大数据学习】Hadoop Architecture 架构

　　HDFS 是个分布式的文件系统，被设计运行在商业硬件上。它和现有的分布式文件系统有很多相似之处。但是，也于其他的分布式文件系统有显著的差异。HDFS是高度容错的，并且被设计来部署到底成本的硬件上。HDFS提供高吞吐量访问应用程序数据，并适用于那些有很大数据集的应用程序。

[查看全文]

日期：11/09/2015 14:14:56 作者：