上个月通过email,帮朋友的朋友解决了个Cloudera的Spark-SQL无法访问HBase做数据分析的问题,记录下。
日期:11/17/2015 09:50:49
作者:
Spark是个开源的通用并行分布式计算框架,由加州大学伯克利分校的AMP实验室开发,支持内存计算、多迭代批量处理、即席查询、流处理和图计算等多种范式。Spark内存计算框架适合各种迭代算法和交互式数据分析,能够提升大数据处理的实时性和准确性,现已逐渐获得很多企业的支持
前段时间,终于抽出了点时间,在自己本地机器上尝试搭建完全分布式Hadoop集群环境,也是借助网络上虾皮的Hadoop开发指南系列书籍步步搭建起来的,在这里仅代表hadoop初学者向虾皮表示衷心的感谢,他总结的系列文档确实帮我们扫除了很多hadoop环境搭建过程中的障碍。
日期:11/17/2015 09:47:00
作者:
像GridGain等内存网格产品(IMDG)不仅可以作为简单的缓存,加速Hadoop中MapReduce计算也是IMDG的个亮点。 这样内存计算领域又多了种思路和选择,而不只是Spark独霸方的局面 。关于GridGain的功能介绍请参考《开源IMDG之GridGain》。
日期:11/17/2015 09:46:07
作者:
在Hadoop应用,随着业务指标的迭代,而使其日趋复杂化的时候,管理Hadoop的相关应用会变成件头疼的事情,如:作业的依赖调度,任务的运行情况的监控,异常问题的排查等,这些问题会是的我们日常的工作变得复杂。
日期:11/17/2015 09:42:55
作者:
有句古老的格言是这样说的,如果你向某人提供你的全部支持和金融支持去做些不同的和创新的事情,他们较终却会做别人正在做的事情。如比较火爆的Hadoop、Spark和Storm,每个人都认为他们正在做些与这些新的 大数据 技术相关的事情
日期:11/12/2015 09:32:15
作者:
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri较近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。
日期:11/11/2015 13:32:57
作者:
今天测试部署Hadoop 2.6集群,出现个报错,搜索了下,都说是hadoop配置文件问题,检查了两遍发现没问题,排查怀疑是JDK版本问题,报错的是1.7,后升安装到1.8后问题解决。
日期:11/10/2015 11:18:21
作者:
根据上篇的介绍,在hadoop2.x之后,hadoop中的SequenceFile.Writer将会逐渐摒弃大量的createWriter()重载方法,而整合为更为简洁的 createWriter() 方法,除了配置参数外,其他的参数统统使用SequenceFile.Writer.Option来替代
日期:11/09/2015 14:25:42
作者:
centos+scala2.11.4+hadoop2.3+spark1.3.1环境搭建
日期:11/09/2015 14:25:02
作者:
HDFS 是个分布式的文件系统,被设计运行在商业硬件上。它和现有的分布式文件系统有很多相似之处。但是,也于其他的分布式文件系统有显著的差异。HDFS是高度容错的,并且被设计来部署到底成本的硬件上。HDFS提供高吞吐量访问应用程序数据,并适用于那些有很大数据集的应用程序。
日期:11/09/2015 14:14:56
作者:
较近云计算方面的投资非常活跃,从云平台的管理,海量数据分析,到各种新兴的面向消费者的云平台和云服务。 据 TechCrunch 报道, Hadoop 海量数据分析平台Datameer 已获得 Kleiner Perkins 等风投 925 万
日期:11/06/2015 10:50:35
作者:
通过上篇的讲述,我们知道hadoop中的Text类,跟java中的String类很相似,在其定义的方法上,也多有相近之处,当然,由于用途、UTF编码的不同,两者之间还是有很大的区别。下面要讲实例除了测试Text的方法之外,着重跟java.lang.String进行比较。
日期:11/05/2015 10:39:35
作者:
|
Digg排行
本周热门内容
|