1.概述
今天补充篇关于Flume的博客,前面在讲解高可用的Hadoop平台的时候遗漏了这篇,本篇博客为大家讲述以下内容: Flume NG简述 单点Flume NG搭建、运行 高可用Flume NG搭建 Failover测试 截图预览 下面开始今天的博客介绍。 2.Flume NG简述 Flume NG是个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到个数据存储系统中。... 你知道世界天产生多少数据量吗? 你知道从谷歌的搜寻关键字,如何预测流感疫情的蔓延? 你知道为什么登入购物网站,发现陈列的商品都是较想买的东西?电脑知道要回答这些问题,关键就在于大数据 (Big Data)!
日期:05/04/2015 10:53:13
作者:
摘要:Hadoop是个开源的高效云计算基础架构平台,其不仅仅在云计算领域用途广泛,还可以支撑搜索引擎服务,作为搜索引擎底层的基础架构系统,同时在海量数据处理、数据挖掘、机器学习、科学计算等领域都越来越受到青睐。本文将讲述国外、国内Hadoop的主要应用现状。
Hadoop是流行的大数据并行计算体系,廉价横向扩展是它的主要特点。但Hadoop的廉价指的是硬件和软件授权成本,而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优,有时候甚至连硬件成本也不占优。
日期:04/28/2015 13:32:14
作者:
Hadoop是流行的大数据并行计算体系,廉价横向扩展是它的主要特点。但Hadoop的廉价指的是硬件和软件授权成本,而不是总体成本。在学习成本、开发成本、管理成本上Hadoop并不总是占优,有时候甚至连硬件成本也不占优。
日期:04/28/2015 13:32:14
作者:
集算报表支持的数据源类型除传统的关系型数据库外,还支持:TXT文本、Excel、JSON、HTTP、Hadoop、mongodb等。
日期:04/28/2015 13:27:49
作者:
前言
拖了5天终于看完了两篇论文,对相关数据分析平台搭建技术也有了进步的了解。对自己这几天的笔记做了个整理,既是为了方便自己以后查看,也是为以后的实际平台搭建建立依据。其实感觉还是挺苦逼的,这大过年的亲戚都坐在旁边包饺子,而我……还在为自己的拖延症买单。 本笔记主要记录以下两个方面: Hadoop MapReduce与Hive技术研究 数据分... 、背景
微博,个DAU上亿、每日发博量几千万的社交性产品,拥有庞大的数据集。如何高效得从如此规模的数据集中挖掘出有价值的信息,以增强用户粘性,提 高信息传播速度,就成了重中之重。因此,我们引入了hadoop 分布式计算平台,对用户数据和内容数据进行分析和挖掘,作为广告推荐的基础。 二、问题及解决方案 在hadoop平台上进行开发时,主要遇到了以下...
日期:04/28/2015 11:53:44
作者:
本博客采用创作共用版权协议, 要求署名、非商业用途和保持致. 转载本博客文章必须也遵循署名-非商业用途-保持致的创作共用协议.
这个 Spark Streaming 样例是怎样将近实时会话带到到Hadoop中的个很好的例子。
本博文收集和整理了在日常维护hadoop集群时运维工程师需要掌握的较基本的hadoop管理与维护的相关命令,在此分享出来供大家参考学习~博主也是刚刚接触hadoop不久,如有问题欢迎批评指正~非常感谢
IT 界在过去几年中出现了个有趣的现象。很多新的技术出现并立即拥抱了“大数据”。稍微老点的技术也会将大数据添进自己的特性,避免落大部队太远,我们看到了不同技术之间的边际的模糊化。假如你有诸如Elasticsearch或者Solr这样的搜索引擎,它们存储着JSON文档,MongoDB存着 JSON文档,或者堆JSON文档存放在个Hadoop集群的HDFS中。你可以使用这三种...
日期:04/13/2015 13:24:28
作者:
随着捕获的数据的数量每年增加,我们的存储也需要增加。很多公司正在认识到“数据为王”这道理,但是我们如何分析这些数据呢?答案就是“通过 Hadoop”。在这篇文章中,也是三部曲中的第篇,Steven Haines 对Hadoop的架构作了综述,并从定高度上演示了如何编写MapReduce应用程序。
|
Digg排行
本周热门内容
|