你好,游客 登录
rss订阅 手机访问 
Hadoop
Eclipse远程提交hadoop集群任务
1 前言
  Hadoop高可用品台搭建完备后,参见《Hadoop高可用平台搭建》,下步是在集群上跑任务,本文主要讲述Eclipse远程提交hadoop集群任务。 2 Eclipse查看远程hadoop集群文件 2.1 编译hadoop eclipse 插件
  Hadoop集群文件查看可以通过webUI或hadoop Cmd,为了在Eclipse上方便增删改查集群文件,我们需要编译hadoop eclipse 插件,步骤如下:
  ...
日期:08/14/2015 14:17:49 作者:Riordon
Hadoop和大数据:60款高 开源工具
说到处理大数据的工具,普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri较近预测,在接下来几年,“100%的大公司”会采用Hadoop。Market Research的份报告预测,到2011年,Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年,市场产值会超过10亿美元。IBM更是非常看好开源大数据工具,派出了3500名研究人...
日期:08/10/2015 15:47:09 作者:布加迪编译
Hadoop安装配置及问题总结
学习了下慕课网上的hadoop教程,看着很简单,但是做起来碰到的问题确实不少。搞了个下午,总算是搞定了,本博文主要记录下我在配置hadoop过程碰到的些问题。对于hadoop的鼎鼎大名,想必大家都略知二,我也是入个门,嘎嘎!
日期:08/06/2015 16:38:27 作者:@EddieYuan
hadoop权威指南中天气数据运行
1) hdfs文件系统准备工作
a) # hadoop fs –ls /user/root #查看hdfs文件系统
b) # hadoop fs -rm /user/root/output02/part-r-00000
c) 删除文档,删除文件夹
d) # hadoop fs -rm –r /user/root/output02
e) # hadoop fs –mkdir –p input/ncdc
f) 解压缩输入文件,hadoop无法识别.zip或者.rar
g) # hado...
日期:08/03/2015 14:48:48 作者:
基于Hadoop的大规模网络流量分析
在网络流量的分析中,基于流的分析被大多数ISP所采用,分析系统般部署在台高配置的服务器中。如由CERT网络势态感知团队(CERT-NetSA)开发的用于大规模网络安全分析的网络交互分析工具集 SILK(the System for Internet-Level Knowledge),支持有效的收集、存储和分析网络流数据,SILK可以高效地查询历史大流量数据集,能用于分析大的企业或者中型ISP的骨干或边界网络...
日期:08/03/2015 14:48:08 作者:
大数据与Hadoop之间是什么关系?
大数据在近些年来越来越火热,人们在提到大数据遇到了很多相关概念上的问题,比如云计算、 Hadoop等等。那么,大数据是什么、Hadoop是什么,大数据和Hadoop有什么关系呢?
日期:08/03/2015 14:39:14 作者:
王团结:如何用Hadoop/Spark构建七牛数据平台
继“ YARN or Mesos?Spark痛点探讨 ”、“ Mesos资源调度与管理的深入分享与交流 ”、及“ 主流SQL on Hadoop框架选择 ”之后,CSDN Spark微信用户群邀请了王团结为大家分享Hadoop/Spark在七牛数据平台的实战。
日期:07/31/2015 15:57:30 作者:王团结
星环Hadoop on Docker 次实现 键规模部署
当前在Hadoop技术的发展中,如何把 Docker技术应用于Hadoop平台的建立,尤其是对于Hadoop on Docker规模部署问题的解决,直是个备受关注的技术难点。因此,本次的中国Hadoop技术峰会中,实现键规模部署的Hadoop on Docker及其DEMO演示,也成为了大会中的大热点话题。
日期:07/31/2015 15:55:44 作者:
Hadoop解析--初次见面
百度:云计算(cloud computing)
  是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气...
日期:07/29/2015 13:44:20 作者:许恕
Hadoop解析--MapReduce
从本篇博客开始咱们起来详细了解Hadoop的每个部分,我们在上篇博客中介绍了 HDFS,MapReduce,MapReduce为了更有效率其实是建立在HDFS之上的,有了分布式的文件系统,我们就能在这个系统之上更有效率地进行分布式的计算,我们看看它是咱么实现更优秀的分布式计算。
日期:07/29/2015 13:42:51 作者:许恕
搭配Hadoop巨量储存架构 半导体设备提高生产效能
半导体制程迈入20奈米以下技术节点后,良率、生产周期及成本管控的挑战更加艰钜;新式Hadoop资料储存架构可让半导体厂以更低成本达成巨量资料储存,进而利用深入的统计分析实现更精准有效的设备管理,提高产线运作效率。
日期:07/28/2015 14:36:06 作者:新电子
腾讯TDW:大型Hadoop集群应用
TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。
日期:07/28/2015 14:33:45 作者:
Twitter核心数据类库团队的Hadoop优化经验
、来源
Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter
(Data platform @Twitter)
二、观后感
2.1 概要
此稿介绍了Twitter的核心数据类库团队,在使用Hadoop处理离线任务时,使用的性能分析方法,及由此发现的问题和优化手段,对如何使用JVM/HotSpot profile(-Xprof)分析Hadoop Job的方法调用开销、Had...
日期:07/28/2015 13:46:33 作者:
 种基于Storm的可扩展即时数据处理架构思考
问题引入
使用storm可以方便的构建种集群式的数据框架,并通过定义topo来实现业务逻辑。
但使用topo存在个缺点, topo的处理能力来自于其启动时设置的worker数目,在很多情况下,我们需要能够根据业务压力来调整集群的处理能力,这时候单的topo就无法解决这个问题了。
为了能够更加灵活的定义处理能力,可以考虑将原有的topo根据业务域进行拆分,做到...
日期:07/27/2015 16:10:12 作者:且听风吟
Hadoop的Server及其线程模型分析
早期的篇文章,针对Hadoop 2.6.0. 、Listener
Listener线程,当Server处于运行状态时,其负责监听来自客户端的连接,并使用Select模式处理Accept事件。
同时,它开启了个空闲连接(Idle Connection)处理例程,如果有过期的空闲连接,就关闭。这个例程通过个计时器来实现。
当select操作调用时,它可能会阻塞,这给了其它线程执行的机会。当有accep...
日期:07/27/2015 16:06:16 作者:浩然之气,兼容并蓄