Hadoop 第90页-@大数据资讯

首页 → 开源技术 → Hadoop

手机访问

Hadoop

Eclipse远程提交hadoop集群任务

Eclipse远程提交hadoop集群任务

1 前言
　　Hadoop高可用品台搭建完备后，参见《Hadoop高可用平台搭建》，下步是在集群上跑任务，本文主要讲述Eclipse远程提交hadoop集群任务。 2 Eclipse查看远程hadoop集群文件 2.1 编译hadoop eclipse 插件
　　Hadoop集群文件查看可以通过webUI或hadoop Cmd，为了在Eclipse上方便增删改查集群文件，我们需要编译hadoop eclipse 插件，步骤如下：
　　...

日期：08/14/2015 14:17:49 作者：Riordon

Hadoop和大数据：60款高开源工具

Hadoop和大数据：60款高开源工具

说到处理大数据的工具，普通的开源解决方案(尤其是Apache Hadoop)堪称中流砥柱。弗雷斯特调研公司的分析师Mike Gualtieri较近预测，在接下来几年，“100%的大公司”会采用Hadoop。Market Research的份报告预测，到2011年，Hadoop市场会以58%的年复合增长率(CAGR)高速增长;到2020年，市场产值会超过10亿美元。IBM更是非常看好开源大数据工具，派出了3500名研究人...

日期：08/10/2015 15:47:09 作者：布加迪编译

Hadoop安装配置及问题总结

Hadoop安装配置及问题总结

学习了下慕课网上的hadoop教程，看着很简单，但是做起来碰到的问题确实不少。搞了个下午，总算是搞定了，本博文主要记录下我在配置hadoop过程碰到的些问题。对于hadoop的鼎鼎大名，想必大家都略知二，我也是入个门，嘎嘎！

日期：08/06/2015 16:38:27 作者：@EddieYuan

hadoop权威指南中天气数据运行

hadoop权威指南中天气数据运行

1) hdfs文件系统准备工作
a) # hadoop fs –ls /user/root #查看hdfs文件系统
b) # hadoop fs -rm /user/root/output02/part-r-00000
c) 删除文档，删除文件夹
d) # hadoop fs -rm –r /user/root/output02
e) # hadoop fs –mkdir –p input/ncdc
f) 解压缩输入文件，hadoop无法识别.zip或者.rar
g) # hado...

日期：08/03/2015 14:48:48 作者：

基于Hadoop的大规模网络流量分析

基于Hadoop的大规模网络流量分析

在网络流量的分析中，基于流的分析被大多数ISP所采用，分析系统般部署在台高配置的服务器中。如由CERT网络势态感知团队(CERT-NetSA)开发的用于大规模网络安全分析的网络交互分析工具集 SILK(the System for Internet-Level Knowledge)，支持有效的收集、存储和分析网络流数据，SILK可以高效地查询历史大流量数据集，能用于分析大的企业或者中型ISP的骨干或边界网络...

日期：08/03/2015 14:48:08 作者：

大数据与Hadoop之间是什么关系？

大数据与Hadoop之间是什么关系？

大数据在近些年来越来越火热，人们在提到大数据遇到了很多相关概念上的问题，比如云计算、 Hadoop等等。那么，大数据是什么、Hadoop是什么，大数据和Hadoop有什么关系呢?

日期：08/03/2015 14:39:14 作者：

王团结：如何用Hadoop/Spark构建七牛数据平台

王团结：如何用Hadoop/Spark构建七牛数据平台

继“ YARN or Mesos?Spark痛点探讨 ”、“ Mesos资源调度与管理的深入分享与交流 ”、及“ 主流SQL on Hadoop框架选择 ”之后，CSDN Spark微信用户群邀请了王团结为大家分享Hadoop/Spark在七牛数据平台的实战。

日期：07/31/2015 15:57:30 作者：王团结

星环Hadoop on Docker 次实现键规模部署

星环Hadoop on Docker 次实现键规模部署

当前在Hadoop技术的发展中，如何把 Docker技术应用于Hadoop平台的建立，尤其是对于Hadoop on Docker规模部署问题的解决，直是个备受关注的技术难点。因此，本次的中国Hadoop技术峰会中，实现键规模部署的Hadoop on Docker及其DEMO演示，也成为了大会中的大热点话题。

日期：07/31/2015 15:55:44 作者：

Hadoop解析--初次见面

Hadoop解析--初次见面

百度：云计算(cloud computing)
　　是基于互联网的相关服务的增加、使用和交付模式，通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的种比喻说法。过去在图中往往用云来表示电信网，后来也用来表示互联网和底层基础设施的抽象。因此，云计算甚至可以让你体验每秒10万亿次的运算能力，拥有这么强大的计算能力可以模拟核爆炸、预测气...

日期：07/29/2015 13:44:20 作者：许恕

Hadoop解析--MapReduce

Hadoop解析--MapReduce

从本篇博客开始咱们起来详细了解Hadoop的每个部分，我们在上篇博客中介绍了 HDFS，MapReduce，MapReduce为了更有效率其实是建立在HDFS之上的，有了分布式的文件系统，我们就能在这个系统之上更有效率地进行分布式的计算，我们看看它是咱么实现更优秀的分布式计算。

日期：07/29/2015 13:42:51 作者：许恕

搭配Hadoop巨量储存架构　半导体设备提高生产效能

搭配Hadoop巨量储存架构　半导体设备提高生产效能

半导体制程迈入20奈米以下技术节点后，良率、生产周期及成本管控的挑战更加艰钜;新式Hadoop资料储存架构可让半导体厂以更低成本达成巨量资料储存，进而利用深入的统计分析实现更精准有效的设备管理，提高产线运作效率。

日期：07/28/2015 14:36:06 作者：新电子

腾讯TDW:大型Hadoop集群应用

腾讯TDW:大型Hadoop集群应用

TDW（Tencent distributed Data Warehouse，腾讯分布式数据仓库）基于开源软件Hadoop和Hive进行构建，打破了传统数据仓库不能线性扩展、可控性差的局限，并且根据腾讯数据量大、计算复杂等特定情况进行了大量优化和改造。

日期：07/28/2015 14:33:45 作者：

Twitter核心数据类库团队的Hadoop优化经验

Twitter核心数据类库团队的Hadoop优化经验

、来源
Streaming Hadoop Performance Optimization at Scale, Lessons Learned at Twitter
(Data platform @Twitter)
二、观后感
2.1 概要
此稿介绍了Twitter的核心数据类库团队，在使用Hadoop处理离线任务时，使用的性能分析方法，及由此发现的问题和优化手段，对如何使用JVM/HotSpot profile（-Xprof）分析Hadoop Job的方法调用开销、Had...

日期：07/28/2015 13:46:33 作者：

种基于Storm的可扩展即时数据处理架构思考

种基于Storm的可扩展即时数据处理架构思考

问题引入
使用storm可以方便的构建种集群式的数据框架，并通过定义topo来实现业务逻辑。
但使用topo存在个缺点， topo的处理能力来自于其启动时设置的worker数目，在很多情况下，我们需要能够根据业务压力来调整集群的处理能力，这时候单的topo就无法解决这个问题了。
为了能够更加灵活的定义处理能力，可以考虑将原有的topo根据业务域进行拆分，做到...

日期：07/27/2015 16:10:12 作者：且听风吟

Hadoop的Server及其线程模型分析

Hadoop的Server及其线程模型分析

早期的篇文章，针对Hadoop 2.6.0. 、Listener
Listener线程，当Server处于运行状态时，其负责监听来自客户端的连接，并使用Select模式处理Accept事件。
同时，它开启了个空闲连接（Idle Connection）处理例程，如果有过期的空闲连接，就关闭。这个例程通过个计时器来实现。
当select操作调用时，它可能会阻塞，这给了其它线程执行的机会。当有accep...

日期：07/27/2015 16:06:16 作者：浩然之气，兼容并蓄

Digg排行

本周热门内容