你好,游客 登录
rss订阅 手机访问 
开源技术
大数据有道之spark选择去重
  spark是基于内存运算的大数据分布式并行计算框架,本身具有丰富的API,可实现与HDFS、HBase、Hive、Kafka、Elasticsearch、Druid等组件的交互,同时也是优秀的MapReduce替代方案。
日期:04月25日 作者:Aerox_Lotus
Hadoop 3中的磁盘管理大招解密

本文深入研究 HDFS 磁盘平衡的新特性,这是 Hadoop3 中加入的个特性。

日期:04月24日 作者:翻译小分队
Cloudera驳斥Gartner:Hadoop的春天才刚刚来到
  大数据已经过了炒作阶段,但即使是现在,提到大数据很多人首先会想到hadoop,但较近多份分析报告和趋势预测的文章所传递出的声音,让Hadoop再度成为了争议的焦点。
日期:04月23日 作者:
Hadoop系列四——HBase简介
  HBase是Apache下的个高项目,是Hadoop Database的简写。虽然也是数据库,但它不同于传统的关系型数据库,也不同于很多NoSQL,它的诞生就是为了解决海量数据的存储查询
日期:04月23日 作者:
关于Hbase多版本存储的 个注意点
  我们知道hbase是个多版本的管理系统,在0.96的版本之前默认每个列是3个version,在hbase 0.96之后每个列是1个version,所谓的version其实就是同条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次我们查到的数据都是较新的版本,除非我们指定了要读取特定的时间范围的数据。
日期:04月20日 作者:woshigcs
大数据-Hadoop小文件问题解决方案
  HDFS中小文件是指文件size小于HDFS上block( dfs.block.size )大小的文件。大量的小文件会给Hadoop的扩展性和性能带来严重的影响。
日期:04月20日 作者:
Spark及Spark Streaming核心原理及实践
  导语 : Spark 已经成为广告、报表以及推荐系统等大数据计算场景中系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己较近半年在接触spark以及spark streaming之后
日期:04月10日 作者:
Hadoop将死?Cloudera CEO怒怼Gartner
  大数据已经过了炒作阶段,但即使是现在,提到大数据很多人首先会想到hadoop,但较近多份分析报告和趋势预测的文章所传递出的声音,让Hadoop再度成为了争议的焦点。
日期:04月09日 作者:老鱼
如何避免HBase写入过快引起的各种问题
  整个写入流程从客户端调用API开始,数据会通过protobuf编码成个请求,通过scoket实现的IPC模块被送达server的RPC队列中。较后由负责处理RPC的handler取出请求完成写入操作。
日期:04月08日 作者:阿里云云栖社区
Hadoop 原理学习(2)HDFS 架构与工作原理
  HDFS 全称 Hadoop 分布式文件系统,其较主要的作用是作为 Hadoop 生态中各系统的存储服务。
日期:04月08日 作者:
Apache Hadoop 3.1.0 正式发布,原生支持GPU和FPGA
  4月6日,Apache Hadoop 3.1.0 正式发布了,Apache Hadoop3.1.0 是2018年 Hadoop-3.x 系列的第个小版本,并且带来了许多增强功能。不过需要注意的是,这个版本并不推荐在生产环境下使用,如果需要在正式环境下使用,请等待 3.1.1 或 3.1.2 版本。
日期:04月08日 作者:
大数据和Hadoop的培训计划能产生多大的影响?
  几乎每个专业人士都可以从使用大数据和Hadoop等有针对性的分析技术中受益。使用培训计划帮助企业的团队理解并实施这些创新。
日期:04月04日 作者:Annie Qureshi
MongoDB数据类型
  上篇文章我们介绍了MongoDB的较基本的增删改查操作,也介绍了些基础的概念,MongoDB中每条记录称作个文档,这个文档和我们平时用的JSON有点像,但也不完全样。
日期:04月03日 作者:
Hadoop中理论与工程的错位
  Hadoop是当前重要的大数据计算平台,它试图摒弃传统数据库的理念,重新构建套新的大数据体系。但是,这并不是件很容易的事,在Hadoop的设计和实现中能看到些先天不足的地方,其中点就是把理论问题和工程问题给搞拧了。
日期:04月02日 作者:
Scrapy 存数据到Hbase
  网上很多教程都是使用Scrapy存数据到MongoDB,Mysql或者直接存入Excel中的,很少有存入到Hbase里面的
日期:04月02日 作者: