你好,游客 登录 注册 搜索
背景:
阅读新闻

NoSQL选型及HBase案例详解

[日期:2013-11-25] 来源:CSDN  作者: [字体: ]

  接下来,中国科学院信息工程研究所副研究员王树鹏为我们分享了“新型NoSQL大数据管理系统(BDMS)开发和使用交流”。王树鹏介绍说他接触的项目多数是非互联网的应用,比如安全、交通行业。这些行业目前也面临着大数据的考验,但是当前很多流行的NoSQL数据库对于他们来说并不适用,所以他们自主研发了一个NoSQL数据库管理系统。

  设计目标

  系统具有高可扩展性:可通过增加节点线性

  支持复杂数据类型统一存储管理:结构化数据、半结构化数据及非结构化数据;文本数据、多媒体数据;针对多种类型业务数据进行统一组织管理和处理

  支持多样化的访问类型,访问接口标准化:检索、统计分析、关联处理及深入挖掘;需要对多种业务数据进行关联综合分析;提供标准的DDL、DML操作语法,支持JDBC、ODBC等操作接口;对数据检索、统计、分析处理的实时性要求很高;检索要求秒级响应;跨域检索访问

  上图是整个系统的框架,其中数据库管理平台的结构如下:

  其中,可以通过管理引擎实现跨越数据管理。对外可以提供相应的DDL接口、DML的接口以及开发接口。

  系统主要特色

  Share-Nothing的分布式存储和计算架构

  异构多源数据的组织管理:实现了结构化数据、非结构化文本及非结构化多媒体的统一存储管理

  支持异构数据的统一SQL查询:支持对于结构化数据、非结构化文本的检索和分析,该检索和分析操作都可以通过SQL进行实现

  丰富的数据访问和处理模式

  高效的检索机制

  异构多副本存储和恢复机制

  跨域数据管理和检索:支持跨域部署,可以在多个物理地点建立多个数据中心,在此之上可以支持数据在数据中心之间进行移动,并且可以支持对于位于不同地域的数据进行全局检索和访问

  应用场景

  海量结构化记录管理

  处理海量小文档管理和处理

  面向异构数据的智能搜索和挖掘系统

  成功案例

  王树鹏介绍说这个系统已经有了成功的应用案例,是国家某部委大数据管理项目。这个系统的主要需求是:

  大量信息记录,每天产生约40亿条(约4TB);

  数据保留备份副本,记录数据保留半年;

  可对数据进行精确、模糊查询及统计,结果秒级响应;

  可批量导入结构化、非结构化数据;

  最终达到的实施效果是:

  采用分布式存储架构(3个元数据节点+115个存储节点);

  数据规模超过5000亿 ,查询响应时间为秒级;

  数据保留2个副本,保证数据安全;

  系统可用容量约2PB。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款