你好,游客 登录
背景:
阅读新闻

大数据处理技术的特点

[日期:2014-08-27] 来源: 机械工业出版社  作者:黄宜华 [字体: ]

  大数据具有五个主要的技术特点,人们将其总结为5V特征(见图1-11):

  1)Volume(大体量):即可从数百TB到数十数百PB、甚至EB的规模。

  2)Variety(多样性):即大数据包括各种格式和形态的数据。

  3)Velocity(时效性):即很多大数据需要在一定的时间限度下得到及时处理。

  4)Veracity(准确性):即处理的结果要保证一定的准确性。

  5)Value(大价值):即大数据包含很多深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。

大数据处理

  传统的数据库系统主要面向结构化数据的存储和处理,但现实世界中的大数据具有各种不同的格式和形态,据统计现实世界中80%以上的数据都是文本和媒体等非结构化数据;同时,大数据还具有很多不同的计算特征。我们可以从多个角度分类大数据的类型和计算特征。

  1)从数据结构特征角度看,大数据可分为结构化与非结构化/半结构化数据。

  2)从数据获取处理方式看,大数据可分为批处理与流式计算方式。

  3)从数据处理类型看,大数据处理可分为传统的查询分析计算和复杂数据挖掘计算。

  4)从大数据处理响应性能看,大数据处理可分为实时/准实时与非实时计算,或者是联机计算与线下计算。前述的流式计算通常属于实时计算,此外查询分析类计算通常也要求具有高响应性能,因而也可以归为实时或准实时计算。而批处理计算和复杂数据挖掘计算通常属于非实时或线下计算。

  5)从数据关系角度看,大数据可分为简单关系数据(如Web日志)和复杂关系数据(如社会网络等具有复杂数据关系的图计算)。

  6)从迭代计算角度看,现实世界的数据处理中有很多计算问题需要大量的迭代计算,诸如一些机器学习等复杂的计算任务会需要大量的迭代计算,为此需要提供具有高效的迭代计算能力的大数据处理和计算方法。

  7)从并行计算体系结构特征角度看,由于需要支持大规模数据的存储和计算,因此目前绝大多数大数据处理都使用基于集群的分布式存储与并行计算体系结构和硬件平台。MapReduce是最为成功的分布式存储和并行计算模式。然而,基于磁盘的数据存储和计算模式使MapReduce难以实现高响应性能。为此人们从分布计算体系结构层面上又提出了内存计算的概念和技术方法。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款