你好,游客 登录
背景:
阅读新闻

大数据技术学习路线指南:大数据的内幕

[日期:2014-11-18] 来源:百度经验  作者:icantwish [字体: ]

    接着前两篇对大数据的介绍之后,本篇从实际操作的角度分享大数据内部关键的运作机制,这是在真正开始学习大数据之前对大数据的一个概览。为的是让我们成为大数据的主人。

大数据运行机制

  1. 这是对大数据运行机制的概览,如果你阅读过上一篇(OODA),就会感觉非常熟悉。不错,他们在概念上是如出一撤的!不过实际操作却又有巨大的不同。

  2. 收集数据

    大数据的第一站就是收集和存储海量数据(公开/隐私)。现在每个人都是一个巨大的数据源,通过智能手机和个人笔记本释放出大量的个人行为信息。获取数据似乎已经变得越来越容易,数据收集这一模块最大的挑战在于获取海量数据的高速要求以及数据的全面性考虑。

  3. 清洗数据: 

    传统商业智能在数据清洗处理的做法(ETL)是,把准确的数据放入定义好的格式中,通过基础的抽取统计生成高维度的数据,方便直接使用。然而大数据有个最 突出的特征——数据非结构化或者半结构化。因为数据有可能是图片,二进制等等。数据清洗的最大挑战来了——如何转化处理大量非结构数据,便于分布式地计算 分析。

  4. 硬件: 

    这是大家都很熟悉的概念,和大数据相关的是虚拟化。主要包括存储虚拟化,计算虚拟化。因此又说虚拟化存储和云计算是大数据的“左膀右臂”!!大数据还需要支持多种类型的数据库,因此一个支持扩展的数据仓库是大数据中的基础。

  5. 多平台与多架构并行使用: 

    大数据处理需要多平台和多架构。这是由大数据的快速响应以及多维度分析所决定的特征。通常大数据会把一个任务拆分成多个极小的子任务交由不同的服务器来并行处理,最终由任务调度系统负责汇总分析计算结果。这也是美国谷歌公司需要用到上百万服务器的原因。

  6. 机器学习与人类判断: 

    “一拳难敌众手”,面对似乎处理不完的海量数据,需要机器来帮助我们一起处理。机器学习指的是不断从大数据分析中吸收特征数据,成为我们用来分析数据的关 键参考指标!当然很多时候机器学习有可能会被误导,因此需要人类来判断机器学习的结果是否符合预期,以及进一步完善机器学习的结果!!

  7. 分享与反馈: 

    随着大数据分析结果的产生,决策者需要的旺旺不是一堆僵硬的数据,而是一张直观动态的决策建议视图。并且在决策之后,需要一个执行反馈系统来评估大数据分析结果的准确性。不断地去优化大数据分析的架构和算法!使得大数据架构更加智能!!

  8. 8

    最后请你再次阅读这个系列的上一篇文章,对比大数据与OODA之间的异同点,并且在图纸上画出你对大数据的理解!





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款