你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据部署应该思考的五个问题

[日期:2013-10-11] 来源:网界网  作者:胡杨编译 [字体: ]
  大数据是一个含糊的术语。因此,企业用户应该了解其含义,必须理解大数据实际上能做什么及其局限性是什么。在绘制大数据战略蓝图的时候,提出一些恰当的问题保证企业能够得到有用的信息是非常重要的。
  企业担心落在竞争对手的后面和利用大数据实现各种业务目标的同行的后面。但是,在被大浪卷走之前,你要后退一步并且考虑五个问题以保证你走上正确的道路。
  1、你的问题是什么?
  这似乎是一个显而易见的问题。但是,感受到压力要成为数据驱动的企业的那些公司也许会冒进,不首先恰当地定义问题(或者机会)。你是不能把你需要的数据放入Excel表格的商务分析师吗?你首先不能访问你的公司的大数据吗?你是负责减少查询返回的等待时间的首席信息官吗?你是对查询结果需要等待数天或者数星期感到厌烦的非技术用户吗?你的数据是结构化的还是非结构化的?还是拥有上述所有问题?
  当然,你可能面对的问题之一是预算,特别是在创业企业和中小企业中。数据仓库和专用硬件的价格让他们望而却步。如果可承受性是一个问题,你要根据在商品化硬件上运行的软件制定一个战略,不需要数据仓库。
  2、你为免费(开源)软件支付的价格是什么?
  围绕Hadoop一直有许多争论。虽然Hadoop对于某些企业需求来说是一个非常好的开源软件解决方案,但是,免费并不意味着不支付任何费用。Hadoop在商品化硬件上运行。由于它需要电源和网络连接,这就需要投资。
  核心的Hadoop发布版是免费的开源软件。但是,有些厂商有专有的Hadoop发布版。即使开源软件发布版也有专有的插件管理工具。除非你从Apache软件基金会下载Hadoop组件,否则,你会像使用商业软件一样遇到同样的软件许可证和厂商锁定等令人担心的问题。
  我们不要忘记部署和管理这个技术所需要的数据科学家的工资。如果你有足够的资金支付IT和硬件费用,Hadoop也许对你非常合适。但是,Hadoop并非适用于一切需求。这就引出了下一个问题。
  3、规模重要吗?(你的企业规模和你的数据的规模)
  围绕大数据的谈话主要是PB级的数据。然而,大多数企业使用的数据仅达到TB级。当在TB级的范围内工作的时候,大型机器集群的开销也许不能得到投资回报。你会发现那个遗留的解决方案对于你的企业需求也许规模太大,是不必要的。
  如果是在TB级范围内,你就是在使用一台服务器的范围之内。你可以使用一台服务的解决方案,从而降低成本和简化。仅仅在10年前,一台服务器只能处理GB级的数据。但是,现在的商品化硬件已经能够处理TB级的数据,从而提供了以前不能提供的选择范围。
  4、你的数据在哪里?
  你的大多数数据是在企业内部的,你的策略与大多数数据在云中的企业有所不同。例如,如果你的数据在亚马逊或者Rackspace的云服务中,那么,在那个框架中运行大数据解决方案是有意义的,因为数据很容易在那个环境中迁移。然而,如果你的大多数数据在企业内部并且你正在考虑在云中运行你的大数据查询,你要三思。大数据是很难迁移并且保持同步的。当上载到云的时候会有许多挑战。在这种情况下,大数据最好保持在企业内部的环境中。
  5、各种技术有什么区别?
  目前有三种类型的技术用于大数据分析:软件数据库设备、硬件数据库设备和分布式数据库。
  软件数据库设备部署在商品化硬件上,一般部署在一台计算机上,因此,价格便宜,结构简单。这种设备的例子包括SQL服务器或者MySQL等关系数据库以及SiSense的ElastiCube技术。
  硬件数据库设备包括与专有硬件(也就是价格昂贵的硬件)捆绑销售的专有软件。专有硬件的技术规格比商品化硬件更强大,因此价格可以高50倍。
  分布式数据库是指部署在计算机集群中的软件,可以平行运行资源密集型的处理操作。这包括复杂的架构。
  你可能遇到的其它技术都是不能直接处理大数据的规模较小的技术,如内存处理或者联机分析处理(OLAP,On Line Analytical Processing)。上载到这些数据中心技术的数据在上载之前要显著删减,一般采用上述的一种大数据技术。




收藏 推荐 打印 | 录入:elainebo | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款