你好,游客 登录 注册 搜索
背景:
阅读新闻

基于Hadoop的平台管理的大数据建立索引的方法和指南

[日期:2014-12-10] 来源:编程入门  作者: [字体: ]

探查大数据和传统企业数据是许多组织的共同需求。在本文中,我们概述了为通过基于 Hadoop 的平台管理的大数据建立索引的方法和指南,以便将这些数据用于数据发现解决方案。具体来讲,我们将介绍如何将存储在 IBM 的 InfoSphere BigInsights(一个基于 Hadoop 的平台)中的数据推送到 InfoSphere Data Explorer。InfoSphere Data Explorer 是一个复杂的工具,支持业务用户探查并组合来自多个企业和外部数据源的数据。

简介

如果您关注过许多围绕大数据的早期案例分析,您可能相信 “您根本不知道您不知道什么” 的说法。确实,大数据应用程序常常专注于从平时可能出于多种原因而导致被丢弃或忽略的数据中收集业务洞察。公司越来越多地希望开发一个全面的信息管理战 略,这个战略涉及的不仅仅是简单地探查或分析大数据。具体来讲,他们希望将大数据与现有数据系统(包括关系 DBMS、企业内容管理系统、数据仓库等)一起整合到其总体信息管理战略中。

本文分析该挑战的一个方面,列出了为大数据和传统数据源建立索引的一个架构和方法,还提供了基于 Web 的接口,以发现这些不同数据源中的新洞察。具体来讲,它描述了 Data Explorer(一个数据发现平台)如何为 InfoSphere BigInsights 管理的数据建立索引,支持将大数据的持久化格式与现有的企业数据相结合。Data Explorer 和 BigInsights 都是 IBM 的大数据平台的重要组件,所以我们首先概述此平台和这两个重要产品。

IBM 的大数据平台概述

IBM 的大数据平台旨在帮助组织探查、分析和管理丰富的数据,包括流数据、传统业务数据,以及以前很难合并到企业的商业智能和分析平台中的 “非传统” 数据或辅助数据。首先让我们简要了解一下这个平台,然后再重点介绍两个重要组件:InfoSphere Data Explorer 和 InfoSphere BigInsights。

图 1 描绘了 IBM 的大数据平台的架构,它在功能的丰富性上不同于其他商用产品。从上到下,您会看到 IBM 的这个平台包含丰富的功能和技术,能够可视化和发现各种数据源中的洞察,开发分析应用程序,管理您的环境。Data Explorer 提供了 IBM 的大数据平台的重要可视化和发现功能,所以稍后我们会更详细地讨论该组件。图 1 中所示的加速器是 IBM 提供的工具包,包含数十个预先构建的软件工件,以帮助公司快速部署分析社交媒体和机器数据(比如日志记录)的解决方案。3 个数据处理引擎使组织能够有效地应对大数据内在的多样性、大量性和高速性。这些引擎包含一个基于 Hadoop 的系统(BigInsights,我们稍后将详细探讨它)、一个流计算平台 (InfoSphere Streams) 和一个数据仓库平台(比如 PureData for Analytics 或 DB2)。最后,IBM 的大数据平台还包含与其他流行企业软件的连接,包括关系 DBMS、提取/转换/加载平台、商业智能工具、内容管理系统等。

图 1. IBM 的大数据平台架构

InfoSphere BigInsights 概述

InfoSphere BigInsights 是 IBM 持久化和分析众多形式的大数据的平台。基于开源 Apache Hadoop 项目,BigInsights 旨在帮助公司发现和分析隐藏在海量数据中的业务洞察,这些数据在平时可能被忽略或丢弃,因为使用传统方法来处理这些数据有些不切实际或太困难。这些数据的 示例包括日志记录、单击流、社交媒体数据、新闻源、电子邮件、电子传感器输出,甚至一些事务数据。

为了帮助企业高效地从这些类型的数据获取价值,BigInsights Enterprise Edition 包含一些来自 Hadoop 生态系统的开源项目,以及 IBM 开发的一些增强和扩展了这个开源软件的价值的技术。如 图 2 所示,这些技术涵盖范围从应用程序加速器到分析工具、开发工具、平台改进和企业软件集成。例如,BigInsights 客户可使用复杂的文本分析功能从文档、电子邮件和消息中提取内容和上下文。应用程序开发人员可采用基于 Eclipse 的向导来加速自定义 Java MapReduce、Jaql、Hive、Pig 和文本分析应用程序的开发。管理员可通过一个集成的 Web 控制台管理和监视其 BigInsights 环境,业务用户可通过基于 Web 的目录来启动 IBM 提供的或自行开发的应用程序。

在本文中,我们将重点介绍 BigInsights 特性的一个子集,比如文本分析和应用程序生命周期工具。

图 2. InfoSphere BigInsights 架构

InfoSphere Data Explorer 概述

InfoSphere Data Explorer 允许您为来自不同数据来源的大量结构化、非结构化和半结构化数据建立索引。它还提供了构建大数据探查应用程序和 360 度信息应用程序的能力。InfoSphere Data Explorer 允许用户根据存储在不同的内部和外部数据存储库中的庞大数据集合,创建不同实体(比如客户、产品、事件、合作伙伴等)的相关信息的视图,而无需移动数据。

当今企业的一个重要挑战是,用户无法快速找到解决业务问题或完成一项任务所需的信息。通常,数据分散在不同的系统中,以便支持不同组织管理的具体应 用程序。此外,新数据来源逐渐成为关键的资源,人们可能需要在日常工作和制定重要决策时考虑它们,比如社交媒体、来自移动设备的源、Twitter 等。

这方面的一个示例是,联系人信息、购买的产品、开具的服务票据和保修信息等客户信息都存储在不同的业务应用程序中,比如 CRM、支持票据系统、市场门户等。想象一位希望联系客户以进行追加销售的销售人员。他必须先登录 10 个应用程序来汇总客户的信息,或者与 5 个人沟通来理解所有这些信息。

Data Explorer 解决了这个重要难题。信息存储在许多不同的系统和筒仓中,而用户需要采用一致的方式来查看所有数据,快速导航到与他们最相关的信息。这里的挑战是:在员工最需要制定决策的信息地方提供该信息。

图 3. InfoSphere Data Explorer 架构

BigInsights 和 Data Explorer 的集成

BigInsights 和 Data Explorer 彼此互补,使组织能够拓宽他们能以一种一致、连贯的方式分析的信息范围。例如,BigInsights 常常用于存储非结构化和半结构化内容。此外,探查和导航内容的需求变得更为紧迫,这常常表现在搜索式界面中。这使得信息更容易让业务线用户使用。例如,如 果您存储了机器数据,最终用户可能希望导航内容日期,寻找特定的机器故障类型,等等。另一方面,如果存储社交数据,最终用户可能希望搜索与产品相关的用户 态度。所有这些都需要一种富索引功能。除了索引之外,Data Explorer 还可提供了一种富用户体验,合并来自 BigInsights 的内容和其他企业内容,以实现全面的大数据探查。

示例场景

要实现这一架构,我们需要执行一些步骤。这里总结了这些步骤,稍后会更详细地分析它们:

收集和准备您的社交媒体数据以供分析

BigInsights 通过预先构建的应用程序提供各种不同的数据收集机制。当基于文本的社交媒体帖子位于 BigInsights 中时,您需要提取感兴趣的信息,以便可在以后轻松地为它们建立索引和探查它们。BigInsights 提供了复杂的文本分析功能,帮助您提取感兴趣的实体,包括产品、人员和对产品的态度。

建模感兴趣的业务实体和关系

一个应用程序可快速启动此过程,为 Data Explorer 指定一种实体模型来帮助设置我们稍后将展示的各种配置选项。此实体模型对您的应用程序场景的总体成功至关重要。

该实体模型将捕获一组重要的业务实体和关系,您的业务分析师将有兴趣在 Data Explorer 中搜索、发现和探查它们。因此,一种有效的实体模型设计是理解业务分析师希望如何搜索和探查哪些信息的前提。

该实体模型将捕获您的 Data Explorer 集群的一组重要配置,以反映您的容量和部署计划。稍后,您将看到我们如何捕获产品和 tweet 作为感兴趣的关键业务实体,进一步指定这些实体之间的关系,并提供 Data Explorer 集群的拓扑结构部署信息。

开发您的第一个索引应用程序,在 Data Explorer 中为提取的社交数据建立索引

您可以利用 BigInsights 应用程序开发生命周期开发您的索引应用程序,该生命周期使您能够以极少的工作创建、发布和部署您的应用程序。部署之后,从您的社交数据中提取的实体信息将 被推送到一个 Data Explorer 搜索集合中,可使用 Data Explorer 分面搜索 (faceted search) 特性进一步探查这些信息,使用它们构建一个 360 度视图应用程序。

使用 Data Explorer 实现可视化

Data Explorer Application Builder 提供了一种途径来构建一个应用程序,将分散在不同系统中的数据的相关信息集中在一起。在我们的示例场景中,一位产品计划主管可能关心一个产品或产品家族,所以一个 360 度视图

在 BigInsights 中收集和准备您的社交媒体数据以供分析

BigInsights 通过预先构建的应用程序(比如 Boardreader 应用程序)提供了众多数据收集机制。

图 4. Boardreader 应用程序





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款