你好,游客 登录
背景:
阅读新闻

基于Hadoop的平台管理的大数据建立索引的方法和指南

[日期:2014-12-10] 来源:编程入门  作者: [字体: ]

索引应用程序参数:

在 Parameters 页面上,指定您的索引应用程序的参数,包括输入目录。此外,您也可提供 ZooKeeper 端点信息作为索引应用程序的输入参数,而不是将它硬编码到应用程序中。最终的工作流可能类似于下图。

图 9. Oozie 工作流示例

在 BigInsights 集群中设置 Data Explorer 客户端库

运行您的索引应用程序之前,您需要在 BigInsights 集群中设置一些 Data Explorer 客户端库。

将 install-dir/AppBuilder/bigindex.zip 文件夹从您的 Data Explorer 集群的安装中复制到 BigInsights 集群的本地文件系统中。

解压 bigindex.zip 文件。您会看到一组 Data Explorer 依赖性 JAR 文件。

创建一个 HDFS 目录,比如 /biginsights/oozie/sharedLibraries/DataExplorer。

使用 hadoop copy 命令将 Data Explorer 依赖性 JAR 文件复制到目录 /biginsights/oozie/sharedLibraries/DataExplorer(比如 hadoop fs                            -copyFromLocal *jar                          /biginsights/oozie/sharedLibraries/DataExplorer/),或者使用 BigInsights Console 将这些文件上传到 HDFS 目录。

监视您的索引应用程序

部署应用程序后,该程序将出现在 BigInsights Web 控制台中,如下图所示。您可以使用此 Web 控制台检查应用程序的详细信息并运行它。要了解监视您的工作流的 BigInsights Web 控制台的更多信息,请查阅文章 “探索 InfoSphere BigInsights 集群和样例应用程序”。

图 10. BigInsights 索引应用程序

使用 Data Explorer 进行可视化

在 Data Explorer 索引中验证您的社交数据

您的社交数据从 BigInsights 推送到 Data Explorer 中的一个搜索集合中后,您应能够使用 Data Explorer Engine 管理 UI 检查建立了索引的数据。例如,您可以直观地验证您关注的各个字段是否已相应地建立了索引。要访问管理员 UI,请执行以下步骤:

登录到 Data Explorer Engine 管理 UI。

从左侧菜单选择 Search Collection

查找您的实体模型中指定的社交数据的集合存储。

打开搜索集合,单击左侧面板上的 Search 按钮。

图 11. Data Explorer Engine 管理 UI

搜索关于产品的用户 tweet:

在搜索框中,用户可以键入关键词(比如 golf),使用现有的界面执行文本搜索,如下图所示。

图 12. 对与高尔夫相关的用户 tweet 的文本搜索

利用 Data Explorer Application Builder

Data Explorer 中新增了 Application Builder,它为构建富有吸引力的数据探查应用程序提供了框架,比如分面搜索以及 360 度信息应用程序,这些应用程序可将分散在各个系统中的数据的相关信息集中在一起。

分面搜索:

下图给出了一个可使用 Application Builder 构建的搜索小部件,它为用户提供一个直观的分面搜索应用程序来探查其社交数据。分面搜索使您能够使用一组细化操作轻松地导航某个特定主题上的结果集。在此 示例中,我们探查了关于产品(比如高尔夫球)的用户 tweet,如下所示。

图 13. 与高尔夫球相关的用户 tweet 的分面搜索

360 度信息应用程序:

探查社交数据的各个方面后,您还可以将它与更多可从其他系统提取的数据类型相关联,比如客户或产品数据。Data Explorer 提供了对各种关系数据库、企业 CRM 系统、文件共享等的连接和爬网功能。Data Explorer Application Builder 提供了一种方式来构建一个 360 度视图应用程序,将分散在这些不同系统中的数据的相关信息集中在一起,同时将数据保留在原始位置。

图 14. 360 度视图应用程序

在我们的示例场景中,一位市场分析师关心某个产品或产品家族,所以一个 360 度视图应用程序可能包含用户反馈和产品细节。下图演示了一个产品页面,其中多个小部件被集中在一起,显示产品信息和相关用户评论。

图 15. 360 度视图应用程序 — 实体页面

请注意,图 14 和图 15 给出了一个 360 度应用程序,涉及到来自本文未提及的不同系统的数据。

结束语

本文分析了一种软件架构,它支持业务分析师轻松而又高效地探查来自各种不同来源的数据。具体来讲,我们解释了 InfoSphere Data Explorer 如何对 InfoSphere BigInsights 管理的社交媒体大数据,以及更多传统企业数据来源所管理的结构化数据建立索引。对数据建立索引能够实现高效访问,而 Data Explorer 的封面搜索功能为非编程人员提供了一种直观的途径来探查此数据,分析关系和获取洞察。





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款