你好,游客 登录 注册 搜索
背景:
阅读新闻

大数据(十) - Pig - IT十年 - 博客频道 - CSDN.NET

[日期:2016-01-19] 来源:极客头条  作者: [字体: ]

  Pig是什么

  Hadoop上的 数据流执行引擎 (由Yahoo!开源)

  利用HDFS存储数据

  利用MapReduce处理数据

  使用Pig Latin语言表达数据流

  Pig Latin是一种新的数据流语言

  Pig将Pig Latin语句转化为MapReduce作业

  Pig Latin比MapReduce程序更易编写

  直接产生动机:让MapReduce用起来更简单

  与Hive一致

  Pig与Hive异同

  相同点

  运行在Hadoop之上;

  设计动机是为用户提供一种更简单的Hadoop上数据分析方式;

  解决相同问题的两个工具(yahoo!vs facebook)。

  不同点

  Hive要求待处理数据必须有Schema,而Pig则无此要求;

  Hive有Server需要安装,Pig无Server不需要安装;

  编程语言不同,SQL与Pig Latin

  SQL:得到什么样的结果,Pig Latin:如何处理数据

  SQL:过程化语言,Pig Latin:数据流语言

  运行Pig Latin

  本地模式

  pig_path/bin/pig –x local wordount.pig

  集群模式

  PIG_CLASSPATH=hadoop_conf_dir pig_path/bin/pig wordcount.pig

  其他使用方式

  pig -e fs –copyFromLocal local_path hdfs_path

  pig hdfs://nn.mydomain.com:9020/myscripts/script.pig

  pig –Dmapreduce.task.profile=true wordount.pig

 

  pig –P myproperty.properties wordcount.pig





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款