你好,游客 登录
背景:
阅读新闻

继续转基因的大数据挖掘:谁在说话?发自何处?能代表美国人民么

[日期:2014-04-24] 来源:科学网博客  作者:李维 [字体: ]

    既然大家感兴趣,圣诞没事在家,就继续做一点转基因的大数据挖掘

    这次挖掘仍然是最近一个月的英文社会媒体,区间为:

GM food, 11/25/2013 - 12/25/2013

 

Query 增加了一些同义词,GM Food 定义如下(漏掉重要的没有?):

  • GM food
  • genetically modified
  • transgenic
  • transgene
  • genetically engineered food
  • GMC
  • GMO
  • GMF
  • Franken-food

    从下述共现主题词发现,GMC (for GM crop)有严重歧义,它更多用来作为 GM 汽车品牌:

 

    因此加了以下限制词:

    { car, chevy, truck, covercraft, Sierra, model, Yukon, display aspect, buick, driver }

    (也许下次试验干脆扔掉 GMC 这个害群之马? 想来也不会损失多少 coverage)

    Anyway,在上述定义的 query 下,搜索挖掘的结果如下。

    共现主题:

    总览:

    上图科学网上显示不够清晰,可以下载下列文件在本地屏幕看仔细:

2GM_overview.png

    值得注意的是,与上次初步的调查的褒贬指数零下40度不同,这次更加 refined 的调查显示其褒贬指标为 零下29 度,转基因食品形象仍然很不佳,老百姓仍然很多疑虑和抱怨,但是不像 -40% 那样恐怖。这次调查做得更加细致,query defined 更周全, 个人认为应该更加真实可靠。

    喜欢和厌恶转基因的理由云图如下:

    社交媒体的地理分布:

 

    从数据分布看,确实是美国网民的帖子占压倒多数。这就回答了以前网友的疑问,究竟是美国人民(网民)还是西方英文世界网民的民意。(我从善如流,为保险起见 把前一篇博客的题目从“美国人民”改为“西方”,现在看来,我有依据再把标题改回去了。无需地理过滤,最近一个月英文社会媒体谈论 GM food 的话题,几乎全部集中在美国。)

    美国国内的分布呢?

    从颜色的深浅可以看出,这些议论主要集中在加洲(15%)和纽约州(9%),其次是德克萨斯(5%)和佛罗里达(5%)等。

    其他信息图示:

    网友一定奇怪,为什么挺转人士把 poison (毒药)列为理由呢?我也很好奇,就 drill down 到数据里面看,原来是这样的样例:

    我们英文分析器当然知道 poison 是强贬义词,但是议论中的 poison 有否定词 no,因此处理器就转贬为褒。但是,遗憾的是,还是错了,可以算是一个质量的 bug,我这就去修改系统。错误在于,这不是简单的否定式,而是祈使否定句(NO 也用了大写),意思是“坚决不要孟山都的转基因毒药”,显然应该归入反转人士的意见去,现在弄反了。自然语言蛮复杂,除了否定,否定之否定,还有祈使,以 及它们的混杂,这就是一个活生生的例证。再举一例,请看下面的 minimal pair:

    (1) GM food is safer

    (2) Be safer,GM food

    同样是 “be safer”,(1)是褒义描述,而(2)是祈使句,带有贬义(义为 “拜托,你能安全一点,成不?”)

    对 这些 tricky 复杂的自然语言现象,我们做了不少工作,但肯定有漏洞。不过也不要由此担心结果的可靠性。没有自然语言系统是完善的,社会媒体的表达又很不规范。好在我们 有不间断的质量检测(QA)流程, benchmarks 利用第三方 crowd-source 人工监测,四个判官,至少三个判官一致才作为标准。统计下来,英文系统精确度一直保持在90%上下。这样的精确度比流行的关键词技术为基础的同类系统至少 要高出30-40个百分点。由于大数据对于个体质量不完美有补偿作用(以前我有几篇科普专文谈论这个),因此有信心说,总体结论是靠谱的,反映了社会媒体 真实面貌的。

 

 

    最后给一些社会媒体的samples





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款