从英文社会媒体对转基因食品大数据调查显示,其评价度很低,至零下40度(评价度这么低的品牌或话题不常见,除非是遇到事故或公关灾难)。
但褒贬双方的激烈程度(passion 指标为零)远不如国内。
这是最近一个月数据的概览。没想到这个话题在美国其实议论也不少,日均数据点近三千。
不久后可以深入文体调查一下。从用语看,我怀疑,褒词多来自新闻网站,是公司和科学家的说辞。而贬辞似乎来自民间,对新生事物的自然恐惧。(我们正在研发更好的分类系统,把来自社会媒体中的企业话语与来自社会个体的话语,所谓 push media and pull media 更清晰地分割开来,因为后者才是真正的舆情,无论对错。前者则是宣传和灌输,不可等量齐观。在市场调查和舆情聆听中,这种分类可以屏蔽噪音,更清楚地听到人民的呼声。目前的工具也可以根据domain来源做一些分割,但是不如正在研制的分类器准确、robust和好用)
我只要他的零头(调查一年或者以上的数据有数据成本和不同调查侧面的操作成本)就可以给他从各种角度(来源、文体、性别、地理、舆论走向、社会背景、影响力等等),画出上百张有说服力的数据统计表和各种图示来。保证做到系统层面的客观公允,绝不夹带人为干预和主观误导。这就是大数据时代语言挖掘的力量。
有空再做一个中文社会媒体调查做比照。
RE:你的这个方法的内在限制:反转的比不反转的更有passion,网站多,网上发言也多,故有bias。
RE:所谓好事不出门坏事传千里。我觉得立委的大数据调查只能反映网上意见的传播情况,与现实社会还是有一定差距的。
随机性上能去掉人对样本范围的选择的影响。数据点能跳上去两三个量级,代表性是问卷调查不可比拟的。
作者: 立委 (*)