你好,游客 登录
背景:
阅读新闻

大数据,我们离你有多远

[日期:2014-12-08] 来源:东方烟草报  作者:杜振秋 [字体: ]

  对于不懂天文的人而言,星汉灿烂的夜空,因为杂乱、无序,很难从中解读出有价值的信息;而面对同样一片星空,天文学家却能游目骋怀,梳理星座、推测方位、观察气象,所谓“天地之变,尽在其中”。

  当下,数据和信息的膨胀呈现出裂变式增速,其体量之庞大、其关系之纷繁、其解析之艰难,皆前所未有。就像面对漫天星斗,我们是在眼花缭乱中停步、困惑;还是在不断试探和不断实践中,努力发现其背后的关联和秩序?

  在大数据时代,这既是压力和包袱,也是机遇和财富。

  此次调查,本报记者走访了浙江、福建、江苏、陕西、安徽和广西六个省区。围绕数据采集、分析和应用三个层面,调查报告旨在呈现行业商业企业在大数据时代中的经验、教训、局限、困惑,还有想象……

抽样,还是全样本?

  采集环节,我们面对的基本问题是“采什么”、“如何采”、“采多少”。而采集实现的方式,从规模和范围的层面上讲,可以分为“窥豹一斑”的抽样统计方式和“一览无余”的“大数据”方式。

  抽样统计,首先要解决样本“代表性强”的问题;“大数据”方式,首先要解决“覆盖面广”的问题。

  大数据的一个基本特征是“全样本”,其理想状态是“有多少、采多少;有什么、采什么”。但因为整个终端销售电算化的社会基础还很薄弱,目前行业数据采集工作还不可能实现“全样本”。

  因此,一方面,行业商业企业保持着传统工作方式,通过抽样,以统计学的方式,“还原”或推测市场整体状态;另一方面,行业商业企业又必须要扩大样本和采集范围,不断靠近大数据的“全样本”标准。

  问题的关键就在于,其一,在传统方式下,样本如何选点布局,是确保统计准确的基础;其二,“全样本”的概念如何探索、做哪些探索,事关未来行业卷烟营销的全局。

  关于如何选点布局,就调查所涉及的省份情况看,基本参照了国家烟草专卖局《卷烟零售市场信息采集和分析应用基本规范》相关要求,选点按照地理位置、经营规模、经营业态三个维度进行:

  在区域上,市区、县城、乡镇农村比例基本为5:3:2;在规模上,大、中、小不同规模的参考比例为2:6:2;在业态上,以食杂店和便利店为主,样本比例大约占70%,烟酒店的比例约为20%,商场、超市和娱乐场所的比例在10%。

  也就是说,数据采集的选点布局,从地理位置的维度,以市区为主;从经营规模的维度,以中型规模为主;从经营业态的维度,则以食杂店和便利店为主。

  当然,各地实际不同,需要在这一标准的基础上适当调整。

  以广西柳州为例,当地中小食杂店、便利店较多,所以选择采集点占比较高,在行业基础标准上,柳州市烟草专卖局(公司)又扩量10%。而同样是县 城,该市柳江县经济发达,食杂店一周可销售卷烟100条左右,三江县则经济发展水平相对较低,食杂店周均订购卷烟在二三十条。如果忽略县与县之间经济发展 水平的差异去布局,必然会影响采集质量。

  为了最大程度确保选点布局贴近终端销售的层次与结构,各地都明确了相应的工作方法和工作机制。

  福建省烟草商业系统,建立了自己的“样本管理系统”。根据客户经理辖区内的零售客户地理位置、业态和规模等维度,由样本管理系统自动筛选出“方 差”排在前列的零售客户作为可选样本;信息采集员根据客户配合度,从中选取10户作为备选样本,最终由样本管理系统在平均分配的前提下自动选择产生信息采 集点客户。这样,样本点的分布与全市零售客户的分布情况可以保持基本一致。

  不仅如此,福建烟草还通过实时监控,确保样本点的代表性。当样本中有存在非正常状态(停业、歇业、被查处等)时,样本管理系统将自动提供异常提 醒,通知信息采集员进行备选样本的变更;当全区零售客户每增加100户,系统会自动增加一个采集样本点,遵循公平、公正原则,优先分配给样本数较低的信息 采集员。

  与福建不同,江苏烟草商业系统全面构建了多模式市场信息综合收集分析运用系统。他们将样本点分流至人工采集和自动采集两种模式下,这两种模式能分别进行独立运算,又能相互校验比对,这样,采集统计的质量就有了“参照系”。

  抽样统计,实际是以“小样本”反映大市场;“大数据”方式,是用“全样本”反映大市场。样本的准确性,对于两种方式的影响和意义,不可同日而语——就像一瓶墨水,倒在水缸里会污染整缸水,但倒在大海里,却不会对大海的水质产生多大的影响。

  而要减少“墨水”污染,也就是不准确样本对于选样统计整体工作的消极影响,一是要解决零售客户扫码自主性和自觉性的问题,二是要努力扩大样本规模。

  目前,行业商业企业采集数据的主要方式有三种:手工采集、终端POS机扫码、信息间的系统对接。其中,终端POS机扫码占主导。

  但POS机扫码的人为障碍,在各地不同程度存在,具体原因有这么几类:

  其一是管理意识落后。有的零售客户认为,卖烟不必这么复杂,终端管理只需按期盘点就够了,扫码纯粹是一个“附加动作”。这种情况集中发生在店面小、赢利能力弱的食杂店和便利店。

  其二是担心增加税收负担。赢利水平高的零售客户不愿意扫码,主要是顾虑较多,担心营收数据收集上去后,店铺实际经营情况可能透明化、公开化,从而增加税收负担。

  其三是成本和投入问题。对于一些偏远地区的小零售客户而言,买电脑、交网费,是一笔不小的投入。

  从根本上讲,数据采集的困难,是先进的卷烟营销手段同零售客户营销能力不匹配之间的矛盾。而要解决这一矛盾,除了加强零售客户群体的培训,还要 抓住当前价值与利益的问题——这就是说,要解决好行业商业企业与零售客户之间的“价值链接”问题,让数据采集不仅仅对行业商业企业有用,对零售客户也有 用。行业商业企业的一个通行做法是将信息采集系统的功能进一步丰富,使之成为一个“基于信息采集与分析”的零售终端管理软件。

  安徽烟草商业系统的“徽映e家”是这方面的代表。以“轻松扫码、科学理财、现代经营”为技术诉求,“徽映e家”作为一款终端管理软件,着重解决 零售终端收支不清楚、赢利不清楚、库存不清楚、商品结构不清楚等经营问题,实现台账管理、库存管理、销售管理、赢利分析的电子化,最终,实现中小零售终端 由传统经营模式向现代经营模式的转变。

  归纳浙江、福建、江苏、陕西、安徽和广西六省区的零售终端管理软件开发,其主要的终端功能包含了进销存管理、财务管理、商品档案管理、烟草会员 管理、经营分析和系统管理六大功能。这些功能的应用,带给零售终端的直接益处就是赢利能力的提升——由于商品结构清晰、库存管理便捷,零售终端的资金周转 速度自然加快,资金利用效率提升。其中,尤以中小型零售终端表现最为明显。

  “价值链接”解决了信息采集的动力问题,将信息采集从“要我做”变成了“我要做”。零售客户应用系统自主性和自觉性的提高,必然使得系统所采集的信息和数据更丰富、更精确、更具生命力。

  行业商业企业所需卷烟营销信息要通过零售终端采集实现,所以信息采集先要体现客户价值,然后才可能实现行业价值——这样的一种管理哲学,是以客户价值为基本原则,在实现客户价值的过程中实现自我价值,最终实现在业务链条层面的共赢。

  对于行业商业企业而言,仅在提升终端管理的现代化水平上做文章也许还不够,未来行业商业企业还有可能以数据采集为切入点,进一步实现从管理价值 向经营模式的价值转变和过渡,进一步丰富“价值链接”这一概念的实践意义。我们认为,只有这样,才能确保“小样本”条件下样本数据的准确性、正确性、纯洁 度和严格度。

价值密度高,还是低?

  数据价值密度低,是大数据的表现特征之一。但需要补充的一点是,价值密度低,不等于价值低——对这一点,调查报告后文还会展开相关论证。

  数据价值的密度与数据本身的体量有关。从此次本报调查范围来看,行业商业企业抽样统计方式的样本比率目前大多数在5%~10%之间。正是因为样本体量相对较小,所以,要更准确地预测和还原整体市场的状况,样本本身必须要具有“高密度的价值”。

  所谓“高密度的价值”,在调查之后,我们主要将其内涵提炼为三项基本内容:

  其一,所选样本要具有充分的代表性,这是样本的布局选点问题;其二,每个样本点反馈回来的信息要尽可能准确,这是数据采集的准确率问题;其三,是要尽可能地挖掘数据本身价值,这主要是分析建模的问题。

  关于布局选点和准确率的问题,调查第一部分已有涉及。这一部分主要从挖掘数据本身价值的层面展开。

  必须在此补充的一点是,为更充分地挖掘数据价值,行业商业企业在抽样统计模式下,已经在逐步导入“大数据的思维”,其具体体现为——样本规模的 逐步扩大已是趋势;数据采集范围的延伸已有探索(这也是大数据本质特征之一,调查第三部分将重点呈现这一内容);越来越重视“信息粒度”,已有意识地朝着 “有什么、采什么”的方向去努力。

  “信息粒度”,反映的是信息详细程度。“信息粒度”的大小,直接决定了信息可供分析和挖掘的潜力与空间。

  举例来说,单纯讲“某零售店卖出一条卷烟”,这一信息的“粒度”就较粗,数据可供分析的价值有限。而如果数据本身描述了“这一条卷烟是怎样卖出 去的”,是一次性卖给了一个人,还是被若干人分若干次买走,其信息含义就可以进一步挖掘——前者可能说明消费者的购买能力或消费尝试,而后者则可以表明品 牌的受众面和消费者的忠诚度。

  从六省区调查情况看,“信息粒度”呈现出两级表现:

  一方面,“信息粒度”较好的是与卷烟销售直接相关的数据,比如零售价格、销售量、销售时间、库存等,这得益于行业商业企业多年来抽样统计的经验 积累,并且通过软件系统的技术设计可以实现。另一方面,由销售层向消费层延伸的数据采集,不同程度地存在困难和障碍。这些困难和障碍长期存在,由此,消费 者档案的建立和消费者行为的研究,结果并不理想。

  后者结果不理想的原因,概括起来主要有以下四点:

  一是信息采集耗时,质量难以保证。消费者信息采集的方式,很多是以客户经理定期驻店采集或依靠作为样本点的零售客户采集。该方法具有实地调研的 优势,但耗时长,客户经理常常疲于应付,信息质量的高低主要依赖于样本点零售客户和消费者的配合度,难以达到全面性和代表性的要求;

  二是信息量庞大复杂,跟踪消费者信息不易。消费者信息的来源是多方面的,数据零散,信息孤立,消费者购烟场所、时间、频率等不固定,导致消费行为跟踪难以持续和到位;

  三是信息分析简单,数据挖掘不充分。由于信息采集的对象是消费者,采集内容为消费者基本属性和行为特征,而现有分析指标设计单一,只能简单比较,分析结果难以反映消费者需求变化,无法为营销工作提供有价值的决策参考;

  四是信息运用范围狭窄,客户益处感知点少。由于信息采集质量难以保证,信息分析较为简单,消费者需求容易受到多种变动因素的影响,相关信息无法直接应用于品牌培育工作。

  在“信息粒度”的另一极上,卷烟营销系统内的数据已经分出自己的“时、空、域”——采集汇总的数据信息,按月、周、日,分不同的区域,计算总 量、品类和单品相关分析指标。以陕西省为例,其涉及总量和品类的主要指标有5项,分别是价格指数、存销比、订单满足率、消化率、动销率;涉及单品的主要指 标有9项,分别是价格指数、存销比、订单满足率、动销率、覆盖率、铺市率、脱销面、上柜率、再购率。

  总体而言,各地对卷烟营销系统内的数据挖掘,主要集中在三个维度上:

  针对市场维度,预测品牌市场状态。这一层面的数据分析,是评价卷烟零售市场秩序是否稳定、消费者和零售客户权益是否得到保障的重要途径。调研所 涉省份,主要是通过零售价格指数、社会存销比和订单满足率等指标的综合判定,将市场分为热销、畅销、平销、缓销、滞销五个状态,为回答卷烟应该“卖多少” 提供支持,为基于品牌市场状态的需求预测与计划安排提供基础。

  针对品牌维度,测评品牌所处的发展阶段。分析品牌的健康状态和发展阶段,是辅助选择培育对象的重要依据。其中,品牌发展阶段根据上柜率和销售增 长率,分为导入阶段、成长阶段、稳定阶段和衰退阶段。品牌健康状态通过其健康指数得分,分为好、中、差。两者的综合分析,为回答卷烟应该“卖什么”,以及 基于品牌发展阶段与健康指数的策略制定提供基础。

  针对客户维度,评估零售客户整体的卷烟营销水平。通过对终端经营指标的分析,评价零售客户的销售能力、品牌培育能力和管理能力,分出不同的级 别。一方面通过评价了解客户的总体经营状况,指导客户经营;另一方面,通过对客户经营状态指标的组合查询,针对不同产品选择合适的渠道终端,确定合理的投 放数量,以支撑产品的销售和品牌的培育。

  当然,行业商业企业对卷烟营销系统的数据挖掘过程也有深层次的问题存在:数据分析揭示了问题在哪里,也为怎么应对问题指出了参考路径,但实际操作中却很难克服数据价值与营销实践“两张皮”现象。究其原因,主要有两大矛盾:

  一是较大的信息采集量与狭窄的运用范围之间的矛盾。总体而言,目前数据分析的结果多运用于客户服务、品牌培育等,但在货源组织和投放方面还无法 充分运用。受销售政策、计划导向的制约,商业企业还难以完全做到“客户不要什么就不给什么”、“客户要什么给什么,要多少给多少”的市场化取向改革要求。

  二是相对固定的信息采集内容与复杂多变的卷烟经营之间的矛盾。随着市场化取向改革要求的不断提升,相对固定的信息采集内容无法满足灵活多变的经营需要,如何定期对采集内容进行评审,使其与卷烟经营实际需求相吻合成为当前亟需解决的问题。

逻辑性,还是相关性?

  面对大量数据,采样分析是一种社会习惯。但在数据处理技术已经相对成熟的今天,这样的习惯同时也是一种人为限制。与局限在小数据范围内相比,使用一切数据为判断带来更高的精确性,让我们发现了采样分析无法解释的信息。

  比如,科学家梅瑟利收集了23个国家人均巧克力的消费数据,同时计算出这些国家诺贝尔文学奖的获奖比例,发现二者“正相关”。任职美联储主席期 间,格林斯潘发现,男性内裤销量平稳上升,就预示经济形势良好,反之,则经济形势下行。据此,他提出了著名的“内裤理论”,并成功预测了美国经济走势。

  大数据方式与采样分析的本质区别之一,就是后者更重视逻辑性,前者更重视相关性。而相关关系的核心是量化两个数据值之间的关系,这种关系放在大数据的背景下,往往突破了单个体系或系统的限制。

  在调查所涉六省区当中,浙江省格外重视数据相关性研究,而且形成了一定的研究成果。

  以2004~2012年为时间跨度,浙江省烟草专卖局(公司)分别对本省卷烟销量、销售额、单箱销售额与相关经济、社会因素等16个变量做了相关分析,通过定量分析得出相关系数。如下表:

  由相关系数表可以看出,卷烟销量与常住人口、出口金额、发电量之间的相关度最高,销量与这些高相关因素之间的时间序列趋势图如下:

  销售额、单箱销售额与这些因素的相关系数虽然在数值上有差异,但是在相关度高低上具有相似性,二者与GDP、第二产业增加值、居民消费水平、城镇居民可支配收入、财政收入相关度最高。单箱销售额与这些高相关因素之间的时间序列趋势图如下:

  梳理历史数据,浙江省局(公司)发现,卷烟销量、卷烟结构的变化与高相关因素的变化之间存在一种呼应关系:

  常住人口每增减10万人,卷烟销量将增减0.886706万箱;出口额每增减10亿美元,卷烟销量将增减0.409914万箱;发电量每增减10亿度,卷烟销量将增减0.413668万箱。

  地方GDP每增减100亿元,卷烟单箱销售额将增减68.8413百元;第二产业增加值每增减100亿元,卷烟单箱销售额将增减 141.9958百元;居民消费水平每增减100元,卷烟单箱销售额将增减101.2407元;城镇居民可支配收入每增减100元,卷烟单箱销售额将增减 83.3418元;地方财政收入每增减10亿元,卷烟单箱销售额将增减34.1136元。

  而当前,浙江全省又处于产业经济的深度调整期。之前,该省以劳动密集型产业和外向型经济为主导;后来,宏观经济下行、人力成本提高,浙江经济不 得不走上产业转型之路。而从劳动密集型向知识密集型的产业转型,将伴随着“机器换人”、“腾笼换鸟”、“电商换市”的一系列动作。

  这意味着,外来务工人口逐渐减少,加之人口老龄化速度加快,浙江卷烟销量空间必然逐步压缩。但产业经济转型同时也意味着地方经济的持续健康发展,GDP、第二产业增加值、居民可支配收入等都会稳定增长,浙江卷烟结构提升尚有一定空间。具体图示如下:

  这一部分,我们将浙江省局(公司)在数据分析和预测上的一些做法单列,是因为它较为典型和充分地体现出大数据研究的几个本质性特点:

  时间跨度足够大,大数据必须放在一个较长时间段里去看,才能发现变化的趋势;实现了数据的“跨系统”,大数据往往需要“跳出系统看系统”,它从 社会和经济等16个指标,在卷烟营销的系统数据之外为卷烟营销建立了“参照系”;重视“相关关系”研究,找到了预测卷烟营销的良好“现象关联物”,通过这 些关联物,可以比以前更容易、更快捷、更清楚地分析事物。

结语

  大数据时代,离我们如此之近,又如此之远。

  近,是说似乎未及召唤,这样的一个时代已经跌跌撞撞、扑面而来,在一个崭新的趋势和潮流中,很难有行业和领域可以抗拒它的裹挟;

  远,是说信息社会,技术迭代、思维创新、观念更替,让身处其中的人应接不暇,而社会电算化基础薄弱、整体认知尚未成型、数据开放渠道并未建立,这一切说明,融入大数据时代我们还要做更多的准备工作。

  大数据之大,不仅仅是数据本身的体量庞大,还是时间跨度上的久远、涉及面的宽阔。所以,“跨系统”和“相关性”会成为大数据研究不可分割的两个本质特征——其背后主导的是信息处理技术的革命,更是一种理解世界、分析事物的新角度、新思维和新观念。

  从整个调查情况看,行业商业企业目前对数据价值的挖掘,还主要集中在卷烟营销系统内,这是不可更改的历史基础使然。行业商业企业整体的数据分析工作,还处在从抽样统计向大数据转型的过程中。其间,我们不能放弃传统,更不能无视新时代的呼唤。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款