你好,游客 登录
背景:
阅读新闻

获取数据的三大方法你都掌握了吗?

[日期:2017-07-04] 来源:36大数据  作者: [字体: ]

  分析社会、行业都都需要数据。在这里我简单总结一下我用过的方法。方法肯定不全,也不一定适用于所有领域,欢迎大家批评与补充。

  注:下面说的“数据”指的是描述社会活动的原始数据,来自大范围统计和调查,不包括分析类数据(例如市场规模估算、行业增长预计等)。

  获取数据的方法我分为三类:网上下载、电话索取、自己生产。

大数据

  网上下载

  搜索引擎搜索

  不管是中国还是外国数据,都推荐使用 Google 搜索,推荐用你会的所有语言各搜一次,结果页面多翻几页,可能会有意想不到的效果

  一般搜到的都是政府或国际组织网站(例如国家旅游局、世界银行),这类数据的好处是来源可靠、一键下载,坏处是通常只有综合数据(不会细分到地区、个人,不会细分到每月、每天),很多还缺历史数据(只有当天、当月数据)

  如果搜到的是论坛里的帖子,请一定核实数据来源,否则很容易以讹传讹;需要论坛币的资源先别急着买论坛币下载,很多其实都可以通过下面提到的方法拿到

  如果搜到的是媒体报道或转载,请一定核实数据来源;媒体水平参差不齐,中文媒体很多不标注数据来源,使用的时候要特别小心

  政府网站数据库

  很多政府网站都有数据库,收录比较详细的数据(细分到地区、过去十年数据等);数据库本身的展示方式决定了它们通常不容易直接搜到,需要你去网站自己查阅

  统计部门的网站上没有,可以试试其他部门网站(弄清政府各部门职能很重要);中央政府网站没有,可以试试地方网站(弄清行政区划很重要)

  如果找到了你要的数据(例如统计年鉴)但无法直接下载,可以去图书馆借阅,也可以请你在大学或大公司的朋友帮忙借阅;年鉴通常有电子版(光盘),只是格式通常不是你想要的,需要后期清洗

  国内外由政府、学术机构主导的调查

  搜索“中国 家庭 收入 调查”几个关键词,就可以搜到相关调查;注意看组织方是谁——靠谱的调查通常由科研人员主导,方法公开且相对规范

  在收入、教育、健康、价值观等各领域,国际组织和各国大学都会做长期调查,方法全球统一,方便跨国、跨时间比较

  此类数据可能会提供免费的线上阅览版,对做 PPT 来说这些数据通常够用;如果需要原始数据,调查方可能需要核实你的身份及研究目的,整个核实过程短则一天长则一个月

  私人机构调查(“基金会”、“民调中心”、“大数据公司”)

  私人机构在诚信、专业水平上良莠不齐,需要谨慎鉴别;如果只是做 PPT 可能够用;做学术研究,需要确认调查方法是否科学、调查机构是否靠谱;至于去哪里找靠谱的调查,一个捷径是多阅读文献,看知名作者引用过哪些

  绝大多数私人机构都不会公开原始数据,所以一般能接触到的只有机构官方发布的报告、博客文章等

  学术期刊数据库

  很多期刊现在都要求作者公开原始数据,方便重复论文结果。所以期刊网站有每篇论文的配套数据,包括论文作者清洗过的公开数据和作者自己做的调查、实验数据

  此类数据只能按论文标题搜到,所以如果不读文献的话很难直接在搜索引擎上按关键字找到

  电话索取

  网上找不到的资料,可以试试直接给数据来源方打电话;幸运的话,他们的资料可以直接公布在网上、私下发给你、现场让你阅览

  电话索取想要成功,关键在于你要绕过接线前台、直接找到管理数据的人;这个步骤的难易程度又取决于你和数据来源方的关系:

  向政府机构索要数据,一定要找到分管统计的部门(网上找分机号或直接请前台转接)。如果找错部门,对方要么会说他们不管此事然后挂断,要么给你转分机再转分机,一天就这么过去了

  除了找对人,还要做好打持久战的准备,预留足够时间。统计部门的电话接通后,你很可能得到以下答复:今天马上要下班了;政府在罢工;办公室唯一管这件事的同事现在在休假,下个月才能回来;你要的数据得请示领导同意,而领导在出差,也不知道什么时候回来;申请数据需要填写表格,政府确认你的申请需要一个月,答复需要三个月

  “你留个电话,有消息我们打给你”这类回复是永远不能相信的。你需要在电话里问清对方姓名,买一张无限通话的电话卡,过一段时间主动打过去,指名找他

  如果你想向业内公司打探行情但又无法提供任何好处,请一定要搞清楚公司内部结构,电话里客气地直接要求找负责该业务的人(最好是直接报上对方姓名或分机号),避免和前台纠缠太久

  一定要准备好你的各类信息,例如联系方式、办公地址、老板姓名等,以便回答电话那头的问题;如果是替雇主打电话,一定要向老板确认能否在电话里表明你的身份

  电话那头如果无法现在给你答复,一定要在挂断前确认对方姓名及下次跟进的时间

  常听人说“上班前、下班后打电话可以绕过前台直接找到老板”,在实践中我还没发现这样做有用,可能公司与公司不同吧

  如果你是记者或生意伙伴(即可以给对方提供曝光、投资等好处),可以直接请前台转公关、商务负责人

  如果以后经常需要对方的信息,最好能和某位公关、商务建立长期关系

  你可以给数据来源方提供好处

  数据来源方与你毫无关联

  数据来源方应该提供数据,但并不理你

  不管是打什么电话,成功主要靠厚脸皮和耐心。上午打不通就下午打;这次接电话的人不理你,过会儿打说不定是另一个人接;这家公司不行就换别家

  自己生产

  在一些情况下,数据是可以自己生产的,通过抓取网页、调查、实验三种方法

  抓取网页

  什么情况下可以抓网页?如果我们需要的就是网络数据(电商商品价格、电影评分、社交媒体好友关系),又或者线上活动是很好的代理变量(量化一个不可观测的变量)

  怎样抓取?如果是主流网站,搜索“网站名 抓取”或“网站名 爬虫”,把搜索结果的时间限定调成“一年以内”,就能找到一步一步的教学;如果是小众网页,可以看看网页结构然后搜索教学帖;现在也可以雇人写脚本,过程方便且价格可以接受

  调查

  (社会科学)实验不一定需要很多钱。例如很多研究歧视的实验,只需要研究人员向大学、公司群发简历即可;很多研究政府的实验,只需要向议员写信即可;研究社交媒体的实验,只需要写程序来发帖即可

  虽然没有钱,但我们有很多时间。教授要付钱请人做的事,我们多花点时间、和其他钱少时间多的人合作,说不定也可以做出来

  如果你有技术但没有钱,可以和有资金的前辈合作,可以向政府或非政府机构提供免费咨询、分析,以换取数据。当然,这个方法还是很靠“关系”

  “关系”如果真的够硬,可以让一国总统直接按你说的方法做实验

  很多时候,调查其实并不需要那么多钱,尤其是网络调查。真正困难的地方在于调查设计。如果没有读过专业书籍或积累实战经验,第一次做调查很难保证设计得科学

  实验

  (社会科学)实验不一定需要很多钱。例如很多研究歧视的实验,只需要研究人员向大学、公司群发简历即可;很多研究政府的实验,只需要向议员写信即可;研究社交媒体的实验,只需要写程序来发帖即可

  虽然没有钱,但我们有很多时间。教授要付钱请人做的事,我们多花点时间、和其他钱少时间多的人合作,说不定也可以做出来

  如果你有技术但没有钱,可以和有资金的前辈合作,可以向政府或非政府机构提供免费咨询、分析,以换取数据。当然,这个方法还是很靠“关系”

  “关系”如果真的够硬,可以让一国总统直接按你说的方法做实验

  “理想数据”与时间规划

  设计研究方案的时候,要先从“理想状态”出发——问自己,能够回答我研究问题的“最理想的数据”长什么样?是个人、家庭、公司、省还是国家层面的数据,有哪些变量,是哪个时间段的……

  只有想明白理想数据长什么样,才可以开始搜索、采集。因为这样你可以最快找到近似理想的数据,也可以最快发现找到的数据有哪些局限、对你研究最后得到的结论有哪些影响。

  时间规划方面,一定要给数据搜集预留充分的时间。很多时候你可能计划用一周搜集数据,另一周分析。你以为你要的数据网上肯定有,几秒钟就可以下载完,给一周时间绰绰有余。

  然而事实上,很多数据根本不存在(电脑普及之前的资料很多地方都没有保存);如果有,对方也不一定会给你;对方给了你,也一定不是你拿到手就可以立刻分析的格式。所以时间规划上一定不要盲目乐观。通常一个项目,70% 甚至 90% 的时间都花在“准备工作”上。





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款