你好,游客 登录 注册 搜索
背景:
阅读新闻

数据处理,不可不知的常用工具

[日期:2016-05-18] 来源:djchina  作者:吴嘉川、刘佳昕 [字体: ]

  网页、PDF里的数据获取,令人头大;更别提数据清理了。在大多数情况下,做数据可视化的我们都难以得到最干净整洁全面的“ready to go”的数据,需要我们在网页中去“挖”,再去另外的平台进行“清理”,下面就介绍一些NICAR中被提到的常用工具。

数据处理

  01 网页获取数据-非编程方式

  A. Web Scraper

  Web Scraper 是一款用于网页数据索取的谷歌浏览器插件,用户可以自行创建数据抓取计划,命令它索取你需要的数据,最终数据可以以csv类型文件导出。

  B. Import.io

  Import.io 是一款免费的桌面应用,它可以帮助用户从大量网页中抓取所需数据,它把每个网页都当成一个可以生成API的数据源。

  C. HTML表格插件

  Chrome插件

  Firefox插件

  D. Down Them All

  另外一款用于从网页下载文件的火狐浏览器插件,它包含一些比较简单的过滤功能,比如用户可以选择只下载包含名字中包含“county”的xls文件或者zip压缩包(*county*.zip)。

  E. WGET

  WGET是一个使用命令行的传统而很好用的数据索取方式。假设用户想从一个网站上索取省份信息,每个州都有统一格式的URL,比如http://sitename.com/state/34 和 http://sitename.com/state/36, 用户就将一个包含所有这些url的exl表格存成text文件,这样就可以用wget-ilist.txt来获取所有身份信息。

  F. XML奇迹

  很多情况下,网页的数据是以xml的形式架构起来的,这个教程可以帮助用户探索网页中潜在的数据结构,搞清楚网页的代码源是如何被组织起来的。

  02 获取PDF中的数据

  A. 免费软件

  a). CometDocs是用于从PDF中抓取表格数据最简单有效的工具。用户可以直接进入网站,上传文件,选择输出文件类型,输入你的邮件地址,完成。

  缺点:不能免费处理图片,需要订购OCR服务。

PDF

  b). Tabula 是一款你可以直接下载安装到电脑上的免费软件,它可以帮助你导入PDF文件并输出单份表格。在你导入相应的PDF文件之后,你需要手动将需要的表格框出来,Tabula会试图在保留行列的前提下转化数据。

  缺点:Tabula不能做到光学字符识别,它不如下面会列举到的商业程序精确,比如它获取的行列边距不是很准确,需要手动调整。

  B. 付费程序:

  a). Cogniview和Tabula类似,你可以将需要的表格框起来,但是如果Congniview猜错了,你可以很容易地调整它的范围。更棒的是,它有光学字符识别版本,这样即便是图片它也可以识别。

付费程序

  b). ABLE2EXTRACT是纽约时报图像部门钟爱的程序,界面和使用方式和Cogniview都很类似。

  缺点:大多数时候Able2Extract都表现很好,但它的调试系统不如Cogniview。

  c). ABBY FineReader

  d). Adobe Acrobat Pro

  e). Datawatch Monarch是这个系列里的明星软件,但价格不菲。如果你在做一个长期的项目,并且要从一个很难转换的形式中获取数据,Monarch是非常值得推荐的。Monarch在转换报告中数据的时候非常杰出,用户可以自主设计输出表格的形式。

  03 清理数据- Open Refine

  Open Refine是清理数据方面一款强大的工具。比较典型的使用案例是当你有一个人名、公司名格式不统一的数据时,Open Refine就是很好的选择。在NICAR会议中,来自纽约时报的数据库项目编辑Robert Gebeloff

  和Kaas & Mulvad创始人兼CEO Nils Mulvad对Open Refine使用其自创教程对Open Refine进行了讲解:

  教程: >https://github.com/gebelo/nicar2016/blob/master/refine.pdf

  辅助数据资料:

  https://github.com/gebelo/nicar2016/blob/master/prof.csv

  https://github.com/gebelo/nicar2016/blob/master/defendants.xlsx

 

  End.





收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款