大数据与数据挖掘的相对绝对关系第3页-技术方案-@大数据资讯

　　星系动物园：把天空转包给大众

　　星系动物园项目打破了大数据的规矩：它没有对数据进行大规模的计算机数据挖掘，而是把图像交给活跃的志愿者，由他们对星系做基础性的分类。该项目 2007 年启动于英国牛津，当时天文学家凯文·沙文斯基（Kevin Schawinski）刚刚蹬着眼睛瞧完了斯隆数字巡天计划拍摄的 5 万张图片。

　　阿拉巴马大学天文学教授、星系动物园科学团队成员威廉·基尔（William Keel）说，沙文斯基的导师建议他完成 95 万张图像。“他的眼睛累得快要掉出眼窝了，便去了一家酒馆。他在那里遇到了克里斯·林托特（Chris Lintott）。两人以经典的方式，在一张餐巾的背面画出了星系动物园的网络结构。”

　　星系是一个经典的大数据问题：一台最先进的望远镜扫描整个天空，可能会看到 2000 亿个这样的恒星世界。然而，“一系列与宇宙学和星系统计学相关的问题可以通过让许多人做相当简单的分类工作得以解决。”基尔说，“五分钟的辅导过后，分类便是一项琐碎的工作，直到今日也并不适合以算法实现。”

　　星系动物园的启动相当成功，用户流量让一台服务器瘫痪了，基尔说。

　　斯隆巡天的全部 95 万张图片平均每张被看过 60 次之后，动物园的管理者们转向了更大规模的巡天数据。科学受益匪浅，基尔说。“我的很多重要成果都来自人们发现的奇怪物体，”包括背光星系。

　　这是星系动物园志愿者们发现的差不多 2000 个背光星系之一。它被其后方的另一个星系照亮。来自背后的光令前景星系中的尘埃清晰可辨。星际尘埃在恒星的形成中扮演了关键的角色，但它本身也是由恒星制造的，因此检测其数量和位置对于了解星系的历史至关重要。

　　星系动物园依赖统计学、众多观察者以及处理、检查数据的逻辑。假如观察某个特定星系的人增加时，而认为它是椭圆星系的人数比例保持不变，这个星系就不必再被观察了。

　　然而，对一些稀有的物体，基尔说，“你可能需要 40 至 50 名观察者。”

　　大众科学正在发展自己的法则，基尔补充道。志愿者们的工作“已经对一个真实存在的重大问题做出了贡献，是现存的任何软件都无法实现的。鼠标的点击不该被浪费。”

　　这种动物园方法在 zooniverse.org 网站上得到了复制和优化。这是一个运行着大约 20 项目的机构，这些项目的处理对象包括热带气旋、火星表面和船只航行日志上的气象数据。

　　最终，软件可能会取代志愿者，基尔说。但是计算机和人类之间的界线是可互换的。比如说超新星动物园项目在软件学会了任务之后就关闭了。

　　我们惊讶地得知志愿者们积累的庞大数据是计算机学习分类的理想材料。“一些星系动物园用户真的很反感这一点。”基尔说，“他们对于自己的点击被用来训练软件表达出明显的怨恨。但是我们说，不要浪费点击。如果某人带来了同样有效的新算法，人们就不必做那些事情了。”