大数据：之于人的“大脑”-技术方案-@大数据资讯

　　现如今，在大数据时代下，当我们提到大数据，我们通常想到的网站：十亿社交媒体的用户，数以百万计的手机感应器，成千上万的维基百科的贡献词条等等。由于最近的创新，网络级数据现在也可以来自一个小但非常复杂的对象——大脑。

　　分布式计算的新进展正在改变神经科学家处理结果数据的方式，并可能在这个过程中，改变我们对计算的看法。

　　大脑由许多神经元组成，一只苍蝇或斑马鱼幼体有十万的神经元，老鼠有数百万的神经元，人有数十亿的神经元。其功能依赖于神经元的活动以及它们彼此如何沟通。长期以来，神经活动的记录一度仅限于少数的神经元，但最近的一些进步使我们能够监测整个成千上万个神经元，在某些情况下(如斑马鱼幼虫)，甚至是整个大脑的反应。

　　许多这些方法是光学方法：动物被基因工程改造以使它们的神经元的字面点亮时的这些活动模式显微镜捕获图像的活性，以及动物表现出不同的行为。由此产生的数据到达每小时TB级，对分析和理解提出了重大挑战。它们需要两个低层次处理(“munging”)和高级别分析。因此，我们要用多种方式查看每个数据集，如有关动物行为或实验的神经反应方面，或通过识别大量的的相关活动模式。我们永远无法提前知道答案，有时我们甚至不知道从哪里开始。

　　我们需要探索大型数据集以及开发新分析的灵活性的互动工具。到现在为止，单一的工作站解决方案，如在一个功能强大的机器上运行Matlab，已经成为神经科学的标准，但这些解决方案扩展很差。在分布式计算替换中，我们发现Apache Spark的平台提供了核心优势。首先，Spark的抽象的内存缓存使得够在数秒或数分钟内迅速找到大型数据集，加速了数据探索。其次，Spark提供在Scala、Java和Python中强大，灵活，直观的API。Python的API是特别有吸引力，因为它可以让我们结合Spark与各种现有的Python工具进行科学计算(NumPy，SciPy和scikit-learn)和可视化(matplotlib，seaborn，mpld3)。

　　用Spark为大型计算平台，我们正在开发名为迅雷的开放资源库来模块式地表达、分析Python常用工作流的时空数据。(这个库以及应用实例，在最近同米沙阿伦斯实验室合作发表的论文中被提及。)

　　通过将大脑反应与外部世界属性相联系，很多分析建立了大脑的统计“映射”。比如，斑马鱼呈现了正朝着不同的方向的模式，我们可以计算出一个抓住了每个神经元的反应呈现出不同的方向的映射。这很像投票取向映射——人民投票支持的候选人，神经投票支持方向。在另一个例子中，我们比较了神经元对动物的游泳的反应，发现当动物在游泳时，脑部的大部分反应激烈，但另一部分在不游泳时反应激烈，这些神经元的功能仍然是个谜。

　　这种映射是静态的，但我们的数据基本上是动态的，因为神经元活性随时间变化。一系列基于降维(这里审查)的方法从高维时间序列数据开始，恢复低维表示，用于捕获关键动态特性，尽管用的是简单的形式。这些一次性检查了全部数据的分析特别依赖于分布式计算。

　　我们的长期目标是要利用这些技术来揭示神经编码原则。大多数神经科学家认为，大脑的计算引擎非常有效，比一台笔记本电脑消耗的能量少，切能够在毫秒内识别目标，定位一个充满障碍的环境，并协调复杂的运动计划。了解这些功能将反过来刺激人工智能的进步的想法由来已久。实际上，所谓的神经网络，包括最近的深信念网络热潮，大脑结构的模拟物：它们由许多彼此传递信号的类似“神经细胞”的节点建立。有些网络解决任务，如对象和语音识别，以及令人印象深刻。

　　但是，这些网络和现实的大脑之间仍存在着显著差距。在大多数的人工网络中，每个节点本质上不一样，任何时候我们都能看到大脑的多样性。成百上千种不同的神经元，具有不同的形态，功能，连接模式，以及沟通的方式。真正的生物不解决只是一个有明确目标(如人脸识别)、非常具体的任务。它们灵活地同一个动态的、不断变化的世界进行互动。这种神经多样性的作用与生物计算的基本原则仍是一个谜。但大量的努力，映射整个神经系统的活动，以及有系统地表征神经元形态和解剖连通，将有助于铺平解决问题的道路。

　　在短期，可能还有另一种神经科学的研究方法会影响计算，数据挖掘和人工智能。数据神经学家正在进行收集，与其它数据进行对抗，不仅是在规模上，而且在复杂性上。神经科学会越来越受益于更广泛的数据科学和机器学习的社区。例如，我们的映射分析类似于从大的卫星图像数据或地理统计学习功能。而且，只要我们的数据是时间序列的集合，它们会像网站上随时间变化的用户统计数据或出现在我们的身体的传感器和我们家里的信号。

　　D1Net评论：

　　不管是什么来源，科学家们在不同层面都面临着类似的挑战——前处理、分布式管道、算法模式发现和可视化，我越来越相信我们可以，而且应该，开始一起解决这些问题，只是时间问题。