你好,游客 登录 注册 搜索
背景:
阅读新闻

数据可视化、信息可视化、知识可视化

[日期:2014-12-18] 来源:大数据邦  作者:大数据邦 [字体: ]

  概述

  数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。

  基本概念

  数据可视化技术包含以下几个基本概念:①数据空间:是由n维属性和m个元素组成的数据集所构成的多维信息空间;②数据开发:是指利用一定的算法和工具对数据进行定量的推演和计算;③数据分析:指对多维数据进行切片、块、旋转等动作剖析数据,从而能多角度多侧面观察数据;④数据可视化:是指将大型数据集中的数据以图形图像形式表示,并利用数据分析和开发工具发现其中未知信息的处理过程。目前数据可视化已经提出了许多方法,这些方法根据其可视化的原理不同可以划分为基于几何的技术、面向像素技术、基于图标的技术、基于层次的技术、基于图像的技术和分布式技术等等。

  历史

  数据可视化领域的起源可以追溯到二十世纪50年代计算机图形学的早期。当时,人们利用计算机创建出了首批图形图表。1987年,由布鲁斯·麦考梅克、托马斯·德房蒂和玛克辛·布朗所编写的美国国家科学基金会报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”),对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于计算机的可视化技术方法的必要性。随着计算机运算能力的迅速提升,人们建立了规模越来越大,复杂程度越来越高的数值模型,从而造就了形形色色体积庞大的数值型数据集。同时,人们不但利用医学扫描仪和显微镜之类的数据采集设备产生大型的数据集,而且还利用可以保存文本、数值和多媒体信息的大型数据库来收集数据。因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集。  短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于计算机建模和模拟的运用。更近一些的时候,可视化也日益尤为关注数据,包括那些来自商业、财务、行政管理、数字媒体等方面的大型异质性数据集合。二十世纪90年代初期,人们发起了一个新的,称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,目前人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化” 。 自那时起,数据可视化就是一个处于不断演变之中的概念,其边界在不断地扩大;因而,最好是对其加以宽泛的定义。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多。

  数据可视化的适用范围

  关于数据可视化的适用范围,目前存在着不同的划分方法。一个常见的关注焦点就是信息的呈现。例如,迈克尔·弗兰德利(2008)提出了数据可视化的两个主要的组成部分:统计图形和主题图。另外,《Data Visualization: Modern Approaches》(意为“数据可视化:现代方法”)(2007)一文则概括阐述了数据可视化的下列主题 :

  1)思维导图

  2)新闻的显示

  3)数据的显示

  4)连接的显示

  5)网站的显示

  6)文章与资源

  7)工具与服务

  所有这些主题全都与图形设计和信息表达密切相关。

  另一方面,Frits H. Post (2002)则从计算机科学的视角,将这一领域划分为如下多个子领域:

  1)可视化算法与技术方法

  2)立体可视化

  3)信息可视化

  4)多分辨率方法

  5)建模技术方法

  6)交互技术方法与体系架构

  数据可视化的成功应归于其背后基本思想的完备性:依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。其第二个前提就是利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。这些思想和概念极其重要,对于计算科学与工程方法学以及管理活动都有着精深而又广泛的影响。《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中重点强调了各种应用领域与它们各自所特有的问题求解可视化技术方法之间的相互作用。

  相关领域

  数据采集(有时缩写为DAQ或DAS),又称为“数据获取”或“数据收集”,是指对现实世界进行采样,以便产生可供计算机处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成元件当中包括用于将测量参数转换成为电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的。

  数据分析

  数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。   数据分析的类型包括:1)探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基命名。2)定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

  数据治理

  数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术,数据治理旨在:1)增强决策制定过程中的一致性与信心 2)降低遭受监管罚款的风险 3)改善数据的安全性 4)最大限度地提高数据的创收潜力 5)指定信息质量责任

  数据管理

  数据管理,又称为“数据资源管理”,包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理,DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛,涵盖了许多可能在技术上并不直接接触低层数据管理工作(如关系数据库管理)的职业。

  数据挖掘

  数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智能组织和金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大数据集之中提取信息。 数据挖掘被描述为“从数据之中提取隐含的,先前未知的,潜在有用信息的非凡过程”,以及“从大型数据集或数据库之中提取有用信息的科学”。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析,从中寻找可能有助于决策制定工作的模式的过程。

  扩展阅读:

  http://zh.wikipedia.org/wiki/数据可视化#cite_note-FHP02-2

  数据可视化是关于数据之视觉表现形式的研究;其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量[1]。

  概述

  数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着,数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息[2]。

  数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一[3]。

  历史

  法国工程师查尔斯·约瑟夫·密纳德(英语:Charles Joseph Minard)于1861年绘制的关于拿破仑入侵俄罗斯的信息图

  数据可视化领域的起源可以追溯到二十世纪50年代计算机图形学的早期。当时,人们利用计算机创建出了首批图形图表。1987年,由布鲁斯·麦考梅克(英语:Bruce H. McCormick)、 托马斯·德房蒂(英语:Thomas A. DeFanti)和玛克辛·布朗(英语:Maxine D. Brown)所编写的美国国家科学基金会报告《Visualization in Scientific Computing》(意为“科学计算之中的可视化”)[4] ,对于这一领域产生了大幅度的促进和刺激。这份报告之中强调了新的基于计算机的可视化技术方法的必要性。随着计算机运算能力的迅速提升,人们建立了规模越来越大,复杂程度越来越高的数值模型,从而造就了形形色色体积庞大的数值型数据集。同时,人们不但利用医学扫描仪和显微镜之类的数据采集设备产生大型的数据集,而且还利用可以保存文本、数值和多媒体信息的大型数据库来收集数据。因而,就需要高级的计算机图形学技术与方法来处理和可视化这些规模庞大的数据集 [3]。

  短语“Visualization in Scientific Computing”(意为“科学计算之中的可视化”)后来变成了“Scientific Visualization”(即“科学可视化”),而前者最初指的是作为科学计算之组成部分的可视化:也就是科学与工程实践当中对于计算机建模和模拟的运用。更近一些的时候,可视化也日益尤为关注数据,包括那些来自商业、财务、行政管理、数字媒体等方面的大型异质性数据集合。二十世纪90年代初期,人们发起了一个新的,称为“信息可视化”的研究领域,旨在为许多应用领域之中对于抽象的异质性数据集的分析工作提供支持。因此,目前人们正在逐渐接受这个同时涵盖科学可视化与信息可视化领域的新生术语“数据可视化”[3] 。

  自那时起,数据可视化就是一个处于不断演变之中的概念,其边界在不断地扩大;因而,最好是对其加以宽泛的定义。数据可视化指的是技术上较为高级的技术方法,而这些技术方法允许利用图形、图像处理、计算机视觉以及用户界面,通过表达、建模以及对立体、表面、属性以及动画的显示,对数据加以可视化解释。与立体建模之类的特殊技术方法相比,数据可视化所涵盖的技术方法要广泛得多[5]。

  数据可视化的适用范围

  

  北京地铁2015年规划图

  

  手绘心智图

  关于数据可视化的适用范围,目前存在着不同的划分方法。一个常见的关注焦点就是信息的呈现。例如,迈克尔·弗兰德利(英语:Michael Friendly)(2008)提出了数据可视化的两个主要的组成部分:统计图形和主题图(英语:Thematic map)[1]。另外,《Data Visualization: Modern Approaches》(意为“数据可视化:现代方法”)(2007)一文则概括阐述了数据可视化的下列主题[6]:

  思维导图

  新闻的显示

  数据的显示

  连接的显示

  网站的显示

  文章与资源

  工具与服务

  所有这些主题全都与图形设计和信息表达密切相关。

  另一方面,Frits H. Post (2002)则从计算机科学的视角,将这一领域划分为如下多个子领域[3]:

  可视化算法与技术方法

  立体可视化

  信息可视化

  多分辨率方法

  建模技术方法

  交互技术方法与体系架构

  数据可视化的成功应归于其背后基本思想的完备性:依据数据及其内在模式和关系,利用计算机生成的图像来获得深入认识和知识。其第二个前提就是利用人类感觉系统的广阔带宽来操纵和解释错综复杂的过程、涉及不同学科领域的数据集以及来源多样的大型抽象数据集合的模拟。这些思想和概念极其重要,对于计算科学与工程方法学以及管理活动都有着精深而又广泛的影响。《Data Visualization: The State of the Art》(意为“数据可视化:尖端技术水平”)一书当中重点强调了各种应用领域与它们各自所特有的问题求解可视化技术方法之间的相互作用[3]。

  相关领域

  

  核医学成像:心脏SPECT(英语:SPECT)图像(短轴视图)与心脏三维模型的融合

  

  利用2004年来自哈柏太空望远镜的照片以及地基图像所编制合成的螺旋星云可见光图像。

  

  全球气温分布图

  数据采集

  数据采集(有时缩写为DAQ或DAS),又称为“数据获取”或“数据收集”,是指对现实世界进行采样,以便产生可供计算机处理的数据的过程。通常,数据采集过程之中包括为了获得所需信息,对于信号和波形进行采集并对它们加以处理的步骤。数据采集系统的组成元件当中包括用于将测量参数转换成为电信号的传感器,而这些电信号则是由数据采集硬件来负责获取的。

  数据分析

  数据分析是指为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析与数据挖掘密切相关,但数据挖掘往往倾向于关注较大型的数据集,较少侧重于推理,且常常采用的是最初为另外一种不同目的而采集的数据。在统计学领域,有些人将数据分析划分为描述性统计分析、探索性数据分析以及验证性数据分析;其中,探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。

  数据分析的类型包括:

  探索性数据分析:是指为了形成值得假设的检验而对数据进行分析的一种方法,是对传统统计学假设检验手段的补充。该方法由美国著名统计学家约翰·图基(英语:John Tukey)命名。

  定性数据分析:又称为“定性资料分析”、“定性研究”或者“质性研究资料分析”,是指对诸如词语、照片、观察结果之类的非数值型数据(或者说资料)的分析。

  数据治理

  数据治理涵盖为特定组织机构之数据创建协调一致的企业级视图(enterprise view)所需的人员、过程和技术;数据治理旨在:

  增强决策制定过程中的一致性与信心

  降低遭受监管罚款的风险

  改善数据的安全性

  最大限度地提高数据的创收潜力

  指定信息质量责任

  数据管理

  数据管理,又称为“数据资源管理”,包括所有与管理作为有价值资源的数据相关的学科领域。对于数据管理,DAMA所提出的正式定义是:“数据资源管理是指用于正确管理企业或机构整个数据生命周期需求的体系架构、政策、规范和操作程序的制定和执行过程”。这项定义相当宽泛,涵盖了许多可能在技术上并不直接接触低层数据管理工作(如关系数据库管理)的职业。

  数据挖掘

  数据挖掘是指对大量数据加以分类整理并挑选出相关信息的过程。数据挖掘通常为商业智能组织和金融分析师所采用;不过,在科学领域,数据挖掘也越来越多地用于从现代实验与观察方法所产生的庞大数据集之中提取信息。

  数据挖掘被描述为“从数据之中提取隐含的,先前未知的,潜在有用信息的非凡过程”[7],以及“从大型数据集或数据库之中提取有用信息的科学”[8]。与企业资源规划相关的数据挖掘是指对大型交易数据集进行统计分析和逻辑分析,从中寻找可能有助于决策制定工作的模式的过程[9]。

  参见

  计算机图形学

  可视化

  信息可视化

  科学可视化

  信息可视化

  [1]

  信息可视化(Information visualization)是一个跨学科领域,旨在研究大规模非数值型信息资源的视觉呈现,如软件系统之中众多的文件或者一行行的程序代码,以及利用图形图像方面的技术与方法,帮助人们理解和分析数据。与科学可视化相比,信息可视化则侧重于抽象数据集,如非结构化文本或者高维空间当中的点(这些点并不具有固有的二维或三维几何结构)。

  

  信息可视化囊括了数据可视化、信息图形、知识可视化、科学可视化以及视觉设计方面的所有发展与进步。在这种层次上,如果加以充分适当的组织整理,任何事物都是一类信息:表格、图形、地图,甚至包括文本在内,无论其是静态的还是动态的,都将为我们提供某种方式或手段,从而让我们能够洞察其中的究竟,找出问题的答案,发现形形色色的关系,或许还能让我们理解在其他形式的情况下不易发觉的事情。不过,如今在科学技术研究领域,信息可视化这条术语则一般适用于大规模非数字型信息资源的可视化表达。 信息可视化致力于创建那些以直观方式传达抽象信息的手段和方法。可视化的表达形式与交互技术则是利用人类眼睛通往心灵深处的广阔带宽优势,使得用户能够目睹、探索以至立即理解大量的信息。

  一些例子

  各种各样数据结构的可视化需要新的用户界面以及可视化技术方法。现在,这已经发展成为了一门独立的学科,也就是“信息可视化”[2]。信息可视化与经典的科学可视化是两个彼此相关的领域,但二者却有所不同。在信息可视化当中,所要可视化的数据并不是某些数学模型的结果或者是大型数据集,而是具有自身内在固有结构的抽象数据。此类数据的例子包括:1)编译器等各种程序的内部数据结构,或者大规模并行程序的踪迹信息;2)WWW 网站内容;3)操作系统文件空间;4)从各种数据库查询引擎那里所返回的数据,如数字图书馆。信息可视化领域的另一项特点就是,所要采用的那些工具有意侧重于广泛可及的环境,如普通工作站、WWW、PC机等等。这些信息可视化工具并不是为价格昂贵的专业化高端计算设备而定制的[2]。信息可视化与可视化分析在目标和技术之间存在着部分重叠。虽然在这两个领域之间还没有一个清晰的边界,但大致有三个方面可以作以区分。科技可视化主要处理具有地理结构的数据,信息可视化主要处理像树、图形等抽象式的数据结构,可视化分析则主要挖掘数据背景的问题与原因。

  与可视化分析论之间的联系

  就目标和技术方法而言,信息可视化与可视化分析论之间存在着一些重叠。当前,关于科学可视化、信息可视化及可视化分析论之间的边界问题,还没有达成明确清晰的共识。不过,大体上来说,这三个领域之间存在着如下区别:1)科学可视化处理的是那些具有天然几何结构的数据(比如,MRI数据、气流)。2)信息可视化处理的是抽象数据结构,如树状结构或图形。 3)可视化分析论尤其关注的是意会和推理。

  发展历史

  自十八世纪后期数据图形学诞生以来,抽象信息的视觉表达手段一直被人们用来揭示数据及其他隐匿模式的奥秘。二十世纪90年代期间新近问世的图形化界面,则使得人们能够直接与可视化的信息之间进行交互,从而造就和带动了十多年来的信息可视化研究。信息可视化试图通过利用人类的视觉能力,来搞清抽象信息的意思,从而加强人类的认知活动。籍此,具有固定知觉能力的人类就能驾驭日益增多的数据。信息可视化的英文术语“Information Visualization”是由斯图尔特·卡德、约克·麦金利和乔治·罗伯逊于1989年创造出来的。据斯图尔特·卡德1999年的报告称,二十世纪 90年代以来才兴起的信息可视化领域,实际上源自其他几个领域。2003年,本·什内德曼指出,该领域已经由研究领域之中从稍微不同的方向上崭露出头角。同时,他还提到了图形学、视觉设计、计算机科学以及人机交互,以及新近出现的心理学和商业方法。

  相关应用

  信息可视化日益成为不同领域方向的关键要素:科学技术研究工作;数字图书馆;数据挖掘;财务数据分析和市场研究;生产制造过程的控制;   犯罪地图。





收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款