你好,游客 登录
背景:
阅读新闻

大数据 - R语言数据可视化 1

[日期:2016-06-27] 来源:  作者:潘尚 [字体: ]

一.学习目标

  • 数据科学及需要具备的知识和技能
  • 了解数据的特征
  • 数据可视化: R的绘图系统
  • 制作并发布报告 (markdown, 制作数据报表)

二.环境安装与R Stdio

  • R for windows 环境: https://cran.r-project.org/bin/windows/base/R-3.3.1-win.exe

- 如需要自己的版本,可以去官网查询. - 安装好后测试是否能正常运行: 在控制台输入: - 1.vol=trees[[“Girth”]]^2 trees[[“Height”]]/(4 pi) 回车 - 2.hist(vol,col=1)回车 - 显示:大数据

三.数据科学家需要具备的技能

  • Hacking Skills 计算机知识
  • Math & Statistics 数学统计知识
  • Substantive Expertise 生物方面知识(可选) 医学方向
职位包含  
数据开发者 开发者 工程师  
数据研究者 研究人员 科学家 统计学家
数据创造者 什么都要会一点 艺术技能 黑客技能
商业职位 领导者 企业家  

四.数据分析流程

  • 初步流程
st=>start: 流程开始
e=>end: 结束
op=>operation: 定义研究问题
op2=>operation: 定义理想的数据集
op3=>operation: 确定能够获取什么数据(与资金相干)
op4=>operation: 获取数据(开始行动)
op5=>operation: 清理数据(只选取关心变量)
ed=>end: 结束

st->op->op2->op3->op4->op5->ed

  • 实际操作
st=>start: 操作
e=>end: 结束
op=>operation: 探索性分析(数据可视化)
op2=>operation: 统计分析, 建模, 机器学习等
ed=>end: 结束

st->op->op2->ed

  • 尾声
st=>start: 流程
e=>end: 结束
op=>operation: 解释, 交流结果(以可视化为前提)
op2=>operation: 挑战结果(是否遗漏?)
op3=>operation: 书写报告(Reproducible原则)
ed=>end: 结束

st->op->op2->op3->ed

  • 驱动方式 : 假设驱动 (Hypothesis Driven) 学术界较多
  • 驱动方式: 数据驱动(Data Driven) 商业工业界较多
  • 推荐假设驱动

五.数据基础

  • 观测, 变量, 数据矩阵

  • 变量:
  • 数值 -> 连续, 离散.(可进行计算, 加减乘除求平均等)
  • 分类 -> 取值空间有限, 不能计算(加减乘除) > 有序, 无序

六.数值变量的特征和可视化1

  • 数据集中趋势的测量: 均值, 中位数, 众数
  • 分散趋势: 值域, 方差, 标准差, 四分位距

  • 操作实践: 打开 R stdio, 新建R script
  • 输入 x <- c(1,9,2,8,3,9,4,5,7,6)
  • 点击 run

有:

  • x <- c(1,9,2,8,3,9,4,5,7,6) mean(x) 均值 median(x) 中位数 var(x) 方差 sd(x) 标准差 summary(x) 自动分类统计

六.数值变量的特征和可视化2

  • 稳健统计量
  • 是: 中位数, 四分位差(受极端值影响小)
  • 否: 均值, 标准差, 值域(受极端值影响大)

  • 一个变量的可视化
  • 柱状图(正太分布),点图(分布)
  • 一般统计分析需要满足正太分布
  • 其他: 左偏分布, 右偏分布

  • 点图

  • 一个变量的可视化
  • 箱图,(中位数, 分位点, 极端值)

  • 两个变量的关系
  • 散点图: 方向, 形状, 强度, 极端值

七.分类变量的特征和可视化

一个分类变量的可视化

  • 频率表
  • 条形图

两个分类变量的关系

  • 关联表, 相对频率表

注意: 相关不代表因果





收藏 推荐 打印 | 录入: | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款