你好,游客 登录
背景:
阅读新闻

如何成为一个数据分析师--必备技能清单(中文版)

[日期:2017-05-22] 来源:简书  作者:飘荡的鱼头头头头头大 [字体: ]

因为有同学反映英文版看得太心累,所以翻译了一下,如果有任何错误,欢迎指正。英文版可以戳这里,后期可能会加上每个技能要求背后学习地址的链接。

总目录

  • 编程
  • 统计学
  • 数学
  • 机器学习
  • 数据整理
  • 数据可视化
  • 数据直觉

编程

  • Python
    • numpy
    • pandas
    • matplotlib
    • scipy
    • scikit-learn
  • R语言
    • ggplot2
    • dplyr
    • ggally
    • reshape2
  • 可选
    • ipython
    • ipython notebook
    • anaconda
    • ggplot
    • seaborn
    • 电子表格工具 (比如Excel)
  • 额外的技能
    • Javascript 和 HTML
      • D3.js
      • AJAX
      • jQuery
    • C/C++ 或者 Java

统计学

  • 描述性和推理性统计
    • 平均数,中位数,众数
    • 数据分布
      • 正态分布
      • 指数/泊松
      • 二项式分布
      • 卡方分布
    • 标准偏差和方差
    • 假设检验
      • P-values
    • 显著性检验
      • z检验, t检验, 曼-惠特尼秩和检验
      • 卡方检验和方差分析
  • 实验设计
    • A/B 测试
    • 控制变量并选择良好的控制和测试组
    • 采样大小和幂次现象
    • 假设测试,测试假设
    • 置信水平
    • SMART实验:具体,可衡量,可行,现实,及时

数学

  • 将数字和概念转换为数学表达式
  • 求解代数方程中的缺失值
  • 线性代数和微积分
  • 矩阵, 向量点积是理解的关键。
  • 特征值和特征向量 - 了解这两个概念的意义
  • 多变量导数和积分在微积分

机器学习

  • 监督学习
    • 决策树
    • 朴素贝叶斯分类
    • 普通最小二乘回法
    • 逻辑回归
    • 神经网络
    • 支持向量机
    • 集合方法
  • 无监督学习
    • 集群算法
    • 主成分分析(PCA)
    • 奇异值分解(SVD)
    • 独立成分分析(ICA)
      • 增强学习
      • Qlearning
      • TD-学习
      • 增强学习

数据整理

  • Python
    • 了解Python字符串库的字符串操作
    • 解析常见的文件格式,如csv和xml文件
    • 正则表达式
    • 数学变换
      • 比如,使用log-10变换将非正态分布转换为正态分布
    • 数据库系统(基于SQL和基于SQL) - 数据库充当存储信息的中心枢纽
    • 关系数据库,如PostgreSQL,mySQL,Netezza,Oracle等。
    • 可选:hadoop,Spark,MongoDB
    • SQL

交流和数据可视化

  • 了解可视化编码并传达您希望受众从可视化中移除的内容
  • 编程
    • matplotlib
    • ggplot
    • d3.js
  • 显示数据并说服用户与您的数据
    • 了解手头业务数据情况的背景
    • 思考五个步骤,预测听众的的问题将会在哪里,你的观众将挑战你的假设和结论
    • 提供(报告)预读,并在实际会议之前与感兴趣的各方进行预先协调会议




收藏 推荐 打印 | 录入:elainebo | 阅读:
本文评论    (0)
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款