你好,游客 登录 注册 搜索
背景:
阅读新闻

数据挖掘入门

[日期:2014-12-16] 来源:山坡上的人们  作者: [字体: ]

    当前工作上需要上对数据进行处理分析,以辅助运营部门工作。在此记录下一些过程,以总结提高。

准备

    由于第一次接触数据分析以供其他部分同事使用的工作,所以走了一些弯路。一开始的时候是阅读一些大数据分析的书籍,这些书籍基本都是从工具角度去 进行介绍,而没有从总体的角度去解析这种事情。所以对初期工作的开展没有太大的帮助,应该是在对事情处理一般流程大概了解后,再利用特定的工具。

    接下来让我们看一下CRISP-DM(跨行业数据挖掘标准流程)是怎么样定义流程。

业务理解(Business Understanding)

    最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。

数据理解(Data Understanding)

    目的是熟悉数据,识别数据的质量问题,发现数据的内部属性。

数据准备(Data Preparation)

    数据准备阶段包括从未处理数据中构造最终数据集的所有活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行多次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。

建模(Modeling)

    在这个阶段,可以选择和应用不同的模型技术,模型参数被调整到最佳的数值。一般,有些技术可以解决一类相同的数据挖掘问题。有些技术在数据形成上有特殊要求,因此需要经常跳回到数据准备阶段。

评估(Evaluation)

    到项目的这个阶段,你已经从数据分析的角度建立了一个高质量显示的模型。在开始最后部署模型之前,重要的事情是彻底地评估模型,检查构造模型的 步骤,确保模型可以完成业务目标。这个阶段的关键目的是确定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达 成。

部署(Deployment)

    模型的作用是从数据中找到知识,获得的知识需要便于用户使用的方式重新组织和展现。这里还遗留一个重要问题:怎么判断modeling是否还有效。

思考

    由于整个公司都是围绕业务进行,所以数据挖掘也需要围绕业务进行,这就预示着第一阶段的业务理解将是重要和困难。说到这,我想起之前读过的两句话:

  • 客户最了解自己的业务
  • 客户不知道自己要什么

    这两句话,我的理解是客户在明确自己的业务后,才能从客户处挖掘出其业务流程。而如果客户对于业务流程不明确的情况下,会挖掘出大量伪需求。或许关于需求挖掘有关于这方面的工具可以借鉴。

    如果是业务流程不明确,那么是不是就没有事情可做了呢?在初期可以以很少的投入去完成初始数据的输出,给运营部作参考。这样相当于给客户demo,起抛砖引玉的作用。

    原文链接:http://www.cnblogs.com/shanpow/p/4164038.html

 




收藏 推荐 打印 | 录入:Cstor | 阅读:
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款