虽然大数据越来越流行,但其学习的门槛却直阻碍着很多的分布式应用初学者或者大数据的业务应用。多个产品之间的不兼容问题,快速集成和维护也显得比较困难。不管是 Hadoop V1 或者 V2 的安装,又或者 Spark/YARN 等的集成,都不是几行简单的命令可以完成的,而是需要手工修改很多的集群配置,这进步增加了业务的学习和使用难度。有了 Ambari,这些都不...
日期:06/29/2015 16:59:10
作者:
今天分享的这篇文章,是 IDMer博主在2009年编译并发布的,虽然间隔6年之久,但这篇文章仍然影响着很多数据挖掘从业者、爱好者,奉为经典。原文标题为“Top 10 Data Mining Mistakes”,作者是John F. Elder IV, Ph.D。由IDMer(数据挖掘者)编译。
日期:06/26/2015 14:48:59
作者:
1、引言
k-means算法主要是用来解决什么问题呢?主要是用来解决类似于这样的问题:聚类,如次班聚餐,平时玩的好的同学,就会自动的聚集在起愉快的玩耍。那么什么样才算平时玩的好呢?请看k-means算法。 K-means算法是硬聚类算法,是典型的基于原型的目标函数聚类方法的代表,它是数据点到原型的某种距离作为优化的目标函数,利用函数求极值的方... 1、引言
贝叶斯分类算法是统计学的种分类方法,它是类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。 由于贝叶斯定理假设个属性值对给定类的影响独立于其它属性的值,而此假设在实际情况中经...
日期:06/26/2015 14:45:46
作者:
通过部署和使用大数据分析工具,分析流程可以帮助公司提高运营效率,产生新的利润,获得竞争优势。企业可选择的数据分析应用程序有很多。比如描述性分析善于描述已发生的事情,揭示因果关系。描述性分析主要输出查询、报表和历史数据可视化。
有时候我们需要用参数动态指定数据源,或将多数据源连接为单数据源,或向子报表、table控件动态传入数据源名。对于此类需求,报表工具经常要借助高语言实现或牺牲安全性以降低复杂度,尤其是BIRT、Jasper等单源报表。
日期:06/19/2015 14:25:29
作者:
之前在百度开放研究社区写了篇``深度学习文本的表示'', 现在这篇姑且作为其升篇吧。 因此本文再谈deep learning在文本表示学习方面的体会。 深度模型如何学习和表示词、短语、句子和篇章呢?
如果个小偷,用伪基站发送钓鱼短信,费尽心机偷了用户的支付宝密码,结果却死活拿不走里面的钱,这看得见吃不着的感受,该有多心塞呀!但,就是有这么憋屈的小偷。
日期:06/16/2015 16:56:31
作者:
这两周多次尝试了Uber的服务,感觉和大部分打车行业的规则都是反着来的,我大概分两个部分说说:算法和产品设计。
在大数据时代,我们身边充斥着各类信息,各种数据,人们的时间被打碎,注意力被分散,更多的人喜欢看图片而非文字,喜欢看图表而非数据。我们做数据展示时常用什么软件呢?Excel?PPT?还是其他?它们之间又有什么异同?今天我们聊聊这个话题~璞石先来抛砖引玉,所陈仅为个人观点,如有不当的地方,还请指正。
警察作为个国家的重要机构,肩负着维护社会稳定,打击违法犯罪的重要职责,面对着越来越狡猾的犯罪分子,警方需要有效提升预防和打击犯罪的能力,单靠警员人工破案已无法满足社会需求,因此国家提出“科技强警”的发展战略,借助高科技装备、信息化手段帮助警方打击违法犯罪,“金盾工程”更是将公安信息化建设推向了高潮。然而,随着信息时代的...
系统的可扩展性是推动NoSQL运动发展的的主要理由,包含了分布式系统协调,故障转移,资源管理和许多其他特性。这么讲使得NoSQL听起来像是 个大筐,什么都能塞进去。尽管NoSQL运动并没有给分布式数据处理带来根本性的技术变革,但是依然引发了铺天盖地的关于各种协议和算法的研究以及实 践。正是通过这些尝试逐渐总结出了些行之有效的数据库构建方法。在这篇文章里,我将...
Spark大数据处理框架目前较新的版本是上个月发布的Spark 1.3。这版本之前,Spark SQL模块直处于“Alpha”状态,现在该团队已经从Spark SQL库上将这标签移除。这版本中包含了许多新的功能特性,其中部分如下:
|
Digg排行
本周热门内容
|