基本排序算法及其在MapReduce的应用

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

1 文档说明

该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上其他渠道也能得到,仅用于记录备忘之用。

冒泡、选择、插入三种作为基本的排序算法是必须要掌握的,而在MapReduce的实际应用中。在Map阶段,k-v溢写时,采用的正是快排;而溢出文件的合并使用的则是归并;在Reduce阶段,通过shuffleMap获取的文件进行合并的时候采用的也是归并;最后阶段则使用了堆排作最后的合并过程。

More...

二叉树前中后序遍历及其推导

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档仅作为二叉树学习的笔记记录,包括了前中后序的遍历算法,根据前序中序推导二叉树,或者根据中序后序推导二叉树。

2 二叉树的前中后序遍历算法

//采用递归的方式进行二叉树的遍历

More...

数据挖掘十大经典算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:1人 | 浏览:

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

More...

挖掘算法(1)朴素贝叶斯算法

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档为朴素贝叶斯算法的介绍和分析文档,并且结合应用实例进行了详细的讲解。

其实朴素贝叶斯的概念以及流程都被写烂了,之所以写这些是方便做个整理,记录备忘。而实例部分进行了详细的描述,网络上该实例比较简单,没有过程。

至于最后部分,则是对朴素贝叶斯的一个扩展了,当然只是简单的描述了一下过程,其中涉及到的中文分词以及TFIDF算法,有时间再具体补上。

 

More...

关于博客虫技术文章对应的源代码

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

 

关于storm实例源码:

//放在了CSDN的CODE代码托管平台上,以后会在那更新,博客虫首页有友情链接“代码GIT”就是了。

(1)在原有的基础上重新梳理了下,更名为DataOptTopology

More...