博客虫资料分享第一期《数据挖掘基础》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:3人 | 浏览:

博客虫资料分享系列开始了~

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

基本排序算法及其在MapReduce的应用

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

1 文档说明

该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上其他渠道也能得到,仅用于记录备忘之用。

冒泡、选择、插入三种作为基本的排序算法是必须要掌握的,而在MapReduce的实际应用中。在Map阶段,k-v溢写时,采用的正是快排;而溢出文件的合并使用的则是归并;在Reduce阶段,通过shuffleMap获取的文件进行合并的时候采用的也是归并;最后阶段则使用了堆排作最后的合并过程。

More...

二叉树前中后序遍历及其推导

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档仅作为二叉树学习的笔记记录,包括了前中后序的遍历算法,根据前序中序推导二叉树,或者根据中序后序推导二叉树。

2 二叉树的前中后序遍历算法

//采用递归的方式进行二叉树的遍历

More...

Hadoop学习笔记<1>

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

该文档是以Hadoop为核心,在学习的过程中的整理,仅用于备份记忆。当然,要是他人认为有用的话,那就再好不过了。

文档的内容以Hadoop为核心,辐射其相关组件或者相关概念。文档的所有涉及到的组件或者概念,相互间可能有联系,但是由于整理的时间以及涉重点,没有一定的顺序性。

2 学习笔记

2.1 序列化与反序列化

2.1.1 序列化概念:

两个进程在远程进行相互通信时,彼此可以发送各种类型的数据(参数),无论是什么类型的参数,只有将它转化为二进制序列(将对象转化为字节序列)才能在网络上传送,而接收方则把字节序列还原成对象。

对象==>字节序列                     序列化

字节序列==>对象                     反序列化 

More...

Storm系统监控脚本

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

写这个文档呢,是因为前几天在群中有人讨论关于nimbus没有自动重启机制,如何保证系统挂掉后重启的问题。刚好有朋友也问到了这个问题,就写了几个脚本,顺便写个文档说明说明。

More...

MetaQ原理调研及其安装部署

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

1 文档说明

该文档MetaQ的调研文档及安装部署文档。对一个新的开源项目进行学习,个人喜欢对其先进行详细的调研,虽然网上关于MetaQ的资料众多,但个人喜欢将其以自己习惯的方式整理出来,方便以后查询。

More...

Storm实践问题锦集<5>

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

该文档包涵了storm实战中经常遇到一些问题,及对应解决方案。这个文档是群里的朋友在学习storm,并实战storm中遇到的一些问题,及和群里其他朋友一起交流给出的对应解决方案,供大家参考,希望能对大家有所帮助。

More...