博客虫资料分享第二期《数据挖掘进阶》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

博客虫资料分享第二波来袭,依然是数据挖掘,不过是进阶版的~

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

川流不息的地下铁啊

作者: blogchong | 分类: 原创-与挨踢无关 | 评论:2人 | 浏览:

看着一波又一波的人涌进地铁,随着人流被挤压,轰隆声起,臃肿的地铁一头扎进地洞中,黑暗蔓延,一点一点地临近窒息~~

好一个大沙丁鱼罐!

看着这负重不堪又止停不息的地下铁,我想,或许它也很无奈吧?

More...

博客虫资料分享第一期《数据挖掘基础》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:3人 | 浏览:

博客虫资料分享系列开始了~

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

基本排序算法及其在MapReduce的应用

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

1 文档说明

该文档为学习基本排序算法过程中的学习笔记,大部分内容从网络上其他渠道也能得到,仅用于记录备忘之用。

冒泡、选择、插入三种作为基本的排序算法是必须要掌握的,而在MapReduce的实际应用中。在Map阶段,k-v溢写时,采用的正是快排;而溢出文件的合并使用的则是归并;在Reduce阶段,通过shuffleMap获取的文件进行合并的时候采用的也是归并;最后阶段则使用了堆排作最后的合并过程。

More...

二叉树前中后序遍历及其推导

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档仅作为二叉树学习的笔记记录,包括了前中后序的遍历算法,根据前序中序推导二叉树,或者根据中序后序推导二叉树。

2 二叉树的前中后序遍历算法

//采用递归的方式进行二叉树的遍历

More...

Hadoop学习笔记<1>

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

该文档是以Hadoop为核心,在学习的过程中的整理,仅用于备份记忆。当然,要是他人认为有用的话,那就再好不过了。

文档的内容以Hadoop为核心,辐射其相关组件或者相关概念。文档的所有涉及到的组件或者概念,相互间可能有联系,但是由于整理的时间以及涉重点,没有一定的顺序性。

2 学习笔记

2.1 序列化与反序列化

2.1.1 序列化概念:

两个进程在远程进行相互通信时,彼此可以发送各种类型的数据(参数),无论是什么类型的参数,只有将它转化为二进制序列(将对象转化为字节序列)才能在网络上传送,而接收方则把字节序列还原成对象。

对象==>字节序列                     序列化

字节序列==>对象                     反序列化 

More...

常见分布式系统数据分布解析

作者: blogchong | 分类: 原创-分布式存储 | 评论:3人 | 浏览:

1 文档说明

研究分布式文件系统时间也不短了,接触过的文件系统也不少,趁着这2014到来之际,花点时间用来总结总结。

接触过的文件系统有glusterfsmoosefslustrehdfs等,其架构简单顺带解说一点,总体来说分为元数据中心式及去中心式。其实除了glusterfs,其他的都是元数据中心式的分布式文件系统。

More...