博客虫Storm实战系列一《集群安装与部署》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

这是博客虫Storm实战系列第一篇《集群的安装与部署》

More...

大数据模式下的招聘 你真的懂我?

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:0人 | 浏览:

就在3月30号的时候,CSDN JOB联合CTO俱乐部上线了一个为期十多天的招聘专题,名字叫“最懂程序员的招聘会”。其实笔者并不是要拿这个招聘专题说事,只是凑巧看到了这个题目,有感而发而已。

 

说起招聘中的“你真的懂我?”不得不再次说起CSDN,或者说是CSDN下的JOB栏目。CSDN的JOB在春节当天高调上线,重磅回归,为的就是赶上春季这波招聘狂潮。

当然,这不是重点,重点是其号称:一、人多势众,二、能够定向用户的精准传播,三、主动向企业精准推荐人才。第一点我们暂且不去说,CSDN累积了15年的IT用户,其量确实算的上人多势众。但那不是我们的重点。

More...

定时任务调度框架实现总结

作者: blogchong | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

在应用里经常都有用到在后台跑定时任务的需求。

举个例子,比如需要在服务后台跑一个定时任务来进行非实时计算,清除临时数据、文件等;又比如博客资讯网站需要定时更新最新最热资讯列表等;又比如后台需要定时获取数据等。

其实,不止这些场景,定时任务始终会在业务处理中占据很重要的位置,因此,熟悉定时任务框架的使用非常有必要。

More...

博客虫资料分享第六期《storm trident视频》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:1人 | 浏览:

群里(storm-分布式-IT技术 191321336) nd-storm大神的trident系列视频。

感谢nd-storm的无私分享,大家伙儿膜拜他吧  

鉴于群里朋友经常咨询,在此提供长久网盘链接:

注意事项:

(1)视频为nd-storm大神录制,并且免费分享给大家的;

(2)视频版权归nd-storm所有,商业用途请联系nd-storm;

附上链接:

More...

博客虫资料分享第五期《浪潮之巅+数学之美》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:1人 | 浏览:

分享一本吴军老师的好书《浪潮之巅》。

之前看过了《数学之美》,的确是一本好书,一直想看看《浪潮之巅》,今天刚好有个朋友分享了一个高清版的,在这里分享出来。
如果喜欢的,自己去网盘下载吧。附上链接~

More...

MapReduce HelloWorld级实例--WordCount单词计数详解

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

实例说明:

wordcount是hadoop编程helloword级别的实例,也是最好的入门实例。

处理需求:统计文章中单词出现的个数,文章为批量。

处理过程:在Map端进行文章单词拆分,并且以k-v即 word-1这种形式发送出去,依靠MapReduce的hash机制(在reduce端,相同的key即相同的word会把所有的1放在Iterable<Text> values中,我们只需要统计Iterable中Text有多少个1即可),最后输出。

More...

字典树的原理以及Java实现

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。

它的优点是:

利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。

比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了。

More...