博客虫Storm实战系列二《Storm基础实例代码讲解》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

这是博客虫Storm实战系列第二篇《Storm基础实例代码讲解》

1 实例设计

实例需求:

数据源,会源源不断的产生,海量英文语句。我们要实时的,获取到单词的词频,或者说要实时的看到词频的Top N,即词频排在前N的词,Top N的词频是如何实时变化的。

思维变换:

思维再发散一下,如果,这是不同商品的,用户行为操作数据呢?我们是不是,就能实时的看到,用户关注商品的热点了?好吧,这只是简单的,将模型,稍微的变换了一下。

More...

Storm最新实战课程已经上线,适合新手!

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

《Storm知识体系》系列课程已经到第三课了,终于有实战课程上来了。不过这个比较基础,适合学习Storm的新手。
附上传送门:《Storm应用实例设计》

这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就成了吐槽大会,倒是有一半时间在吐槽产品以及业务部门了~~

不过这也算是一件可喜可贺的事情了,这也可以看做是我们数据部门,已经由开轻型挖掘机向深挖阶段迈步了。

More...

你好,scala!

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

说起scala,其实,早在几个月前我就认识它了。

同事中有一个是scala的“忠实粉丝”,他一直“怂恿”我们使用scala,也一直在部门内极力推广它。但或许是面对不熟悉的事务,我们本能的有种恐惧感,让我不愿意去真正的接触它。

因此,当初只是简单的了解了一下他,但并未下定决心去使用他,并且也没有必须使用他的需求。

所以,一直不敢“动”它!

直到今天,由于需要在我们索引系统中临时增加一个模块,而这个系统本身就是那个“scala粉”同事主导开发的,所以基本都是使用scala构建的。

More...

互联网+ 你们还在玩概念?

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:2人 | 浏览:

换联网+,其实早就不是什么新鲜玩意儿了,你们还在玩概念?

什么是互联网+,百度百科上是这么定义的:“互联网+”是创新2.0下的互联网发展新形态、新业态,是知识社会创新2.0推动下的互联网形态演进。

这个词在2012年就被提出来了,在国外,这种商业模式甚至可以追寻到更早的时期。那为何它怎么就突然火了呢,而且还是火的一塌糊涂!

More...

Hbase Shell常用命令备忘 [转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

HBase Shell常用命令备忘。

进入hbase shell console

$HBASE_HOME/bin/hbase shell

如果有kerberos认证,需要事先使用相应的keytab进行一下认证(使用kinit命令),认证成功之后再使用hbase shell进入可以使用whoami命令可查看当前用户

More...

博客虫资料分享第七期《storm集群安装部署》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:1人 | 浏览:

本期资料分享,主要是storm0.9.2安装部署过程。


包含如下内容:


(1)Storm0.9.2集群安装部署过程.pdf

(2)apache-storm-0.9.2-incubating.zip

(3)jdk-7u25-linux-x64.gz

(4)Python-2.7.2.tgz

(5)zookeeper-3.4.6.tar.gz


More...