博客虫Storm实战系列二《Storm基础实例代码讲解》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

这是博客虫Storm实战系列第二篇《Storm基础实例代码讲解》

1 实例设计

实例需求:

数据源,会源源不断的产生,海量英文语句。我们要实时的,获取到单词的词频,或者说要实时的看到词频的Top N,即词频排在前N的词,Top N的词频是如何实时变化的。

思维变换:

思维再发散一下,如果,这是不同商品的,用户行为操作数据呢?我们是不是,就能实时的看到,用户关注商品的热点了?好吧,这只是简单的,将模型,稍微的变换了一下。

More...

这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就成了吐槽大会,倒是有一半时间在吐槽产品以及业务部门了~~

不过这也算是一件可喜可贺的事情了,这也可以看做是我们数据部门,已经由开轻型挖掘机向深挖阶段迈步了。

More...

你好,scala!

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

说起scala,其实,早在几个月前我就认识它了。

同事中有一个是scala的“忠实粉丝”,他一直“怂恿”我们使用scala,也一直在部门内极力推广它。但或许是面对不熟悉的事务,我们本能的有种恐惧感,让我不愿意去真正的接触它。

因此,当初只是简单的了解了一下他,但并未下定决心去使用他,并且也没有必须使用他的需求。

所以,一直不敢“动”它!

直到今天,由于需要在我们索引系统中临时增加一个模块,而这个系统本身就是那个“scala粉”同事主导开发的,所以基本都是使用scala构建的。

More...

Redis客户端API操作 Jedis的八种调用方式详解

作者: blogchong | 分类: 原创-NoSql | 评论:2人 | 浏览:

redis是一个著名的key-value存储系统,也是nosql中的最常见的一种。其实,个人认为,redis最强大的地方不在于其存储,而在于其强大的缓存作用。

我们可以把它想象成一个巨大的(多借点集群,聚合多借点的内存)的Map,也就是Key-Value。

所以,我们可以把它做成缓存组件。

官方推荐的java版客户端是jedis,非常强大和稳定,支持事务、管道及有jedis自身实现。我们对redis数据的操作,都可以通过jedis来完成。

更多redis的概念,请参考:Redis集群(Redis3.0)

那我们就来看一看,jedis不同的调用方式:

(1)普通同步方式

More...

大数据技术栈之配置&发布系统

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

今天早上一同事微信说奇虎360开源了一套配置管理系统。 地址在这: https://github.com/Qihoo360/QConf 。 正好我们之前也做了一套配管系统,于是点进去看了看,基于Zookeeper做的,恩,我们也是,所以我估计我们实现的方式和他们是一样的。

然后早上的时候和运维聊天,我说到这事,运维同事说希望我介绍下配置&发布系统,说不定会推广到其他部门。

这样,写这个内容就让我一举多得了。

配置&发布系统

我用了 配置 和 发布 两个词。在我们团队中,配置和发布是一个系统,但是,功能和职责是不一样的。

More...

博客虫资料分享第七期《storm集群安装部署》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:1人 | 浏览:

本期资料分享,主要是storm0.9.2安装部署过程。


包含如下内容:


(1)Storm0.9.2集群安装部署过程.pdf

(2)apache-storm-0.9.2-incubating.zip

(3)jdk-7u25-linux-x64.gz

(4)Python-2.7.2.tgz

(5)zookeeper-3.4.6.tar.gz


More...

博客虫Storm实战系列一《集群安装与部署》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

这是博客虫Storm实战系列第一篇《集群的安装与部署》

More...