博客虫资源分享系列二:Storm实时处理相关资源

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

资源分享第一弹:分享米特吧|大数据论坛(www.mite8.com)资料区Storm板块资源,各种Storm相关书籍、PPT资料等。



More...

博客虫Storm实战系列二《Storm基础实例代码讲解》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

这是博客虫Storm实战系列第二篇《Storm基础实例代码讲解》

1 实例设计

实例需求:

数据源,会源源不断的产生,海量英文语句。我们要实时的,获取到单词的词频,或者说要实时的看到词频的Top N,即词频排在前N的词,Top N的词频是如何实时变化的。

思维变换:

思维再发散一下,如果,这是不同商品的,用户行为操作数据呢?我们是不是,就能实时的看到,用户关注商品的热点了?好吧,这只是简单的,将模型,稍微的变换了一下。

More...

博客虫Storm实战系列一《集群安装与部署》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

这是博客虫Storm实战系列第一篇《集群的安装与部署》

More...

开源流式处理新系统Samza

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

大家不是马上会想到storm on yarn。哈哈,其实还真的有很多相似的地方。

这是Linkin开发的小巧但是好用的项目,之所以说小巧而好用,我们来看看它的一些特点:

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

其实我们做的很多架构,类似是Kafka + Storm + 后端数据存储,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护。

More...

mac os 配置 storm+kafka+zookeeper配置

作者: EXEC | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

首先确定由jdk scala环境

JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/CurrentJDK/Home
export PATH=${PATH}:${JAVA_HOME}/bin
SCALA_HOME=/Users/luping/develop/dev/scala-2.10.3
export PATH=${PATH}:${SCALA_HOME}/bin

zookeeper

More...

Learning storm book 笔记8-Log Processing With Storm

作者: EXEC | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

有代码的书籍看起来就是爽,看完顺便跑个demo,感觉很爽!我只是个搬运工,不喜也允许喷!

场景分析

主要是利用apache的访问日志来进行分析统计 如用户的IP来源,来自哪个国家或地区,用户使用的Os,浏览器等信息,以及像搜索的热词等信息的统计 这里日志信息如下

More...

Storm系统中的Nimbus高可用

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

在做架构的时候,一个重要要素需要考虑的就是:系统的高可用!

关于Storm的高可用,有以下几个方面:

(1)数据利用阶段可以通过ACK机制保证数据被处理;

More...