Storm原理调研及部署文档

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

 1 Storm调研

1.1 Storm简介

Twitter Storm 是使用 Clojure(发音同 closure)语言实现的。 Clojure 是 Lisp 语言的一种现代方言。类似于 Lisp,Clojure 支持一种功能性编程风格,但 Clojure 还引入了一些特性来简化多线程编程(一种对创建 Storm 很有用的特性)。Twitter列举了Storm的三大类应用:

1.信息流处理{Stream processing},Storm可用来实时处理新数据和更新数据库,兼具容错性和可扩展性。

2.连续计算{Continuous computation}

3.Storm可进行连续查询并把结果即时反馈给客户端,比如把Twitter上的热门话题发送到浏览器中。

3.分布式远程程序调用{Distributed RPC},Storm可用来并行处理密集查询。Storm的拓扑结构是一个等待调用信息的分布函数,当它收到一条调用信息后,会对查询进行计算,并返回查询结果。举个例子Distributed RPC可以做并行搜索或者处理大集合的数据。

Storm集群由一个主节点和多个工作节点组成。主节点运行了一个名为“Nimbus”的守护进程,用于分配代码、布置任务及故障检测。每个工作节点都运行了一个名为“Supervisor”的守护进程,用于监听工作,开始并终止工作进程。Nimbus和Supervisor都能快速失败,而且是无状态的,这样一来它们就变得十分健壮,两者的协调工作是由Apache ZooKeeper来完成的。

Storm的术语包括Stream、Spout、Bolt、Task、Worker、Stream Grouping和Topology。Stream是被处理的数据。Sprout是数据源。Bolt处理数据。Task是运行于Spout或Bolt中的 线程。Worker是运行这些线程的进程。Stream Grouping规定了Bolt接收什么东西作为输入数据。数据可以随机分配(术语为Shuffle),或者根据字段值分配(术语为Fields),或者 广播(术语为All),或者总是发给一个Task(术语为Global),也可以不关心该数据(术语为None),或者由自定义逻辑来决定(术语为 Direct)。Topology是由Stream Grouping连接起来的Spout和Bolt节点网络。

More...

Lustre2.4安装部署文档

作者: blogchong | 分类: 原创-分布式存储 | 评论:1人 | 浏览:

 1 文档说明

写该文档的最直接的原因是有网友说网上很难找到lustre的部署文档,我曾答应说要给他整理出一个,所以就~~~

其实也是,目前lustre想找一个安装部署文档确实很困难,哪怕是英文的也好。网上流行为数不多的lustre的资料是09年以及10年时期的资料,那还是1.X的年代。比较完全的资料是1.8版的安装部署过程,但现在最新的lustre已经更新到2.5.1了。

More...

Storm项目:流数据监控 <6>最新代码结构及详解

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

DataOptTopology项目由之前的monitorTopology整理而来,并且在此基础上增加了功能,梳理了代码。

代码托管到了github,搜索dataopttopology,或者直接访问下面链接:

代码获取:https://github.com/blogchong/DataOptTopology

2 代码结构说明

2.1 代码树

//7个包,20java文件

More...

GlusterFS系统中文管理手册

作者: blogchong | 分类: 原创-分布式存储 | 评论:1人 | 浏览:

1 文档说明

该文档主要内容出自www.gluster.org官方提供的英文系统管理手册《Gluster File System 3.3.0

Administration Guide》。可以看成是管理手册中文版(水平有限,而且原文档太长太臭,很多暂时用不着的,所以只是翻译了部分)。

区别在于:

(1)它是英文的,个人整理的是中文的。所以不想看英文文档的人可以参考参考~~

(2)它是3.3.0的管理手册,个人系统管理使用实践是3.4.1(不过3.3.1也实践过了)

(3)它包含了很多内容,本文档只摘取其中的部分(系统管理命令使用),并且进行了归类整理,方便理解。

(4)另外附加了很多系统管理中需要注意的地方,我相信这个是比较重要(血泪经验谈)

写这个文档的目的一是给自己做个备份,毕竟自己看英文文档感觉也是很累的,需要的时候可以翻翻,另外就是使用实践的过程中却是遇到很多需要注意的地方,自己当时也吃亏了很多次才搞明白,所以希望这些能够对那些也是使用研究GlusterFS的人有些许的帮助。

看完这个文档,有时间还是去看官方文档《Gluster File System 3.3.0 Administration Guide》吧,呵呵,毕竟那才是正版,而且也比较全面。

 

More...

挖掘算法(1)朴素贝叶斯算法

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档为朴素贝叶斯算法的介绍和分析文档,并且结合应用实例进行了详细的讲解。

其实朴素贝叶斯的概念以及流程都被写烂了,之所以写这些是方便做个整理,记录备忘。而实例部分进行了详细的描述,网络上该实例比较简单,没有过程。

至于最后部分,则是对朴素贝叶斯的一个扩展了,当然只是简单的描述了一下过程,其中涉及到的中文分词以及TFIDF算法,有时间再具体补上。

 

More...

实时处理方案架构

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分。

关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析。

该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解。

这个文章写的很详细,相信对大家在实时处理整体理解上会有帮助的。

 

More...

数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

 记得很久以前画过一个架构图,但那个架构图是以实时处理为核心的数据处理架构,并且那个架构图也比较简单,事实上那个架构正是数据平台架构的一个部分。现在所提供的是整个数据平台的数据处理架构草图。

More...