欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:5人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:3人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

挖掘算法(1)朴素贝叶斯算法

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 文档说明

该文档为朴素贝叶斯算法的介绍和分析文档,并且结合应用实例进行了详细的讲解。

其实朴素贝叶斯的概念以及流程都被写烂了,之所以写这些是方便做个整理,记录备忘。而实例部分进行了详细的描述,网络上该实例比较简单,没有过程。

至于最后部分,则是对朴素贝叶斯的一个扩展了,当然只是简单的描述了一下过程,其中涉及到的中文分词以及TFIDF算法,有时间再具体补上。

 

More...

实时处理方案架构

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

该文档描述的是以storm为主体的实时处理架构,该架构包括了数据收集部分,实时处理部分,及数据落地部分。

关于不同部分的技术选型与业务需求及个人对相关技术的熟悉度有关,会一一进行分析。

该架构是本人所掌握的一种架构,可能会与其他架构有相似的部分,个人会一一解释对其的理解。

这个文章写的很详细,相信对大家在实时处理整体理解上会有帮助的。

 

More...

关于博客虫技术文章对应的源代码

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

 

关于storm实例源码:

//放在了CSDN的CODE代码托管平台上,以后会在那更新,博客虫首页有友情链接“代码GIT”就是了。

(1)在原有的基础上重新梳理了下,更名为DataOptTopology

More...

Storm项目:流数据监控 <5>Zookeeper统一配置

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

好久没更新storm相关的文章了(快一个月了),很早以前就有朋友提出过storm的拓扑任务会出现supervisor各节点配置麻烦的问题,基于此,我很早就考虑如何解决这个问题,直到现在才把这个问题解决(工作小忙)。

More...

Storm项目:流数据监控 <4>流数据监控MetaQ接口

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:2人 | 浏览:

1 文档说明

 

该文档为storm模拟项目系列文档之一,是MetaQstorm接口的说明文档,主要介绍了如何集成MetaQ到项目代码中。

More...

Storm项目:流数据监控 <3>流数据监控示例运行

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

 1 文档说明

该文档为storm模拟项目第三份文档,第一份文档简单的介绍了模拟项目的设计,第二份文档为关键代码详解,这份文档则是示例运行的文档,从源代码打包到配置文件配置,lib文件导入,及任务提交,最后到处理数据输出到mysql中,这一整个流程。

More...

Storm项目:流数据监控 <2>流数据监控代码详解

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:2人 | 浏览:

 1 项目概述

1.1 数据流向

流数据监控为storm模拟项目,模拟数据源从log文件中读取数据,并逐条发射到监控Bolt中,MonitorsBolt读取配置文件MonitorBolt.xml中的匹配规则,包括正则匹配、范围匹配、常规模糊匹配及常规完全匹配,多个条件可以组合多种匹配方式,多个条件字段可以有两种不同的逻辑关系。MonitorBolt在处理数据之后(过滤出符合匹配规则的数据),发射到数据持久化Bolt中,MysqlBolt读取配置文件MysqlBolt.xmlmysql相关信息,包括mysqlhost及端口,usernamepassworddatabasefrom,最后将数据插入mysql中。

1.2 代码树

                                              

1.2 代码树

源码简单说明:

Storm包中为总体运行的TopologyStorm.base目前只有myslq预处理的一个类,storm.boltbolt处理类,包括monitorboltprintboltstorm.spout包中为spout源数据接口,storm.source为构造源数据的一个类(这个可以忽略),storm.xml为配置文件读取类,domain.log为源数据,MonitorBolt.xmlMyslqBolt.xml分别为配置文件。

 

More...