欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

博客虫Storm实战系列二《Storm基础实例代码讲解》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

这是博客虫Storm实战系列第二篇《Storm基础实例代码讲解》

1 实例设计

实例需求:

数据源,会源源不断的产生,海量英文语句。我们要实时的,获取到单词的词频,或者说要实时的看到词频的Top N,即词频排在前N的词,Top N的词频是如何实时变化的。

思维变换:

思维再发散一下,如果,这是不同商品的,用户行为操作数据呢?我们是不是,就能实时的看到,用户关注商品的热点了?好吧,这只是简单的,将模型,稍微的变换了一下。

More...

Storm最新实战课程已经上线,适合新手!

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

《Storm知识体系》系列课程已经到第三课了,终于有实战课程上来了。不过这个比较基础,适合学习Storm的新手。
附上传送门:《Storm应用实例设计》

你好,scala!

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

说起scala,其实,早在几个月前我就认识它了。

同事中有一个是scala的“忠实粉丝”,他一直“怂恿”我们使用scala,也一直在部门内极力推广它。但或许是面对不熟悉的事务,我们本能的有种恐惧感,让我不愿意去真正的接触它。

因此,当初只是简单的了解了一下他,但并未下定决心去使用他,并且也没有必须使用他的需求。

所以,一直不敢“动”它!

直到今天,由于需要在我们索引系统中临时增加一个模块,而这个系统本身就是那个“scala粉”同事主导开发的,所以基本都是使用scala构建的。

More...

Redis客户端API操作 Jedis的八种调用方式详解

作者: blogchong | 分类: 原创-NoSql | 评论:2人 | 浏览:

redis是一个著名的key-value存储系统,也是nosql中的最常见的一种。其实,个人认为,redis最强大的地方不在于其存储,而在于其强大的缓存作用。

我们可以把它想象成一个巨大的(多借点集群,聚合多借点的内存)的Map,也就是Key-Value。

所以,我们可以把它做成缓存组件。

官方推荐的java版客户端是jedis,非常强大和稳定,支持事务、管道及有jedis自身实现。我们对redis数据的操作,都可以通过jedis来完成。

更多redis的概念,请参考:Redis集群(Redis3.0)

那我们就来看一看,jedis不同的调用方式:

(1)普通同步方式

More...

大数据技术栈之配置&发布系统

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

今天早上一同事微信说奇虎360开源了一套配置管理系统。 地址在这: https://github.com/Qihoo360/QConf 。 正好我们之前也做了一套配管系统,于是点进去看了看,基于Zookeeper做的,恩,我们也是,所以我估计我们实现的方式和他们是一样的。

然后早上的时候和运维聊天,我说到这事,运维同事说希望我介绍下配置&发布系统,说不定会推广到其他部门。

这样,写这个内容就让我一举多得了。

配置&发布系统

我用了 配置 和 发布 两个词。在我们团队中,配置和发布是一个系统,但是,功能和职责是不一样的。

More...

关于《Storm知识体系教学视频》已经陆续上线

作者: blogchong | 分类: 博客虫站内公告 | 评论:2人 | 浏览:

站内通告:由blogchong录制的Storm知识体系教学视频,已经陆续在国内最大IT在线教育平台--极客学院(www.jikexueyuan.com)正式上线。

课程大纲:

基础篇:

(1)Storm体系概要;

(2)Storm安装部署;

实战篇:

(3)Storm实战基础WordCount;

(4)Storm实战进阶DataOptTopology;

平台架构篇:

(5)架构基础:实时基础平台架构;

(6)架构进阶:数据处理平台架构;

More...

互联网+ 你们还在玩概念?

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:2人 | 浏览:

换联网+,其实早就不是什么新鲜玩意儿了,你们还在玩概念?

什么是互联网+,百度百科上是这么定义的:“互联网+”是创新2.0下的互联网发展新形态、新业态,是知识社会创新2.0推动下的互联网形态演进。

这个词在2012年就被提出来了,在国外,这种商业模式甚至可以追寻到更早的时期。那为何它怎么就突然火了呢,而且还是火的一塌糊涂!

More...