欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:5人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:3人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

DT时代变革的反思

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:0人 | 浏览:

DT一词,翻译过来即数据科技。可以说,这并不是一个新词,但它真正引起我注意的是阿里研究院最近写的一本书《互联网+:从IT到DT》。阿里作为国内IT技术的引领者,其技术定论不可轻易忽视之!

More...

大数据技术栈- BI探秘

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

原来BI这块打算很后面写的,先把前面的基础技术介绍清楚。但有不少人匿名评论说,我第一篇《大数据技术栈-Web框架&消息队列 》和大数据无关,看着没意思。但实际不是这样子的,消息队列,你可以问问,是任何一家大一点的公司都需要的基础设施,我在原文中重点解释的是消息队列解决的问题,应用场景,带来的便利,并且建议有条件的,都应该引入。

这次就哗众取宠下,直接跳到BI这个产品上。不过后续我会沿着原来的路线写,继续介绍一些底层的系统,包括索引服务,Redis集群,数据网关等的使用经验。

More...

博客虫Storm实战系列二《Storm基础实例代码讲解》

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

这是博客虫Storm实战系列第二篇《Storm基础实例代码讲解》

1 实例设计

实例需求:

数据源,会源源不断的产生,海量英文语句。我们要实时的,获取到单词的词频,或者说要实时的看到词频的Top N,即词频排在前N的词,Top N的词频是如何实时变化的。

思维变换:

思维再发散一下,如果,这是不同商品的,用户行为操作数据呢?我们是不是,就能实时的看到,用户关注商品的热点了?好吧,这只是简单的,将模型,稍微的变换了一下。

More...

Storm最新实战课程已经上线,适合新手!

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

《Storm知识体系》系列课程已经到第三课了,终于有实战课程上来了。不过这个比较基础,适合学习Storm的新手。
附上传送门:《Storm应用实例设计》

你好,scala!

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

说起scala,其实,早在几个月前我就认识它了。

同事中有一个是scala的“忠实粉丝”,他一直“怂恿”我们使用scala,也一直在部门内极力推广它。但或许是面对不熟悉的事务,我们本能的有种恐惧感,让我不愿意去真正的接触它。

因此,当初只是简单的了解了一下他,但并未下定决心去使用他,并且也没有必须使用他的需求。

所以,一直不敢“动”它!

直到今天,由于需要在我们索引系统中临时增加一个模块,而这个系统本身就是那个“scala粉”同事主导开发的,所以基本都是使用scala构建的。

More...

Redis客户端API操作 Jedis的八种调用方式详解

作者: blogchong | 分类: 原创-NoSql | 评论:2人 | 浏览:

redis是一个著名的key-value存储系统,也是nosql中的最常见的一种。其实,个人认为,redis最强大的地方不在于其存储,而在于其强大的缓存作用。

我们可以把它想象成一个巨大的(多借点集群,聚合多借点的内存)的Map,也就是Key-Value。

所以,我们可以把它做成缓存组件。

官方推荐的java版客户端是jedis,非常强大和稳定,支持事务、管道及有jedis自身实现。我们对redis数据的操作,都可以通过jedis来完成。

更多redis的概念,请参考:Redis集群(Redis3.0)

那我们就来看一看,jedis不同的调用方式:

(1)普通同步方式

More...

大数据技术栈之配置&发布系统

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

今天早上一同事微信说奇虎360开源了一套配置管理系统。 地址在这: https://github.com/Qihoo360/QConf 。 正好我们之前也做了一套配管系统,于是点进去看了看,基于Zookeeper做的,恩,我们也是,所以我估计我们实现的方式和他们是一样的。

然后早上的时候和运维聊天,我说到这事,运维同事说希望我介绍下配置&发布系统,说不定会推广到其他部门。

这样,写这个内容就让我一举多得了。

配置&发布系统

我用了 配置 和 发布 两个词。在我们团队中,配置和发布是一个系统,但是,功能和职责是不一样的。

More...