欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

华为的StreamCQL,你“抄袭”了我的创意

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

文·博客虫

一、关于StreamCQL

关于StreamSQL,我是就在数个小时之前才知晓的,源自于《大数据上的流式SQL引擎--StreamSQL》这篇文章。

//哈哈,顺便为自己的p图技术,点个赞~~

其实就在昨天,部门内部就有同事分享在了部门内部群里,只是当时实在是忙蛋碎菊紧,所以就没有brid它。直到今天晚上(哦不,现在都过了凌晨,应该是昨天晚上了),又看到两个搞技术的朋友在微信朋友圈里分享了这篇文章。

并且,根据那些小伙伴转发的评论,似乎是这玩意儿要引领大数据实时处理领域的变革了。尼玛,这可不得了,要变天了,非得看看不可,所以就点了进去。

总结一下那篇文章的一些重点:首先这是华为开源的,名字叫StreamCQL;其以Storm为底层引擎,针对的是流式数据查询,提供类SQL的查询语句进行流式数据可持续性的查询;提供的特性有数据组合、拆分、统计、关联,然后再就是在滑窗内把这些操作做了一遍。

好吧,大概就这些,然后又举了一个类SQL的例子来说明StreamCQL的作用。

But,我发现我看了第一遍,我感觉很熟悉,然后我又针对StreamCQL特征部分以及实例部分又看了一遍,感觉更熟悉了。

然后我仔细的回忆了下,原来如此,这玩意儿早在三年前我就把原型做出来了!

More...

拨开大数据的迷雾

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

首先声明,文章所有观点不是什么定论,只是一家之言、个人观点而已,不管是认同者还是不认同者欢迎理智交流。

缘起

之所以有这么一个话题,确实是有原因的。就在前几天,我又收到了一个同行的邮件,是向我咨询关于大数据方向的问题。

可能是我的博客--博客虫|大数据博客的原因,可能是我录制的一些大数据课程的原因,也可能是在这个圈子里话稍微的多一些。这半年多来,陆陆续续总有十几个甚至于数十个相同话题的资讯邮件或者信息,无一例外:他们想涉足大数据这个领域,或者说已经涉足大数据这个领域,只是不知道下一步该如何进行,很是迷茫。

恰巧一个最近一个在亚信的老友,有意向跳槽,他这两年来基本做都是大数据BI领域多一些,对于Hive之类的比较熟悉,只是不知道将来跳槽具体往哪个方向去。

More...

Scala学习笔记<2>:异步FutureTask实例

作者: blogchong | 分类: 原创-Scala学习笔记 | 评论:2人 | 浏览:

Scala学习笔记<2>:异步FutureTask实例

More...

Scala学习笔记<1>:使用IDEA写一个Scala的HelloWord

作者: blogchong | 分类: 原创-Scala学习笔记 | 评论:0人 | 浏览:

Scala学习笔记<1>:Scala入门中的入门,写一个HelloWord

More...

博客虫资料分享第八期《英文原版spark书籍分享》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

本期资料分享,主要是两本Spark的英文书籍。

//Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

《Machine Learning with Spark》

More...

翻译:Storm与Spark Streaming的对比(Storm VS Spark Streaming)

作者: blogchong | 分类: 原创-技术博文翻译 | 评论:2人 | 浏览:

概述

Storm和Spark streaming都是分布式的数据流式实时处理的开源框架。但是,他们也有一些很重要的差异,如下几点将是重点的差异对比。

译者(blogchong)注:了解清楚他们各自的技术特点,才能更好的做技术选型。

More...

米特吧大数据|大数据论坛成立~~

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

缘起:

米特吧大数据论坛的出现,有以下几个原因:

(1)据群内(storm-分布式-IT技术 191321336)群友反映,群共享资料太多太杂乱,难以查找,所以希望有一个分门别类的资料分享区;

(2)群里很多朋友问的一些问题都是重复性的问题,希望把这些问题记录下来,包括解决思路,解决过程等,帮助后面再遇到这个问题的人;

(3)交流群的消息刷新太快,其实很多热心的群友不是不帮忙,只是没有时间,交流群是一个快速响应的交流区域,而论坛可以作为一种惰性的交流区域;

More...