欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

《米特吧大数据线下技术交流沙龙第一期》开始了~~

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

Hi,Guys
我是博客虫,从活动的发起、调研到现在的报名,已经有近一个星期了,这一个星期里,我一直在忙会场以及分享讲师的事情,基本上有个大概的结果了,所以,现在开放正式报名。

一、关于活动

之所以把这次线下活动命名为”米特吧大数据线下技术交流沙龙“,其实本意是能把这个沙龙一直做下去,这只是一个开头。然后这里将会沙龙活动的阵地,以后相关的事宜都会在这里发布,包括活动筹集、调研、报名、活动之后的干货分享等等诸如此类的东西将会记录在这里。
关于技术主题,首先当然是围绕大数据话题,第一期的话,根据我跟一些分享讲师的初步沟通,Storm会是重点内容。

二、沙龙分享主题
//这是初步大致的内容,之后会在本帖更新更详细的分享主题,甚至包括讲师介绍,详细分享内容介绍,欢迎继续跟进
(1)黄崇远   CSDN大数据应用挖掘工程师  《沙龙开题:进步始于交流,收获源于分享》 
讲师简介:
黄崇远,花名博客虫,CSDN大数据应用挖掘工程师,博客虫|大数据博客博主,大数据技术公众号[博客虫]撰稿者,沙龙活动组织者。目前专注于大规模数据数据处理、大数据应用挖掘。
(2)阿里  JStorm团队成员  《分享JStorm相关的内容》//具体讲师介绍以及详细的内容之后会给出
//资料待完善,欢迎持续跟进
(3)耿一斐  乐视云计算数据研发工程师  《海量数据处理之大跃进--自主bi系统"天到实时"》 
讲师简介:
耿一斐,乐视云计算数据研发工程师。具有实施一整套从数据采集到应用的大数据处理解决方案经验。三年的大数据处理和应用经验,目前专注于海量数据实时处理以及应用。
(4)杭建   随身移动后端技术负责人  《BigData in 中华万年历》 
讲师简介:
杭建,随身移动(即中华万年历)后端研发负责人。曾就职于网易杭州研究院,参与过运维平台、云计算动态负载均衡等基础平台的研发工作。后进入随身移动负责后端技术管理、研发。在JavaEE、中间件、基础系统架构等方面有多年的研究以及实践经验。
(5)胡夕   微博混合云系统负责人  《微博架构的实践与应用 
讲师简介:
胡夕,微博混合云系统负责人,曾就职于搜狗营销事业部、IBM中国研发中心,参与过搜狗商业平台大数据中心系统的设计与研发工作,后进入微博进行后端及架构方面的研发与管理。目前从事Mesos、Marathon和Docker方面的研发。
沙龙的过程包括技术分享,以及之后的自由交流的环节

More...

推荐系统基础知识储备

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 推荐系统基础

1.1 个性化推荐概述

1.1.1 推荐系统概述

首先,需要申明一点的就是推荐系统!=推荐算法。推荐系统是一套完善的推荐机制,包括前期数据的准备、具体推荐的过程(这个过程可能是一套复杂的算法模型,也可能是一个简单的规则,也可能是多种模型的混合结果等等)、后期数据的预测、AB测试效果评估等等。

1.1.2 推荐算法模型概述

在算法模型上大体可以分基于内容的推荐、基于协同过滤的推荐。

基于内容推荐,即通过内容本身的属性,然后计算内容的相似性,找到与某物品属性相似的物品。协同过滤,所谓协同过滤,即不依赖于物品本身的物品属性,而是通过其他相关特征,例如人参与的行为数据,来达到推荐物品的目的。

关于协同过滤,又分为以下几个类别:基于物品的协同,即ItemCF;基于用于的协同,即UserCF;基于模型的协同,即ModelCF。

其中,基于模型的协同又可以分为以下几种类型:基于距离的协同过滤;基于矩阵分解的协同过滤,即Latent Factor Model(SVD);基于图模型协同,即Graph,也叫社会网络图模型。

More...

华为的StreamCQL,你“抄袭”了我的创意

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

文·博客虫

一、关于StreamCQL

关于StreamSQL,我是就在数个小时之前才知晓的,源自于《大数据上的流式SQL引擎--StreamSQL》这篇文章。

//哈哈,顺便为自己的p图技术,点个赞~~

其实就在昨天,部门内部就有同事分享在了部门内部群里,只是当时实在是忙蛋碎菊紧,所以就没有brid它。直到今天晚上(哦不,现在都过了凌晨,应该是昨天晚上了),又看到两个搞技术的朋友在微信朋友圈里分享了这篇文章。

并且,根据那些小伙伴转发的评论,似乎是这玩意儿要引领大数据实时处理领域的变革了。尼玛,这可不得了,要变天了,非得看看不可,所以就点了进去。

总结一下那篇文章的一些重点:首先这是华为开源的,名字叫StreamCQL;其以Storm为底层引擎,针对的是流式数据查询,提供类SQL的查询语句进行流式数据可持续性的查询;提供的特性有数据组合、拆分、统计、关联,然后再就是在滑窗内把这些操作做了一遍。

好吧,大概就这些,然后又举了一个类SQL的例子来说明StreamCQL的作用。

But,我发现我看了第一遍,我感觉很熟悉,然后我又针对StreamCQL特征部分以及实例部分又看了一遍,感觉更熟悉了。

然后我仔细的回忆了下,原来如此,这玩意儿早在三年前我就把原型做出来了!

More...

拨开大数据的迷雾

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

首先声明,文章所有观点不是什么定论,只是一家之言、个人观点而已,不管是认同者还是不认同者欢迎理智交流。

缘起

之所以有这么一个话题,确实是有原因的。就在前几天,我又收到了一个同行的邮件,是向我咨询关于大数据方向的问题。

可能是我的博客--博客虫|大数据博客的原因,可能是我录制的一些大数据课程的原因,也可能是在这个圈子里话稍微的多一些。这半年多来,陆陆续续总有十几个甚至于数十个相同话题的资讯邮件或者信息,无一例外:他们想涉足大数据这个领域,或者说已经涉足大数据这个领域,只是不知道下一步该如何进行,很是迷茫。

恰巧一个最近一个在亚信的老友,有意向跳槽,他这两年来基本做都是大数据BI领域多一些,对于Hive之类的比较熟悉,只是不知道将来跳槽具体往哪个方向去。

More...

Scala学习笔记<2>:异步FutureTask实例

作者: blogchong | 分类: 原创-Scala学习笔记 | 评论:2人 | 浏览:

Scala学习笔记<2>:异步FutureTask实例

More...

Scala学习笔记<1>:使用IDEA写一个Scala的HelloWord

作者: blogchong | 分类: 原创-Scala学习笔记 | 评论:0人 | 浏览:

Scala学习笔记<1>:Scala入门中的入门,写一个HelloWord

More...

博客虫资料分享第八期《英文原版spark书籍分享》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

本期资料分享,主要是两本Spark的英文书籍。

//Apache Spark 是一种与 Hadoop 相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越,换句话说,Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。

《Machine Learning with Spark》

More...