欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

短地址原理以及相关实现

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

短网址服务两种不同算法JAVA实现

短网址(Short URL) ,顾名思义就是看起来很短的网址。自从twitter推出短网址服务以后,各大互联网公司都推出了自己的短网址服务。个人感觉短网址最大的优点就是短,字符少,便于发布、传播、复制和存储。 

通过网上的搜索,感觉流传了2种短网址算法,一种是基于MD5码的,一种是基于自增序列的。 

1、基于MD5码 : 这种算法计算的短网址长度一般是5位或者6位,计算过程中可能出现碰撞(概率很小),可表达的url数量为62 的5次方或6次方。感觉google(http://goo.gl),微博用的是类似这种的算法(猜的),可能看起来比较美观。 

2、基于自增序列 : 这种算法实现比较简单,碰撞的可能性为0,可表达的URL可达无穷大,长度从1开始。貌似百度的短网址服 务( http://dwz.cn/)是这种算法. 

More...

数据融合

作者: ggc2508 | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

最近看了些论文,做个笔记,也分享给大家。

将数据融合分为了三个层次

More...

中文转换为拼音实例

作者: blogchong | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

在很多情况下,我们需要对中文进行拼音的转换,在这里我们使用pinyin4j进行中文转拼音。

首先在pom中导入pinyin4j的依赖:

More...

推荐系统绝对不会向你推荐什么

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

(文/Joseph A. Konstan & John Riedl) 讲完了推荐算法是如何“猜你喜欢”的 ,现在,你对于每回上网购物时在线零售商是如何打量你,并努力把你的喜好和其他人的相匹配有了一个基本的概念。

推荐系统还有另外两大特点,也对你最终看到的推荐结果有着显著的影响:第一,在弄清楚你和其他购物者的相似度有多高之前,推荐系统必须先弄明白你真正喜欢什么;第二,推荐系统依照一组商业规则运行,以确保推荐结果既让你觉得有用,也使商家有利可图。

推荐算法是如何赢得你的信任,又让商家有钱可赚的?

More...

广告投放算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

广告投放算法:受众行为分析与人群定向

引言

“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了‘聚类’和‘人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的‘人群定向’功能正是通过‘聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。

More...

开源流式处理新系统Samza

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

大家不是马上会想到storm on yarn。哈哈,其实还真的有很多相似的地方。

这是Linkin开发的小巧但是好用的项目,之所以说小巧而好用,我们来看看它的一些特点:

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

其实我们做的很多架构,类似是Kafka + Storm + 后端数据存储,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护。

More...

浅谈推荐系统的核心思想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。

More...