欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:2人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:5人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:3人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

欢迎“ggc2508”加入博客虫原创队伍

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

如题,欢迎“ggc2508”加入博客虫原创队伍。

“ggc2508”是storm群群友,热衷于技术分享,期待他的技术经验分享。

在此也希望更多热于分享的朋友加入进来~~

字典树的原理以及Java实现

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。

它的优点是:

利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。

比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了。

More...

短地址原理以及相关实现

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

短网址服务两种不同算法JAVA实现

短网址(Short URL) ,顾名思义就是看起来很短的网址。自从twitter推出短网址服务以后,各大互联网公司都推出了自己的短网址服务。个人感觉短网址最大的优点就是短,字符少,便于发布、传播、复制和存储。 

通过网上的搜索,感觉流传了2种短网址算法,一种是基于MD5码的,一种是基于自增序列的。 

1、基于MD5码 : 这种算法计算的短网址长度一般是5位或者6位,计算过程中可能出现碰撞(概率很小),可表达的url数量为62 的5次方或6次方。感觉google(http://goo.gl),微博用的是类似这种的算法(猜的),可能看起来比较美观。 

2、基于自增序列 : 这种算法实现比较简单,碰撞的可能性为0,可表达的URL可达无穷大,长度从1开始。貌似百度的短网址服 务( http://dwz.cn/)是这种算法. 

More...

数据融合

作者: ggc2508 | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

最近看了些论文,做个笔记,也分享给大家。

将数据融合分为了三个层次

More...

中文转换为拼音实例

作者: blogchong | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

在很多情况下,我们需要对中文进行拼音的转换,在这里我们使用pinyin4j进行中文转拼音。

首先在pom中导入pinyin4j的依赖:

More...

推荐系统绝对不会向你推荐什么

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

(文/Joseph A. Konstan & John Riedl) 讲完了推荐算法是如何“猜你喜欢”的 ,现在,你对于每回上网购物时在线零售商是如何打量你,并努力把你的喜好和其他人的相匹配有了一个基本的概念。

推荐系统还有另外两大特点,也对你最终看到的推荐结果有着显著的影响:第一,在弄清楚你和其他购物者的相似度有多高之前,推荐系统必须先弄明白你真正喜欢什么;第二,推荐系统依照一组商业规则运行,以确保推荐结果既让你觉得有用,也使商家有利可图。

推荐算法是如何赢得你的信任,又让商家有钱可赚的?

More...

广告投放算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

广告投放算法:受众行为分析与人群定向

引言

“物以类聚,人以群分”这句古语不仅揭示了物与人的自组织趋向,更隐含了‘聚类’和‘人群’之间的内在联系。 例如在现代数字广告投放系统中,最为关键的‘人群定向’功能正是通过‘聚类’算法得以实现的。如果您厌倦了隔靴搔痒的空大宣传,不妨就随笔者一起钻进系统内核,抽丝剥茧般探究技术的黑盒,还原受众行为分析的真相。

More...