数据融合

作者: ggc2508 | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

最近看了些论文,做个笔记,也分享给大家。

将数据融合分为了三个层次

More...

中文转换为拼音实例

作者: blogchong | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

在很多情况下,我们需要对中文进行拼音的转换,在这里我们使用pinyin4j进行中文转拼音。

首先在pom中导入pinyin4j的依赖:

More...

开源流式处理新系统Samza

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

大家不是马上会想到storm on yarn。哈哈,其实还真的有很多相似的地方。

这是Linkin开发的小巧但是好用的项目,之所以说小巧而好用,我们来看看它的一些特点:

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

其实我们做的很多架构,类似是Kafka + Storm + 后端数据存储,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护。

More...

浅谈推荐系统的核心思想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。

More...

ansj_seg中文分词实例

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

首先介绍一下这个开源分词软件

以下摘自原作者的话:

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

More...

《数学之美》读后感

作者: blogchong | 分类: 原创-读书笔记 | 评论:0人 | 浏览:

第一次接触这本书是在做一个挖掘项目的时候。那个项目是为用户做领域分析,当时一个同事尝试用信息熵来衡量一个用户在某一领域中的程度值,并且用这本书上的信息熵那一章作为理论参考依据。后来我便拿到了这本书,然后我便感觉到了自己的渺小~~

More...

博客虫资料分享第四期《DM推荐系统》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

博客虫资料分享第四波来袭,主要是数据挖掘领域中占据很高地位的推荐系统相关资料。

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...