数据融合

作者: ggc2508 | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

最近看了些论文,做个笔记,也分享给大家。

将数据融合分为了三个层次

More...

中文转换为拼音实例

作者: blogchong | 分类: 原创-其他技术类 | 评论:0人 | 浏览:

在很多情况下,我们需要对中文进行拼音的转换,在这里我们使用pinyin4j进行中文转拼音。

首先在pom中导入pinyin4j的依赖:

More...

开源流式处理新系统Samza

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

大家不是马上会想到storm on yarn。哈哈,其实还真的有很多相似的地方。

这是Linkin开发的小巧但是好用的项目,之所以说小巧而好用,我们来看看它的一些特点:

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

其实我们做的很多架构,类似是Kafka + Storm + 后端数据存储,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护。

More...

浅谈推荐系统的核心思想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。

More...

ansj_seg中文分词实例

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

首先介绍一下这个开源分词软件

以下摘自原作者的话:

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

More...

给IT新男的15点建议:苦逼程序员的辛酸反省与总结

作者: blogchong | 分类: 原创-经验之谈 | 评论:0人 | 浏览:

很多人表面上看着老实巴交的,实际上内心比谁都好强、自负、虚荣、甚至阴险。工作中见的多了,也就习惯了。

有一些人,什么事都写在脸上,表面上经常得罪人,甚至让人讨厌。但是他们所表现的又未必不是真性情。

我相信大多数人都看过《豪门夜宴》这部香港老电影。张学友、梁朝伟演的拍马屁的场景太有意思了,其中有这样一段:当两马屁精帮老板说出主意,老板马上叫停,然后拍一下脑门:“哦。。。我想到了。。。”,把别人的idea当成自己的说出来。我在工作中还真不止一次遇到这种事,我提出来的想法老被别人拿来当作自己的原创,当然个别小偷洋洋得意的描述自己的‘原创’时还会偷偷的瞄我一下,看我有没有不高兴,,,我并没有不高兴,大概是因为想到那个电影段子被逗乐了。天下学术都一大抄,更何况什么想法,什么创新,通通都是浮云!君不见创新项目一大堆,都被抄死化成灰!但是不能因此而放弃创新,大地不可以因为有畜牲吃草而不复生机,山泉也不会因为有王八偷水而不冒活水。

More...

《数学之美》读后感

作者: blogchong | 分类: 原创-读书笔记 | 评论:0人 | 浏览:

第一次接触这本书是在做一个挖掘项目的时候。那个项目是为用户做领域分析,当时一个同事尝试用信息熵来衡量一个用户在某一领域中的程度值,并且用这本书上的信息熵那一章作为理论参考依据。后来我便拿到了这本书,然后我便感觉到了自己的渺小~~

More...