欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:1人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

开源流式处理新系统Samza

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

Samza是由LinkedIn开源的一个技术,它是一个开源的分布式流处理系统,非常类似于Storm。不同的是它运行在Hadoop之上,并且使用了自己开发的Kafka分布式消息处理系统。

大家不是马上会想到storm on yarn。哈哈,其实还真的有很多相似的地方。

这是Linkin开发的小巧但是好用的项目,之所以说小巧而好用,我们来看看它的一些特点:

1. 只有几千行代码,完成的功能就可以和Storm媲美,当然目前还有很多的不足

2. 和Kafka结合紧密,更方便的处理数据

3. 运行在Yarn上

其实我们做的很多架构,类似是Kafka + Storm + 后端数据存储,将来完全可以将Storm替换成Samza,这样的话,还可以利用Hadoop集群的资源,做一些存储、离线分析的功能。将实时处理和离线分析都运行在Hadoop上,不得不说Samza是一个伟大的项目,这样可以减少项目的增长复杂度,利于维护。

More...

浅谈推荐系统的核心思想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

或许一谈到数据挖掘中的推荐系统,大家第一反应就是协同过滤,要么就是基于内容推荐等等。但实际在生产环境中往往没有想象中这么复杂,但另一方面又没有想象中这么简单,确实很矛盾的存在。

More...

ansj_seg中文分词实例

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

首先介绍一下这个开源分词软件

以下摘自原作者的话:

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

More...

给IT新男的15点建议:苦逼程序员的辛酸反省与总结

作者: blogchong | 分类: 原创-经验之谈 | 评论:0人 | 浏览:

很多人表面上看着老实巴交的,实际上内心比谁都好强、自负、虚荣、甚至阴险。工作中见的多了,也就习惯了。

有一些人,什么事都写在脸上,表面上经常得罪人,甚至让人讨厌。但是他们所表现的又未必不是真性情。

我相信大多数人都看过《豪门夜宴》这部香港老电影。张学友、梁朝伟演的拍马屁的场景太有意思了,其中有这样一段:当两马屁精帮老板说出主意,老板马上叫停,然后拍一下脑门:“哦。。。我想到了。。。”,把别人的idea当成自己的说出来。我在工作中还真不止一次遇到这种事,我提出来的想法老被别人拿来当作自己的原创,当然个别小偷洋洋得意的描述自己的‘原创’时还会偷偷的瞄我一下,看我有没有不高兴,,,我并没有不高兴,大概是因为想到那个电影段子被逗乐了。天下学术都一大抄,更何况什么想法,什么创新,通通都是浮云!君不见创新项目一大堆,都被抄死化成灰!但是不能因此而放弃创新,大地不可以因为有畜牲吃草而不复生机,山泉也不会因为有王八偷水而不冒活水。

More...

《数学之美》读后感

作者: blogchong | 分类: 原创-读书笔记 | 评论:0人 | 浏览:

第一次接触这本书是在做一个挖掘项目的时候。那个项目是为用户做领域分析,当时一个同事尝试用信息熵来衡量一个用户在某一领域中的程度值,并且用这本书上的信息熵那一章作为理论参考依据。后来我便拿到了这本书,然后我便感觉到了自己的渺小~~

More...

博客虫资料分享第四期《DM推荐系统》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

博客虫资料分享第四波来袭,主要是数据挖掘领域中占据很高地位的推荐系统相关资料。

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

Quartz实例:quartz定时任务代码示例

作者: blogchong | 分类: 原创-其他技术类 | 评论:1人 | 浏览:

quartz定时任务调度框架,使用实例。

Job类://即实际调度任务实现

package net.csdn.edm.util.quartz;

import java.util.HashMap;
import java.util.Map;
import net.csdn.common.logging.CSLogger;
import net.csdn.common.logging.Loggers;
import org.quartz.Job;
import org.quartz.JobDataMap;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;

/**
 * @author:blogchong
 * @blog: http://www.blogchong.com/
 * @Version:1.0
 * @CreateTime:2014年12月30日 下午3:27:02
 * @Description:定时进度job
 */

public class QuartzJob implements Job {

	protected CSLogger logger = Loggers.getLogger(QuartzJob.class);

	@SuppressWarnings("static-access")
	public void execute(JobExecutionContext arg0) throws JobExecutionException {

		// 接收参数
		JobDataMap jobDataMap = arg0.getJobDetail().getJobDataMap();
		
		//通过这种方式,传递参数
		String taskId = jobDataMap.getString("taskId");
		
		//具体的定时任务实现,在这里实现即可
                //具体实现略过
	}
}

添加Job类:

More...