欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

ansj_seg中文分词实例

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

首先介绍一下这个开源分词软件

以下摘自原作者的话:

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。

More...

给IT新男的15点建议:苦逼程序员的辛酸反省与总结

作者: blogchong | 分类: 原创-经验之谈 | 评论:0人 | 浏览:

很多人表面上看着老实巴交的,实际上内心比谁都好强、自负、虚荣、甚至阴险。工作中见的多了,也就习惯了。

有一些人,什么事都写在脸上,表面上经常得罪人,甚至让人讨厌。但是他们所表现的又未必不是真性情。

我相信大多数人都看过《豪门夜宴》这部香港老电影。张学友、梁朝伟演的拍马屁的场景太有意思了,其中有这样一段:当两马屁精帮老板说出主意,老板马上叫停,然后拍一下脑门:“哦。。。我想到了。。。”,把别人的idea当成自己的说出来。我在工作中还真不止一次遇到这种事,我提出来的想法老被别人拿来当作自己的原创,当然个别小偷洋洋得意的描述自己的‘原创’时还会偷偷的瞄我一下,看我有没有不高兴,,,我并没有不高兴,大概是因为想到那个电影段子被逗乐了。天下学术都一大抄,更何况什么想法,什么创新,通通都是浮云!君不见创新项目一大堆,都被抄死化成灰!但是不能因此而放弃创新,大地不可以因为有畜牲吃草而不复生机,山泉也不会因为有王八偷水而不冒活水。

More...

《数学之美》读后感

作者: blogchong | 分类: 原创-读书笔记 | 评论:0人 | 浏览:

第一次接触这本书是在做一个挖掘项目的时候。那个项目是为用户做领域分析,当时一个同事尝试用信息熵来衡量一个用户在某一领域中的程度值,并且用这本书上的信息熵那一章作为理论参考依据。后来我便拿到了这本书,然后我便感觉到了自己的渺小~~

More...

博客虫资料分享第四期《DM推荐系统》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

博客虫资料分享第四波来袭,主要是数据挖掘领域中占据很高地位的推荐系统相关资料。

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

Quartz实例:quartz定时任务代码示例

作者: blogchong | 分类: 原创-其他技术类 | 评论:1人 | 浏览:

quartz定时任务调度框架,使用实例。

Job类://即实际调度任务实现

package net.csdn.edm.util.quartz;

import java.util.HashMap;
import java.util.Map;
import net.csdn.common.logging.CSLogger;
import net.csdn.common.logging.Loggers;
import org.quartz.Job;
import org.quartz.JobDataMap;
import org.quartz.JobExecutionContext;
import org.quartz.JobExecutionException;

/**
 * @author:blogchong
 * @blog: http://www.blogchong.com/
 * @Version:1.0
 * @CreateTime:2014年12月30日 下午3:27:02
 * @Description:定时进度job
 */

public class QuartzJob implements Job {

	protected CSLogger logger = Loggers.getLogger(QuartzJob.class);

	@SuppressWarnings("static-access")
	public void execute(JobExecutionContext arg0) throws JobExecutionException {

		// 接收参数
		JobDataMap jobDataMap = arg0.getJobDetail().getJobDataMap();
		
		//通过这种方式,传递参数
		String taskId = jobDataMap.getString("taskId");
		
		//具体的定时任务实现,在这里实现即可
                //具体实现略过
	}
}

添加Job类:

More...

mac os 配置 storm+kafka+zookeeper配置

作者: EXEC | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

首先确定由jdk scala环境

JAVA_HOME=/System/Library/Frameworks/JavaVM.framework/Versions/CurrentJDK/Home
export PATH=${PATH}:${JAVA_HOME}/bin
SCALA_HOME=/Users/luping/develop/dev/scala-2.10.3
export PATH=${PATH}:${SCALA_HOME}/bin

zookeeper

More...

Hive UDF实例--过滤字符串首尾字符

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

Hive UDF实例--过滤字符串首尾字符.

源码如下:

package com.hive.udf;  
  
import org.apache.commons.lang.StringUtils;  
import org.apache.hadoop.hive.ql.exec.UDF;  
import org.apache.hadoop.io.Text;  
  
public class Trim extends UDF {  
    private Text res = new Text();  
  
    public Text evaluate(String str) {  
  
        if (str == null) {  
            return null;  
        }  
        res.set(StringUtils.strip(str.toString()));  
  
        return res;  
    }  
      
    public Text evaluate(Text str,String stripChars){  
        if (str == null) {  
            return null;  
        }  
          
        res.set(StringUtils.strip(str.toString(),stripChars));  
        return res;  
          
    }  
}

编写完代码之后,导出jar包。

More...