Hbase Java API实例 [转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

HBase提供了Java Api的访问接口,掌握这个就跟Java应用使用RDBMS时需要JDBC一样重要,本文将继续前两篇文章中blog表的示例,介绍常用的Api。

主要包括了Java api创建、删除表,及记录的增删改查操作。

//通过这些常用的API,基本能够满足Java操作HBase的需求。

More...

大数据模式下的招聘 你真的懂我?

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:0人 | 浏览:

就在3月30号的时候,CSDN JOB联合CTO俱乐部上线了一个为期十多天的招聘专题,名字叫“最懂程序员的招聘会”。其实笔者并不是要拿这个招聘专题说事,只是凑巧看到了这个题目,有感而发而已。

 

说起招聘中的“你真的懂我?”不得不再次说起CSDN,或者说是CSDN下的JOB栏目。CSDN的JOB在春节当天高调上线,重磅回归,为的就是赶上春季这波招聘狂潮。

当然,这不是重点,重点是其号称:一、人多势众,二、能够定向用户的精准传播,三、主动向企业精准推荐人才。第一点我们暂且不去说,CSDN累积了15年的IT用户,其量确实算的上人多势众。但那不是我们的重点。

More...

今后几年的趋势应该是小数据颠覆大数据,不是深度学习[转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

注:看到这篇文章觉得挺有意思,转了,但是并不是一定赞同该观点。


1) 我觉得无论是从技术还是市场,到了拼系统的程度,就只有数据奴隶主,主要是大的数据奴隶主才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是一个典型的创新者的窘境。

More...

MapReduce HelloWorld级实例--WordCount单词计数详解

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

实例说明:

wordcount是hadoop编程helloword级别的实例,也是最好的入门实例。

处理需求:统计文章中单词出现的个数,文章为批量。

处理过程:在Map端进行文章单词拆分,并且以k-v即 word-1这种形式发送出去,依靠MapReduce的hash机制(在reduce端,相同的key即相同的word会把所有的1放在Iterable<Text> values中,我们只需要统计Iterable中Text有多少个1即可),最后输出。

More...

Hive UDF实例--过滤字符串首尾字符

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

Hive UDF实例--过滤字符串首尾字符.

源码如下:

package com.hive.udf;  
  
import org.apache.commons.lang.StringUtils;  
import org.apache.hadoop.hive.ql.exec.UDF;  
import org.apache.hadoop.io.Text;  
  
public class Trim extends UDF {  
    private Text res = new Text();  
  
    public Text evaluate(String str) {  
  
        if (str == null) {  
            return null;  
        }  
        res.set(StringUtils.strip(str.toString()));  
  
        return res;  
    }  
      
    public Text evaluate(Text str,String stripChars){  
        if (str == null) {  
            return null;  
        }  
          
        res.set(StringUtils.strip(str.toString(),stripChars));  
        return res;  
          
    }  
}

编写完代码之后,导出jar包。

More...

在校学习Hadoop等大数据相关技术对找工作能否有帮助?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

随着大数据潮流的风靡,或者说大数据潮流的进一步扩散,如今大数据看起似乎有一种势不可挡的趋势了。于是,很多人就开始不淡定了。

之所以有“在校学习Hadoop等大数据相关技术对找工作能否有帮助?”这个话题,一方面确实存在大数据技术席卷全球的风潮,另一方面也是因为身边确实也发生了很多这种情况。

More...

实时处理系统Storm的进程通信机制详解

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

在Storm中,worker进程内部的thread通信与worker进程间的通信有一些差别,worker间的通信经常需要通过网络跨节点进行,Storm使用ZeroMQ或Netty(0.9以后默认使用)作为进程间通信的消息框架。worker进程内部通信或在同一个节点的不同worker的thread通信使用LMAX Disruptor来完成。

对于worker进程来说,为了管理流入和传出的消息,每个worker进程有一个独立的接收线程(对配置的TCP端口supervisor.slots.ports进行监听)。参数topology.receiver.buffer.size代表接收线程一次最多能接收多少条消息,用户可以自定义配置。接收线程将收到的消息传递给对应的executor(一个或多个)的incoming-queues。

More...