你们是不是很缺大数据工程师?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:2人 | 浏览:

缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。

并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。

所以,有些东西、有些想法我还是愿意分享出来的,畅所欲言吧~~

More...

大数据技术栈- BI探秘

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

原来BI这块打算很后面写的,先把前面的基础技术介绍清楚。但有不少人匿名评论说,我第一篇《大数据技术栈-Web框架&消息队列 》和大数据无关,看着没意思。但实际不是这样子的,消息队列,你可以问问,是任何一家大一点的公司都需要的基础设施,我在原文中重点解释的是消息队列解决的问题,应用场景,带来的便利,并且建议有条件的,都应该引入。

这次就哗众取宠下,直接跳到BI这个产品上。不过后续我会沿着原来的路线写,继续介绍一些底层的系统,包括索引服务,Redis集群,数据网关等的使用经验。

More...

大数据技术栈之配置&发布系统

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

今天早上一同事微信说奇虎360开源了一套配置管理系统。 地址在这: https://github.com/Qihoo360/QConf 。 正好我们之前也做了一套配管系统,于是点进去看了看,基于Zookeeper做的,恩,我们也是,所以我估计我们实现的方式和他们是一样的。

然后早上的时候和运维聊天,我说到这事,运维同事说希望我介绍下配置&发布系统,说不定会推广到其他部门。

这样,写这个内容就让我一举多得了。

配置&发布系统

我用了 配置 和 发布 两个词。在我们团队中,配置和发布是一个系统,但是,功能和职责是不一样的。

More...

MapReduce HelloWorld级实例--WordCount单词计数详解

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

实例说明:

wordcount是hadoop编程helloword级别的实例,也是最好的入门实例。

处理需求:统计文章中单词出现的个数,文章为批量。

处理过程:在Map端进行文章单词拆分,并且以k-v即 word-1这种形式发送出去,依靠MapReduce的hash机制(在reduce端,相同的key即相同的word会把所有的1放在Iterable<Text> values中,我们只需要统计Iterable中Text有多少个1即可),最后输出。

More...

Hive UDF实例--过滤字符串首尾字符

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

Hive UDF实例--过滤字符串首尾字符.

源码如下:

package com.hive.udf;  
  
import org.apache.commons.lang.StringUtils;  
import org.apache.hadoop.hive.ql.exec.UDF;  
import org.apache.hadoop.io.Text;  
  
public class Trim extends UDF {  
    private Text res = new Text();  
  
    public Text evaluate(String str) {  
  
        if (str == null) {  
            return null;  
        }  
        res.set(StringUtils.strip(str.toString()));  
  
        return res;  
    }  
      
    public Text evaluate(Text str,String stripChars){  
        if (str == null) {  
            return null;  
        }  
          
        res.set(StringUtils.strip(str.toString(),stripChars));  
        return res;  
          
    }  
}

编写完代码之后,导出jar包。

More...

在校学习Hadoop等大数据相关技术对找工作能否有帮助?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

随着大数据潮流的风靡,或者说大数据潮流的进一步扩散,如今大数据看起似乎有一种势不可挡的趋势了。于是,很多人就开始不淡定了。

之所以有“在校学习Hadoop等大数据相关技术对找工作能否有帮助?”这个话题,一方面确实存在大数据技术席卷全球的风潮,另一方面也是因为身边确实也发生了很多这种情况。

More...

Hadoop学习笔记<1>

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

该文档是以Hadoop为核心,在学习的过程中的整理,仅用于备份记忆。当然,要是他人认为有用的话,那就再好不过了。

文档的内容以Hadoop为核心,辐射其相关组件或者相关概念。文档的所有涉及到的组件或者概念,相互间可能有联系,但是由于整理的时间以及涉重点,没有一定的顺序性。

2 学习笔记

2.1 序列化与反序列化

2.1.1 序列化概念:

两个进程在远程进行相互通信时,彼此可以发送各种类型的数据(参数),无论是什么类型的参数,只有将它转化为二进制序列(将对象转化为字节序列)才能在网络上传送,而接收方则把字节序列还原成对象。

对象==>字节序列                     序列化

字节序列==>对象                     反序列化 

More...