大数据技术栈之配置&发布系统

作者: allwefantasy | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

前言

今天早上一同事微信说奇虎360开源了一套配置管理系统。 地址在这: https://github.com/Qihoo360/QConf 。 正好我们之前也做了一套配管系统,于是点进去看了看,基于Zookeeper做的,恩,我们也是,所以我估计我们实现的方式和他们是一样的。

然后早上的时候和运维聊天,我说到这事,运维同事说希望我介绍下配置&发布系统,说不定会推广到其他部门。

这样,写这个内容就让我一举多得了。

配置&发布系统

我用了 配置 和 发布 两个词。在我们团队中,配置和发布是一个系统,但是,功能和职责是不一样的。

More...

MapReduce HelloWorld级实例--WordCount单词计数详解

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

实例说明:

wordcount是hadoop编程helloword级别的实例,也是最好的入门实例。

处理需求:统计文章中单词出现的个数,文章为批量。

处理过程:在Map端进行文章单词拆分,并且以k-v即 word-1这种形式发送出去,依靠MapReduce的hash机制(在reduce端,相同的key即相同的word会把所有的1放在Iterable<Text> values中,我们只需要统计Iterable中Text有多少个1即可),最后输出。

More...

MapReduce工作原理图文详解[转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

前言:

前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,谢总•••搞起来啊!

呵呵,下面我们进入正题,这篇文章主要分析以下两点内容:

目录:

1.MapReduce作业运行流程

2.Map、Reduce任务中Shuffle和排序的过程

正文:

1.MapReduce作业运行流程

More...

在校学习Hadoop等大数据相关技术对找工作能否有帮助?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

随着大数据潮流的风靡,或者说大数据潮流的进一步扩散,如今大数据看起似乎有一种势不可挡的趋势了。于是,很多人就开始不淡定了。

之所以有“在校学习Hadoop等大数据相关技术对找工作能否有帮助?”这个话题,一方面确实存在大数据技术席卷全球的风潮,另一方面也是因为身边确实也发生了很多这种情况。

More...

Hadoop知识要点

作者: blogchong | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

1.Hadoop集群可以运行的3个模式

单机(本地)模式 || 伪分布式模式 || 全分布式模式

More...

Hadoop学习笔记<1>

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

该文档是以Hadoop为核心,在学习的过程中的整理,仅用于备份记忆。当然,要是他人认为有用的话,那就再好不过了。

文档的内容以Hadoop为核心,辐射其相关组件或者相关概念。文档的所有涉及到的组件或者概念,相互间可能有联系,但是由于整理的时间以及涉重点,没有一定的顺序性。

2 学习笔记

2.1 序列化与反序列化

2.1.1 序列化概念:

两个进程在远程进行相互通信时,彼此可以发送各种类型的数据(参数),无论是什么类型的参数,只有将它转化为二进制序列(将对象转化为字节序列)才能在网络上传送,而接收方则把字节序列还原成对象。

对象==>字节序列                     序列化

字节序列==>对象                     反序列化 

More...

大数据时代之hadoop:了解hadoop数据流(生命周期)

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

 

了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

More...