Hadoop知识要点

作者: blogchong | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

1.Hadoop集群可以运行的3个模式

单机(本地)模式 || 伪分布式模式 || 全分布式模式

More...

Hadoop学习笔记<1>

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

1 文档说明

该文档是以Hadoop为核心,在学习的过程中的整理,仅用于备份记忆。当然,要是他人认为有用的话,那就再好不过了。

文档的内容以Hadoop为核心,辐射其相关组件或者相关概念。文档的所有涉及到的组件或者概念,相互间可能有联系,但是由于整理的时间以及涉重点,没有一定的顺序性。

2 学习笔记

2.1 序列化与反序列化

2.1.1 序列化概念:

两个进程在远程进行相互通信时,彼此可以发送各种类型的数据(参数),无论是什么类型的参数,只有将它转化为二进制序列(将对象转化为字节序列)才能在网络上传送,而接收方则把字节序列还原成对象。

对象==>字节序列                     序列化

字节序列==>对象                     反序列化 

More...

全面梳理SQL和NoSQL数据库的技术差别

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

创新的背后往往会刺激痛苦。这一点在PDD(我们亲切地称为痛处驱动开发)软件开发领域尤为真实。从上世纪80年代以来,我们就都知道如何处理关系型数据——只要把数据放到关系型数据库管理系统(RDBMS)中,就可以使用SQL语句操作数据。然而,在过去几年来,我们的行业采纳NoSQL数据库的趋势在增长,数据不见得都在关系型数据库中存储了。

More...

Storm On YARN

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

 1. 背景知识

(1)Storm:一个实时计算框架,与MapReduce离线计算框架互补,分别用于解决不同场景下的问题,Storm的官方网站是:http://storm-project.net/,如果想快速了解,推荐阅读淘宝的这篇文章:Storm简介

(2)YARN:YARN是Hadoop 2.0中新引入的资源管理系统,可看做Hadoop操作系统中的资源管理组件,所有应用程序和框架,比如MapReduce、Storm和Spark等,均可运行在YARN之上,关于YARN,可阅读我的一系列文章:Hadoop-YARN

(3)Storm On YARN:尝试将Storm运行在YARN上,这将来众多好处,具体本文将详细介绍。Storm On YARN最有名是Yahoo!的开源实现,具体参考:Storm On YARN。将Storm运行在YARN上并不是一件难事,但重要的是,它给我们开了一扇窗,我们可通过该项目实现HBase On YARN, Spark On YARN,Kafka On YARN等有意义的工作,具体参考我的这篇文章:汇总运行在Hadoop YARN上的开源系统

More...

大数据时代之hadoop:了解hadoop数据流(生命周期)

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

 

了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

More...