欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:5人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:3人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

Lustre2.4安装部署文档

作者: blogchong | 分类: 原创-分布式存储 | 评论:1人 | 浏览:

 1 文档说明

写该文档的最直接的原因是有网友说网上很难找到lustre的部署文档,我曾答应说要给他整理出一个,所以就~~~

其实也是,目前lustre想找一个安装部署文档确实很困难,哪怕是英文的也好。网上流行为数不多的lustre的资料是09年以及10年时期的资料,那还是1.X的年代。比较完全的资料是1.8版的安装部署过程,但现在最新的lustre已经更新到2.5.1了。

More...

场景应用:移动互联网时代生存法则

作者: 移动互联网编辑 | 分类: 移动互联网领域 | 评论:0人 | 浏览:

目前,中国国民持有的智能手机总数已超过美国,位居世界第一。智能手机和平板电脑用户十分庞大,App的使用愈加频繁,移动互联网的市场空间迅速扩大。不论传统行业还是互联网行业,在国内App排行榜上长期占据榜首的多半是那些巨头企业,因为他们有相对较强的经济实力和超前的意识去花精力打造具有企业特色的App,并且能根据移动平台的特点进行合理布局,对App未来的发展形势具备一定的预见能力。

More...

数据挖掘十大经典算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:1人 | 浏览:

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART.

不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。

More...

Storm On YARN

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

 1. 背景知识

(1)Storm:一个实时计算框架,与MapReduce离线计算框架互补,分别用于解决不同场景下的问题,Storm的官方网站是:http://storm-project.net/,如果想快速了解,推荐阅读淘宝的这篇文章:Storm简介

(2)YARN:YARN是Hadoop 2.0中新引入的资源管理系统,可看做Hadoop操作系统中的资源管理组件,所有应用程序和框架,比如MapReduce、Storm和Spark等,均可运行在YARN之上,关于YARN,可阅读我的一系列文章:Hadoop-YARN

(3)Storm On YARN:尝试将Storm运行在YARN上,这将来众多好处,具体本文将详细介绍。Storm On YARN最有名是Yahoo!的开源实现,具体参考:Storm On YARN。将Storm运行在YARN上并不是一件难事,但重要的是,它给我们开了一扇窗,我们可通过该项目实现HBase On YARN, Spark On YARN,Kafka On YARN等有意义的工作,具体参考我的这篇文章:汇总运行在Hadoop YARN上的开源系统

More...

大数据时代之hadoop:了解hadoop数据流(生命周期)

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

 

了解hadoop,首先就需要先了解hadoop的数据流,就像了解servlet的生命周期似的。hadoop是一个分布式存储(hdfs)和分布式计算框架(mapreduce),但是hadoop也有一个很重要的特性:hadoop会将mapreduce计算移动到存储有部分数据的各台机器上。

More...

Storm项目:流数据监控 <6>最新代码结构及详解

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

1 文档说明

DataOptTopology项目由之前的monitorTopology整理而来,并且在此基础上增加了功能,梳理了代码。

代码托管到了github,搜索dataopttopology,或者直接访问下面链接:

代码获取:https://github.com/blogchong/DataOptTopology

2 代码结构说明

2.1 代码树

//7个包,20java文件

More...

GlusterFS系统中文管理手册

作者: blogchong | 分类: 原创-分布式存储 | 评论:1人 | 浏览:

1 文档说明

该文档主要内容出自www.gluster.org官方提供的英文系统管理手册《Gluster File System 3.3.0

Administration Guide》。可以看成是管理手册中文版(水平有限,而且原文档太长太臭,很多暂时用不着的,所以只是翻译了部分)。

区别在于:

(1)它是英文的,个人整理的是中文的。所以不想看英文文档的人可以参考参考~~

(2)它是3.3.0的管理手册,个人系统管理使用实践是3.4.1(不过3.3.1也实践过了)

(3)它包含了很多内容,本文档只摘取其中的部分(系统管理命令使用),并且进行了归类整理,方便理解。

(4)另外附加了很多系统管理中需要注意的地方,我相信这个是比较重要(血泪经验谈)

写这个文档的目的一是给自己做个备份,毕竟自己看英文文档感觉也是很累的,需要的时候可以翻翻,另外就是使用实践的过程中却是遇到很多需要注意的地方,自己当时也吃亏了很多次才搞明白,所以希望这些能够对那些也是使用研究GlusterFS的人有些许的帮助。

看完这个文档,有时间还是去看官方文档《Gluster File System 3.3.0 Administration Guide》吧,呵呵,毕竟那才是正版,而且也比较全面。

 

More...