欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

Intellij IDEA 快捷键整理[转]

作者: blogchong | 分类: 其他技术类文章合集 | 评论:0人 | 浏览:

该文章整理了Intellij IDEA 的常用快捷键,哈哈,转过来了,最近blogchong开始尝试使用Intellij IDEA 了,Eclipse感觉太多问题了,特别是与scala结合使用的时候,各种问题。

希望这些东西能够对大家有用,也做一个备份,此外谢谢整理这篇文章的作者,小四。

【常规】

Ctrl+Shift + Enter,语句完成

“!”,否定完成,输入表达式时按 “!”键

Ctrl+E,最近的文件

Ctrl+Shift+E,最近更改的文件

More...

2015 年移动应用开发趋势分析[转]

作者: 移动互联网编辑 | 分类: 移动互联网领域 | 评论:0人 | 浏览:

硬件性能的提升,新技术的出现都是影响移动应用发展的重要因素,而最近几年里,这两个方面都有着不小的进步。从不断增加的屏幕分辨率,64位处理器,到支持所有平台开发的HTML5技术逐步成熟,每个方面都不容小觑。

不过,在这种情况下,最辛苦的应该是开发人员,因为他们的技能也需要随之提升。但在刻苦专研技能的同时,也有必要了解一下2015年移动应用开发的发展趋势,从而为自己的努力找到方向。

More...

今后几年的趋势应该是小数据颠覆大数据,不是深度学习[转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

注:看到这篇文章觉得挺有意思,转了,但是并不是一定赞同该观点。


1) 我觉得无论是从技术还是市场,到了拼系统的程度,就只有数据奴隶主,主要是大的数据奴隶主才能搞。但是这反而是颠覆他们的机会。因为他们的规模依赖他们的渠道和市场(不然哪里来那么多免费数据浪费)。但是现实市场中大多数问题并不需要这么大规模。这会是一个典型的创新者的窘境。

More...

MapReduce HelloWorld级实例--WordCount单词计数详解

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

实例说明:

wordcount是hadoop编程helloword级别的实例,也是最好的入门实例。

处理需求:统计文章中单词出现的个数,文章为批量。

处理过程:在Map端进行文章单词拆分,并且以k-v即 word-1这种形式发送出去,依靠MapReduce的hash机制(在reduce端,相同的key即相同的word会把所有的1放在Iterable<Text> values中,我们只需要统计Iterable中Text有多少个1即可),最后输出。

More...

MapReduce工作原理图文详解[转]

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

前言:

前段时间我们云计算团队一起学习了hadoop相关的知识,大家都积极地做了、学了很多东西,收获颇丰。可是开学后,大家都忙各自的事情,云计算方面的动静都不太大。呵呵~不过最近在胡老大的号召下,我们云计算团队重振旗鼓了,希望大伙仍高举“云在手,跟我走”的口号战斗下去。这篇博文就算是我们团队“重启云计算”的见证吧,也希望有更多优秀的文章出炉。汤帅,亮仔,谢总•••搞起来啊!

呵呵,下面我们进入正题,这篇文章主要分析以下两点内容:

目录:

1.MapReduce作业运行流程

2.Map、Reduce任务中Shuffle和排序的过程

正文:

1.MapReduce作业运行流程

More...

欢迎“ggc2508”加入博客虫原创队伍

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

如题,欢迎“ggc2508”加入博客虫原创队伍。

“ggc2508”是storm群群友,热衷于技术分享,期待他的技术经验分享。

在此也希望更多热于分享的朋友加入进来~~

字典树的原理以及Java实现

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

Trie树,又称单词查找树或键树,是一种树形结构,是一种哈希树的变种。 典型应用是用于统计和排序大量的字符串(但不仅限于字符串), 所以经常被搜索引擎系统用于文本词频统计。

它的优点是:

利用字符串的公共前缀来节约存储空间,最大限度的减少无谓的字符串比较,查询效率比哈希表高。

比如说我们想储存3个单词,sky、skyline、skymoon。如果只是单纯的按照以前的字符数组存储的思路来存储的话,那么我们需要定义三个字符串数组。但是如果我们用字典树的话,只需要定义一个树就可以了。在这里我们就可以看到字典树的优势了。

More...