欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

Redis命令解析<1>

作者: blogchong | 分类: 原创-NoSql | 评论:0人 | 浏览:

DEL key [key ...]

summary: Delete a key

since: 1.0.0

//删除一个Key

DUMP key

summary: Return a serialized version of the value stored at the specified key.

since: 2.6.0

//返回一个指定Key的序列化值

More...

Redis介绍以及安装部署配置

作者: blogchong | 分类: 原创-NoSql | 评论:0人 | 浏览:

NoSql概况

介绍redis之前,首先先介绍一下NoSql这个概念。NoSql是Not Only Sql的简写,即非关系型数据库。传统的数据库是关系型数据库,但随着数据量的不断提升,传统的关系型数据库越来越难以满足大规模以及高并发的应用场景。于是NoSql应用而生。

NoSql大多以Key-Value的形式存储数据,不一定遵循传统数据库的一些要求,比如SQL标准、ACID属性、表结构等。

More...

翻译:如何在Windows下搭建Storm

作者: blogchong | 分类: 原创-技术博文翻译 | 评论:5人 | 浏览:

在过去,在windows下跑storm是一个极大的挑战。通常,这种方式会涉及到Storm的源码编程方式,storm的生态依赖以及如何让windows伪装成UNIX/POSIX。

就是因为这个原因,导致了很大一部分Storm的潜在用户放弃了将storm整合的到大数据处理框架中。

非常感谢Storm的开发者David Lao以及 来自Yahoo!的贡献(making-storm-fly-with-netty),下一个storm版本 (0.9.1-incubating) 将会更容易地部署到windows环境中。

More...

Storm应用实例:基于Storm的Nginx Log实时监控系统

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

背景

UAE(UC App Engine)是一个UC内部的PaaS平台,总体架构有点类似CloudFoundry,包括:

  1. 快速部署:支持Node.js、Play!、PHP等框架

  2. 信息透明:运维过程、系统状态、业务状况

More...

Storm实时处理系统集群监控

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

很多人都对Storm集群监控很有兴趣,特地收集了这篇文章,提供了监控项目作者的项目下载地址。

storm集群监控Git首页:storm-monitor.

以下信息为摘录,摘录自《庄周梦蝶》(想必会有很多人熟悉这个网络ID)。

所谓兵马未动,粮草先行,准备将storm用在某个项目中做实时数据分析。无论任何系统,一定要有监控系统并存,当故障发生的时候你能第一个知道,而不是让别人告诉你,那处理故障就很被动了。

More...

文本挖掘详解

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

一、文本挖掘概念

在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。

文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 。

文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

More...

程序员如何快速准备面试中的算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

备战面试中算法的五个步骤

对于立志进一线互联网公司,同时不满足于一辈子干纯业务应用开发,希望在后端做点事情的同学来说,备战面试中的算法,分为五个步骤,如下:

1、掌握一门编程语

首先你得确保你已掌握好一门编程语言:

More...