欢迎关注“数据虫巢(微信号blogchong)”,个人微信号mute88,数据虫巢私密群启动招募啦!

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:1人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

文本挖掘详解

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

一、文本挖掘概念

在现实世界中,可获取的大部信息是以文本形式存储在文本数据库中的,由来自各种数据源的大量文档组成,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和Web页面。由于电子形式的文本信息飞速增涨,文本挖掘已经成为信息领域的研究热点。

文本数据库中存储的数据可能是高度非结构化的,如WWW上的网页;也可能是半结构化的,如e-mail消息和一些XML网页:而其它的则可能是良结构化的。良结构化文本数据的典型代表是图书馆数据库中的文档,这些文档可能包含结构字段,如标题、作者、出版日期、长度、分类等等,也可能包含大量非结构化文本成分,如摘要和内容。通常,具有较好结构的文本数据库可以使用关系数据库系统实现,而对非结构化的文本成分需要采用特殊的处理方法对其进行转化。

文本挖掘(Text Mining)是一个从非结构化文本信息中获取用户感兴趣或者有用的模式的过程。其中被普遍认可的文本挖掘定义如下:

文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的知识的过程,同时运用这些知识更好地组织信息以便将来参考。

文本挖掘的主要用途是从原本未经处理的文本中提取出未知的知识,但是文本挖掘也是一项非常困难的工作,因为它必须处理那些本来就模糊而且非结构化的文本数据,所以它是一个多学科混杂领域,涵盖了信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习以及数据挖掘等技术 。

文本挖掘是从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似。但与传统的数据挖掘相比,文本挖掘有其独特之处,主要表现在:文档本身是半结构化或非结构化的,无确定形式并且缺乏机器可理解的语义;而数据挖掘的对象以数据库中的结构化数据为主,并利用关系表等存储结构来发现知识。因此,有些数据挖掘技术并不适用于文本挖掘,即使可用,也需要建立在对文本集预处理的基础之上。

文本挖掘是应用驱动的。它在商业智能、信息检索、生物信息处理等方面都有广泛的应用;例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自动简历评审,搜索引擎等等。

More...

程序员如何快速准备面试中的算法

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

备战面试中算法的五个步骤

对于立志进一线互联网公司,同时不满足于一辈子干纯业务应用开发,希望在后端做点事情的同学来说,备战面试中的算法,分为五个步骤,如下:

1、掌握一门编程语

首先你得确保你已掌握好一门编程语言:

More...

在校学习Hadoop等大数据相关技术对找工作能否有帮助?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

随着大数据潮流的风靡,或者说大数据潮流的进一步扩散,如今大数据看起似乎有一种势不可挡的趋势了。于是,很多人就开始不淡定了。

之所以有“在校学习Hadoop等大数据相关技术对找工作能否有帮助?”这个话题,一方面确实存在大数据技术席卷全球的风潮,另一方面也是因为身边确实也发生了很多这种情况。

More...

Learning storm book 笔记8-Log Processing With Storm

作者: EXEC | 分类: 原创-Storm实时处理 | 评论:1人 | 浏览:

有代码的书籍看起来就是爽,看完顺便跑个demo,感觉很爽!我只是个搬运工,不喜也允许喷!

场景分析

主要是利用apache的访问日志来进行分析统计 如用户的IP来源,来自哪个国家或地区,用户使用的Os,浏览器等信息,以及像搜索的热词等信息的统计 这里日志信息如下

More...

Storm系统中的Nimbus高可用

作者: blogchong | 分类: 原创-Storm实时处理 | 评论:0人 | 浏览:

在做架构的时候,一个重要要素需要考虑的就是:系统的高可用!

关于Storm的高可用,有以下几个方面:

(1)数据利用阶段可以通过ACK机制保证数据被处理;

More...

博客虫资料分享第二期《数据挖掘进阶》

作者: blogchong | 分类: 原创-博客虫资料分享 | 评论:0人 | 浏览:

博客虫资料分享第二波来袭,依然是数据挖掘,不过是进阶版的~

博客虫资料分享主要是分享前沿IT领域的相关资料、高清PDF文档、书籍。站长收集,绝对精品!

More...

川流不息的地下铁啊

作者: blogchong | 分类: 原创-与挨踢无关 | 评论:2人 | 浏览:

看着一波又一波的人涌进地铁,随着人流被挤压,轰隆声起,臃肿的地铁一头扎进地洞中,黑暗蔓延,一点一点地临近窒息~~

好一个大沙丁鱼罐!

看着这负重不堪又止停不息的地下铁,我想,或许它也很无奈吧?

More...