欢迎关注博客虫微信公众号“数据虫巢(微信号blogchong)”,个人微信号mute88。

[置顶] 数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

[置顶] 米特吧大数据技术沙龙第二期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:4人 | 浏览:

[置顶] 米特吧大数据技术沙龙第一期干货分享

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:1人 | 浏览:

[置顶] 我所理解的大数据个性化推荐

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:2人 | 浏览:

[置顶] 这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

[置顶] 数据平台架构草案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

大数据猿们,是时候想想这几个问题了

作者: blogchong | 分类: 原创-经验之谈 | 评论:0人 | 浏览:

处于技术交流的这个圈子,有些东西真心不吐不快,希望大家能从中得到有一些东西,不光是技术交流的小话题,甚至是做事的态度~~

More...

热度TopN排名算法的设计

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

最近开始在简书上混,今日在首页上不经意间看到一篇《从豆瓣电影评分算法说起》,感觉有点眼熟,就点了进去。

其实阿北的那篇《豆瓣电影评分八问》,我也是刚看过,这可能也是让我觉得眼熟的原因。

其他的不多说,其实让我耳目一新的是作者说的用户投票排名算法。

我之所以说是耳目一新,那是因为类似这种热度TopN排名的算法,在一年前接触过,也设计过排名算法,并且,至今然仍在用,那就是“极客头条"的最热排行榜。

而现在,总算是接触到比较完整的算法描述了,对排名算法也有了一个比较系统的认知,所以甚是感激。

More...

你们是不是很缺大数据工程师?

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:2人 | 浏览:

缘起 之所以有这个话题,是因为周末加班中午吃饭与一个同行朋友聊起了这个话题,之后再细细地结合一些其他接触的东西,确实是有些感触的。

并且对于行业的一些现状,也的确有些自己的看法,对不对先不论,这玩意儿也没有对错之分,每个人都有自己想法,当然也包括我博客虫了。

所以,有些东西、有些想法我还是愿意分享出来的,畅所欲言吧~~

More...

文本主题特征抽取实践与构想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

缘起

     其实开展文本主题特征抽取这个方面的工作,已经近一个多月了。在此之前,部门内部对于数据挖掘、机器学习这块的积累还是比较薄弱的。

      经过一个多月在这方面的实践、与行业内相关同行的交流以及经历接触的一些东西,我发现还是有些东西可以拿出来做分享的。

      虽然有些东西看起来并不是很高端的东西,但是,从工程化的角度来说,个人认为还是值得借鉴参考的。

More...

米特吧大数据技术沙龙第一期举办感想以及现场照片/PPT分享~~

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:0人 | 浏览:

第一次发起并且组织的线下技术沙龙,从筹备到举办总共花了两个多星期,在12月5号下午于朝阳区望福码大厦B座7楼的随身云会议室举行(再次感觉随身云提供的会议室)。

来自新浪、百度、搜狐、乐视、CSDN、新东方、亚信等数十个公司的技术经理、开发人员近40人参加了技术沙龙活动,当然,也有少部分非在职人士,比如来自中传媒大学大数据方向的几位博士和硕士也参与活动。

整个活动不止有技术的分享,也有技术的自由交流,整个过程感觉还是很nice的,正真体现到了这不是一个简单的技术分享,而是一个技术沙龙,有交流有探讨。

分享的朋友分别来自CSDN(俺算一个,哈哈)、乐视云、亚信、以及随身云,主题分别为《沙龙开题:进步始于交流,收获源于分享--再唠一唠Storm》、《海量数据处理之大跃进--天到实时》、《BigData in 中华万年历》、《BI内容分享》等。

在分享与交流之后,最后沙龙活动以参与活动的各自自我介绍收尾,并且相互之间留下了联系方式,以备技术的继续交流。

《米特吧大数据技术沙龙》第一期算是圆满收工,作为第一次发起并且组织线下的大数据技术沙龙活动来说,个人感觉还是很不错的,我希望“进步始于交流、收获源于分享”的理念能够持续下去~~

第一期已经有了,我想第二期还会远吗?

技术沙龙PPT分享:

More...

《米特吧大数据线下技术交流沙龙第一期》开始了~~

作者: blogchong | 分类: 博客虫站内公告 | 评论:0人 | 浏览:

Hi,Guys
我是博客虫,从活动的发起、调研到现在的报名,已经有近一个星期了,这一个星期里,我一直在忙会场以及分享讲师的事情,基本上有个大概的结果了,所以,现在开放正式报名。

一、关于活动

之所以把这次线下活动命名为”米特吧大数据线下技术交流沙龙“,其实本意是能把这个沙龙一直做下去,这只是一个开头。然后这里将会沙龙活动的阵地,以后相关的事宜都会在这里发布,包括活动筹集、调研、报名、活动之后的干货分享等等诸如此类的东西将会记录在这里。
关于技术主题,首先当然是围绕大数据话题,第一期的话,根据我跟一些分享讲师的初步沟通,Storm会是重点内容。

二、沙龙分享主题
//这是初步大致的内容,之后会在本帖更新更详细的分享主题,甚至包括讲师介绍,详细分享内容介绍,欢迎继续跟进
(1)黄崇远   CSDN大数据应用挖掘工程师  《沙龙开题:进步始于交流,收获源于分享》 
讲师简介:
黄崇远,花名博客虫,CSDN大数据应用挖掘工程师,博客虫|大数据博客博主,大数据技术公众号[博客虫]撰稿者,沙龙活动组织者。目前专注于大规模数据数据处理、大数据应用挖掘。
(2)阿里  JStorm团队成员  《分享JStorm相关的内容》//具体讲师介绍以及详细的内容之后会给出
//资料待完善,欢迎持续跟进
(3)耿一斐  乐视云计算数据研发工程师  《海量数据处理之大跃进--自主bi系统"天到实时"》 
讲师简介:
耿一斐,乐视云计算数据研发工程师。具有实施一整套从数据采集到应用的大数据处理解决方案经验。三年的大数据处理和应用经验,目前专注于海量数据实时处理以及应用。
(4)杭建   随身移动后端技术负责人  《BigData in 中华万年历》 
讲师简介:
杭建,随身移动(即中华万年历)后端研发负责人。曾就职于网易杭州研究院,参与过运维平台、云计算动态负载均衡等基础平台的研发工作。后进入随身移动负责后端技术管理、研发。在JavaEE、中间件、基础系统架构等方面有多年的研究以及实践经验。
(5)胡夕   微博混合云系统负责人  《微博架构的实践与应用 
讲师简介:
胡夕,微博混合云系统负责人,曾就职于搜狗营销事业部、IBM中国研发中心,参与过搜狗商业平台大数据中心系统的设计与研发工作,后进入微博进行后端及架构方面的研发与管理。目前从事Mesos、Marathon和Docker方面的研发。
沙龙的过程包括技术分享,以及之后的自由交流的环节

More...

推荐系统基础知识储备

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 推荐系统基础

1.1 个性化推荐概述

1.1.1 推荐系统概述

首先,需要申明一点的就是推荐系统!=推荐算法。推荐系统是一套完善的推荐机制,包括前期数据的准备、具体推荐的过程(这个过程可能是一套复杂的算法模型,也可能是一个简单的规则,也可能是多种模型的混合结果等等)、后期数据的预测、AB测试效果评估等等。

1.1.2 推荐算法模型概述

在算法模型上大体可以分基于内容的推荐、基于协同过滤的推荐。

基于内容推荐,即通过内容本身的属性,然后计算内容的相似性,找到与某物品属性相似的物品。协同过滤,所谓协同过滤,即不依赖于物品本身的物品属性,而是通过其他相关特征,例如人参与的行为数据,来达到推荐物品的目的。

关于协同过滤,又分为以下几个类别:基于物品的协同,即ItemCF;基于用于的协同,即UserCF;基于模型的协同,即ModelCF。

其中,基于模型的协同又可以分为以下几种类型:基于距离的协同过滤;基于矩阵分解的协同过滤,即Latent Factor Model(SVD);基于图模型协同,即Graph,也叫社会网络图模型。

More...