【数据虫巢出品】要说起雾霾,那到底是不是北京的醇厚?

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

要说起雾霾,那到底是不是北京的最醇厚?对此,趁着这波雾霾来袭,我们来用数据挖一挖。


More...

【数据虫巢出品】用数据挖一挖豆瓣5.3的《长城》,水军力量到底有多强大

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

吃瓜群众喜欢看好戏,那么我们就用数据来挖一挖豆瓣5.3的《长城》,水军力量到底有多强大。

号称今年最后一部华语大片--《长城》于12月16日正式上映,截止12月18号上午10时,“数据虫巢”爬取豆瓣数据,豆瓣5.3分,累计评价人数47225(下面截图是晚上截的,人数已经飙到了5.7W,好像分数也涨了0.1,先不管,我们继续通过数据来深挖这老谋子史上第二烂的大片)。

“数据虫巢”爬取了截止12月18号上午10时,电影《长城》的所有相关数据,包括评分,评分分布,所有短评(去重后累计20191条),以及对应短评的评分,所有长影评(去重后累计2458条),以及对应长影评的相关属性。

并且,我们对所有影评中的情感特征(褒、贬、哀、怒、惧、惊)进行了提取,且对影评中涉及的相关演员,当然还有张艺谋大导演的姓名特征进行了提取。

“数据虫巢”意图通过数据的角度:

  • 挖一挖豆瓣影评中水军的力量到底有多强大?

  • 挖一挖吃瓜群众的槽点在哪里?

  • 挖一挖吃瓜群众最吐槽的主演是哪位(景甜姑凉,还有TF小男孩是不是已经预感到了不妙)?

  • 挖一挖吃瓜群众最不care的主演是哪个?

我们先来挖一挖影评中到底有多少的水军在“摸鱼”,或许这5.3依然掺水不少?

我们先来看三组占比图,分别为豆瓣整体评分占比、豆瓣短评评分占比、豆瓣长影评评分占比。

从整体评分(所有进行打分的记录) ,到短评(字少的评价),到号称经典的长评(长文影评),5星评分占比一路飙高,通过各个评分计算的整体评分,从5.3到6.0,再到6.7(后两个是通过计算得出),一路飙高。

趋势变化异常之诡异,说好的这个电影很差的呢?!

怎么看影评都好评如潮了都,写长评的竟然有30.7%的占比了,莫非给一星的吃瓜群众都懒得去吐槽了?

不着急,我们再来看一组数据,这回,我们结合影评后面的顶踩(即有用、没用的按钮),来进一步深挖(要知道,影评可以作假,但是吃瓜群众这么多,随手的顶踩量总难作假吧)。

这是一个有意思的分析数据,参与长影评点赞互动的人数为27347,大概是撰写长评人数的10倍多点,参与短评点赞互动的人数是89758,大概是撰写短评人数20191的4.5倍。

从长影评的反馈中,计算的评分应该是7.3分,即使单纯看长评数据计算的评分也有6.7,相对于整体的5.3,俨然不是一个级别的了。

从这里看,是进行长评的人中混杂了大量的水军?还是说吐槽的人都懒得写长评进行吐槽?

再来看看短评数据,单纯的从评论数据计算出来的5.9,再加以点赞的人数进行评分修正,最终获得的评分是5.1,低于整体评分的5.3,比重从22.58%下降到12.19%

再对比长评的计算的评分情况,是长评区的水太深,还是说短评中吃瓜群众参与的太多,暴露了最终的分数质量本质,5.1?

由于长评和短评的意见已经难以统一了,所以我们把长评和短评的特征拆开来对比分析一下。

左侧为长评的正面评价特征,右侧为短评的正面的评价特征(只取前100的特征词 )。

我们可以看出短评的正面评价总体偏口语化的正面评价居多,如数量最多的“不错”、“喜欢”、“值得”等词,而长评中的正面词则偏向于类价值观的正面评价较多,诸如“英雄”、“震撼”、“相信”、“信任”、“拯救”等。

我们再来看一下吃瓜群众的吐槽情况,同样把长评和短评分开进行分析。

同样,左侧为长评的吐槽特征,右侧为短评的吐槽特征(只取前100的特征词)。

长评中整体槽点也不少,但是整体相对偏委婉、理智,诸如“失望”、“不好”、“不行”、“不够”、“强行”等。

但短评中槽点整体偏情绪化,除了“不好”、“失望”等,诸如“恶心”、“弱智”、“傻逼”、“莫名其妙”、“无聊”情绪化明显的特征词占据了不少的比重,其频度也不低。

对比上面两组分析特征,其实是可以看出豆瓣长评与短评的两类评论的特点的,不管是正面评价还是负面评价,长评中整体更趋向于理智的看待影片,而短评中更趋于情绪化的观点表达。

整体来说,长评中正面评价偏多,更多的基于《长城》的价值观进行评析,并且给予正面反馈,而短评中则负面评论特征占据略多,并且整体表现的比较剧烈,更情绪化,甚至在特征的长尾分布中,各种具有中国特色的“国骂”都出现了,精彩绝伦。

我们再来看看吃瓜群众们关注的那些大主演们,在影评中的出境率如何。

排在状元位以及榜眼位的老谋子与景甜姑凉基本垄断了影评区,分别被提及了7K多次,而且大部分都是被吐槽。

吐槽老谋子的更多的是对影片的失望,而景甜姑凉基本和面瘫划上等号了,说到面瘫,还有一位王俊凯小男孩,据说台词加起来不到10句,不过在影评中居然还有这么多人讨论他,是吐槽?还是小男孩的粉丝?

熊士兵鹿晗排第三位,并且与没活过半集的张涵予的提及次数拉开了一定的差距,颜值经济果然还是有一定效果的,而张涵予虽然“早死”,但也可以瞑目了,最起码是被吃瓜群众记住了。

至于我们的绝对第一主角,马特呆萌,这个影评出镜率,真是有点对不起他的大猪脚的名头,看来呆萌被《长城》毁的不轻,奥斯卡还有望么?

接下来就是以彭于晏、刘德华领衔的酱油阵容了,基本来说一改往日影片主角定位的风格,在《长城》中打了一手好酱油,所以基本影评中也涉及的比较少。

黄轩除了跟着将军们完成了三句半和“遵命”的和声和一句 ,打仗的时候感觉就直接消失了,但也有可能因为扮演的是速度最快的鹿军,快到镜头都拍不到。

快到镜头都拍不到,所以吃瓜群众估计在影评中仅有的少数讨论就是:欸,黄轩呢,黄轩哪去了?~~

而对于吃瓜群众来说,最没有存在感的三人:佩德罗·帕斯卡、威廉·达福、余心恬。

余心恬就算了,估计也没有几人认识,但佩德罗·帕斯卡与威廉·达福作为《长城》中戏份数一数二重的配角,吃瓜群众对他们竟然毫不关心,实在是存在感略低。

时间有限,先上这些了~~

More...

【数据虫巢】数据化政务舆情的探索

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

并且自2015年8月份以来,国务院印发了《促进大数据发展行动纲要》,从政策上支持了大数据在政务方面落地,并且其中很重要的一项就是,使用大数据提升政府对社会的治理能力,更加的精准化以及更加效率。

并且自2015年来,各省市都陆陆续续的出台了相应的措施,但总体来说都还停留在文件层面,目前落地的案例还比较少。

上面这六个维度,只是我们对政务大数据的一个应用探索,可以说相对还是比较浅层的,但即使是相对比较浅层,但我们已经能够管中窥豹,相信大家还是能够看出大数据与政务的结合还是有一定可实施性以及确实利用性的。


More...

聊一聊支付宝的芝麻信用评分模型

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

支付宝都推出圈子了,是时候聊聊芝麻信用评分模型了。

More...

热度TopN排名算法的设计

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

最近开始在简书上混,今日在首页上不经意间看到一篇《从豆瓣电影评分算法说起》,感觉有点眼熟,就点了进去。

其实阿北的那篇《豆瓣电影评分八问》,我也是刚看过,这可能也是让我觉得眼熟的原因。

其他的不多说,其实让我耳目一新的是作者说的用户投票排名算法。

我之所以说是耳目一新,那是因为类似这种热度TopN排名的算法,在一年前接触过,也设计过排名算法,并且,至今然仍在用,那就是“极客头条"的最热排行榜。

而现在,总算是接触到比较完整的算法描述了,对排名算法也有了一个比较系统的认知,所以甚是感激。

More...

文本主题特征抽取实践与构想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

缘起

     其实开展文本主题特征抽取这个方面的工作,已经近一个多月了。在此之前,部门内部对于数据挖掘、机器学习这块的积累还是比较薄弱的。

      经过一个多月在这方面的实践、与行业内相关同行的交流以及经历接触的一些东西,我发现还是有些东西可以拿出来做分享的。

      虽然有些东西看起来并不是很高端的东西,但是,从工程化的角度来说,个人认为还是值得借鉴参考的。

More...

推荐系统基础知识储备

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

1 推荐系统基础

1.1 个性化推荐概述

1.1.1 推荐系统概述

首先,需要申明一点的就是推荐系统!=推荐算法。推荐系统是一套完善的推荐机制,包括前期数据的准备、具体推荐的过程(这个过程可能是一套复杂的算法模型,也可能是一个简单的规则,也可能是多种模型的混合结果等等)、后期数据的预测、AB测试效果评估等等。

1.1.2 推荐算法模型概述

在算法模型上大体可以分基于内容的推荐、基于协同过滤的推荐。

基于内容推荐,即通过内容本身的属性,然后计算内容的相似性,找到与某物品属性相似的物品。协同过滤,所谓协同过滤,即不依赖于物品本身的物品属性,而是通过其他相关特征,例如人参与的行为数据,来达到推荐物品的目的。

关于协同过滤,又分为以下几个类别:基于物品的协同,即ItemCF;基于用于的协同,即UserCF;基于模型的协同,即ModelCF。

其中,基于模型的协同又可以分为以下几种类型:基于距离的协同过滤;基于矩阵分解的协同过滤,即Latent Factor Model(SVD);基于图模型协同,即Graph,也叫社会网络图模型。

More...