【数据虫巢出品】要说起雾霾,那到底是不是北京的醇厚?

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

要说起雾霾,那到底是不是北京的最醇厚?对此,趁着这波雾霾来袭,我们来用数据挖一挖。


More...

【数据虫巢出品】用数据挖一挖豆瓣5.3的《长城》,水军力量到底有多强大

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

吃瓜群众喜欢看好戏,那么我们就用数据来挖一挖豆瓣5.3的《长城》,水军力量到底有多强大。

号称今年最后一部华语大片--《长城》于12月16日正式上映,截止12月18号上午10时,“数据虫巢”爬取豆瓣数据,豆瓣5.3分,累计评价人数47225(下面截图是晚上截的,人数已经飙到了5.7W,好像分数也涨了0.1,先不管,我们继续通过数据来深挖这老谋子史上第二烂的大片)。

“数据虫巢”爬取了截止12月18号上午10时,电影《长城》的所有相关数据,包括评分,评分分布,所有短评(去重后累计20191条),以及对应短评的评分,所有长影评(去重后累计2458条),以及对应长影评的相关属性。

并且,我们对所有影评中的情感特征(褒、贬、哀、怒、惧、惊)进行了提取,且对影评中涉及的相关演员,当然还有张艺谋大导演的姓名特征进行了提取。

“数据虫巢”意图通过数据的角度:

  • 挖一挖豆瓣影评中水军的力量到底有多强大?

  • 挖一挖吃瓜群众的槽点在哪里?

  • 挖一挖吃瓜群众最吐槽的主演是哪位(景甜姑凉,还有TF小男孩是不是已经预感到了不妙)?

  • 挖一挖吃瓜群众最不care的主演是哪个?

我们先来挖一挖影评中到底有多少的水军在“摸鱼”,或许这5.3依然掺水不少?

我们先来看三组占比图,分别为豆瓣整体评分占比、豆瓣短评评分占比、豆瓣长影评评分占比。

从整体评分(所有进行打分的记录) ,到短评(字少的评价),到号称经典的长评(长文影评),5星评分占比一路飙高,通过各个评分计算的整体评分,从5.3到6.0,再到6.7(后两个是通过计算得出),一路飙高。

趋势变化异常之诡异,说好的这个电影很差的呢?!

怎么看影评都好评如潮了都,写长评的竟然有30.7%的占比了,莫非给一星的吃瓜群众都懒得去吐槽了?

不着急,我们再来看一组数据,这回,我们结合影评后面的顶踩(即有用、没用的按钮),来进一步深挖(要知道,影评可以作假,但是吃瓜群众这么多,随手的顶踩量总难作假吧)。

这是一个有意思的分析数据,参与长影评点赞互动的人数为27347,大概是撰写长评人数的10倍多点,参与短评点赞互动的人数是89758,大概是撰写短评人数20191的4.5倍。

从长影评的反馈中,计算的评分应该是7.3分,即使单纯看长评数据计算的评分也有6.7,相对于整体的5.3,俨然不是一个级别的了。

从这里看,是进行长评的人中混杂了大量的水军?还是说吐槽的人都懒得写长评进行吐槽?

再来看看短评数据,单纯的从评论数据计算出来的5.9,再加以点赞的人数进行评分修正,最终获得的评分是5.1,低于整体评分的5.3,比重从22.58%下降到12.19%

再对比长评的计算的评分情况,是长评区的水太深,还是说短评中吃瓜群众参与的太多,暴露了最终的分数质量本质,5.1?

由于长评和短评的意见已经难以统一了,所以我们把长评和短评的特征拆开来对比分析一下。

左侧为长评的正面评价特征,右侧为短评的正面的评价特征(只取前100的特征词 )。

我们可以看出短评的正面评价总体偏口语化的正面评价居多,如数量最多的“不错”、“喜欢”、“值得”等词,而长评中的正面词则偏向于类价值观的正面评价较多,诸如“英雄”、“震撼”、“相信”、“信任”、“拯救”等。

我们再来看一下吃瓜群众的吐槽情况,同样把长评和短评分开进行分析。

同样,左侧为长评的吐槽特征,右侧为短评的吐槽特征(只取前100的特征词)。

长评中整体槽点也不少,但是整体相对偏委婉、理智,诸如“失望”、“不好”、“不行”、“不够”、“强行”等。

但短评中槽点整体偏情绪化,除了“不好”、“失望”等,诸如“恶心”、“弱智”、“傻逼”、“莫名其妙”、“无聊”情绪化明显的特征词占据了不少的比重,其频度也不低。

对比上面两组分析特征,其实是可以看出豆瓣长评与短评的两类评论的特点的,不管是正面评价还是负面评价,长评中整体更趋向于理智的看待影片,而短评中更趋于情绪化的观点表达。

整体来说,长评中正面评价偏多,更多的基于《长城》的价值观进行评析,并且给予正面反馈,而短评中则负面评论特征占据略多,并且整体表现的比较剧烈,更情绪化,甚至在特征的长尾分布中,各种具有中国特色的“国骂”都出现了,精彩绝伦。

我们再来看看吃瓜群众们关注的那些大主演们,在影评中的出境率如何。

排在状元位以及榜眼位的老谋子与景甜姑凉基本垄断了影评区,分别被提及了7K多次,而且大部分都是被吐槽。

吐槽老谋子的更多的是对影片的失望,而景甜姑凉基本和面瘫划上等号了,说到面瘫,还有一位王俊凯小男孩,据说台词加起来不到10句,不过在影评中居然还有这么多人讨论他,是吐槽?还是小男孩的粉丝?

熊士兵鹿晗排第三位,并且与没活过半集的张涵予的提及次数拉开了一定的差距,颜值经济果然还是有一定效果的,而张涵予虽然“早死”,但也可以瞑目了,最起码是被吃瓜群众记住了。

至于我们的绝对第一主角,马特呆萌,这个影评出镜率,真是有点对不起他的大猪脚的名头,看来呆萌被《长城》毁的不轻,奥斯卡还有望么?

接下来就是以彭于晏、刘德华领衔的酱油阵容了,基本来说一改往日影片主角定位的风格,在《长城》中打了一手好酱油,所以基本影评中也涉及的比较少。

黄轩除了跟着将军们完成了三句半和“遵命”的和声和一句 ,打仗的时候感觉就直接消失了,但也有可能因为扮演的是速度最快的鹿军,快到镜头都拍不到。

快到镜头都拍不到,所以吃瓜群众估计在影评中仅有的少数讨论就是:欸,黄轩呢,黄轩哪去了?~~

而对于吃瓜群众来说,最没有存在感的三人:佩德罗·帕斯卡、威廉·达福、余心恬。

余心恬就算了,估计也没有几人认识,但佩德罗·帕斯卡与威廉·达福作为《长城》中戏份数一数二重的配角,吃瓜群众对他们竟然毫不关心,实在是存在感略低。

时间有限,先上这些了~~

More...

【大数据职位画像】看看你是不是白混了贼多年!

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:0人 | 浏览:

以多个招聘网站的真实大数据JD为基础数据,集成了8月底4600份去重简历,生成大数据领域的职位需求画像,希望能够给大数据从业者们一个参考。

More...

文本主题特征抽取实践与构想

作者: blogchong | 分类: 原创-数据挖掘 | 评论:1人 | 浏览:

缘起

     其实开展文本主题特征抽取这个方面的工作,已经近一个多月了。在此之前,部门内部对于数据挖掘、机器学习这块的积累还是比较薄弱的。

      经过一个多月在这方面的实践、与行业内相关同行的交流以及经历接触的一些东西,我发现还是有些东西可以拿出来做分享的。

      虽然有些东西看起来并不是很高端的东西,但是,从工程化的角度来说,个人认为还是值得借鉴参考的。

More...

DT时代变革的反思

作者: blogchong | 分类: 互联网前沿IT技术时评 | 评论:0人 | 浏览:

DT一词,翻译过来即数据科技。可以说,这并不是一个新词,但它真正引起我注意的是阿里研究院最近写的一本书《互联网+:从IT到DT》。阿里作为国内IT技术的引领者,其技术定论不可轻易忽视之!

More...

这些年,这些挖掘机算法,这些反思

作者: blogchong | 分类: 原创-我的互联网简历 | 评论:8人 | 浏览:

写这篇文章,缘自于前几天部门内部成员们进行了一次部门内部现有涉及的一些算法的review以及整理。不过比较囧的就是,由于boss不在,我们讨论讨论着就成了吐槽大会,倒是有一半时间在吐槽产品以及业务部门了~~

不过这也算是一件可喜可贺的事情了,这也可以看做是我们数据部门,已经由开轻型挖掘机向深挖阶段迈步了。

More...

推荐系统绝对不会向你推荐什么

作者: 大数据编辑 | 分类: Storm|DM|Hadoop|NoSql | 评论:0人 | 浏览:

(文/Joseph A. Konstan & John Riedl) 讲完了推荐算法是如何“猜你喜欢”的 ,现在,你对于每回上网购物时在线零售商是如何打量你,并努力把你的喜好和其他人的相匹配有了一个基本的概念。

推荐系统还有另外两大特点,也对你最终看到的推荐结果有着显著的影响:第一,在弄清楚你和其他购物者的相似度有多高之前,推荐系统必须先弄明白你真正喜欢什么;第二,推荐系统依照一组商业规则运行,以确保推荐结果既让你觉得有用,也使商家有利可图。

推荐算法是如何赢得你的信任,又让商家有钱可赚的?

More...