【数据虫巢】干货私密群招募

作者: blogchong | 分类: 原创-经验之谈 | 评论:3人 | 浏览:

我的个人干货私密群正式开启招募啦,群名“【数据虫巢】干货私密群”。

启动私密群招募的原因:

More...

写给想要跨界、初入大数据领域,以及想了解数据业务模式的朋友

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:1人 | 浏览:

More...

【数据虫巢出品】要说起雾霾,那到底是不是北京的醇厚?

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

要说起雾霾,那到底是不是北京的最醇厚?对此,趁着这波雾霾来袭,我们来用数据挖一挖。


More...

【数据虫巢出品】用数据挖一挖豆瓣5.3的《长城》,水军力量到底有多强大

作者: blogchong | 分类: 原创-数据挖掘 | 评论:2人 | 浏览:

吃瓜群众喜欢看好戏,那么我们就用数据来挖一挖豆瓣5.3的《长城》,水军力量到底有多强大。

号称今年最后一部华语大片--《长城》于12月16日正式上映,截止12月18号上午10时,“数据虫巢”爬取豆瓣数据,豆瓣5.3分,累计评价人数47225(下面截图是晚上截的,人数已经飙到了5.7W,好像分数也涨了0.1,先不管,我们继续通过数据来深挖这老谋子史上第二烂的大片)。

“数据虫巢”爬取了截止12月18号上午10时,电影《长城》的所有相关数据,包括评分,评分分布,所有短评(去重后累计20191条),以及对应短评的评分,所有长影评(去重后累计2458条),以及对应长影评的相关属性。

并且,我们对所有影评中的情感特征(褒、贬、哀、怒、惧、惊)进行了提取,且对影评中涉及的相关演员,当然还有张艺谋大导演的姓名特征进行了提取。

“数据虫巢”意图通过数据的角度:

  • 挖一挖豆瓣影评中水军的力量到底有多强大?

  • 挖一挖吃瓜群众的槽点在哪里?

  • 挖一挖吃瓜群众最吐槽的主演是哪位(景甜姑凉,还有TF小男孩是不是已经预感到了不妙)?

  • 挖一挖吃瓜群众最不care的主演是哪个?

我们先来挖一挖影评中到底有多少的水军在“摸鱼”,或许这5.3依然掺水不少?

我们先来看三组占比图,分别为豆瓣整体评分占比、豆瓣短评评分占比、豆瓣长影评评分占比。

从整体评分(所有进行打分的记录) ,到短评(字少的评价),到号称经典的长评(长文影评),5星评分占比一路飙高,通过各个评分计算的整体评分,从5.3到6.0,再到6.7(后两个是通过计算得出),一路飙高。

趋势变化异常之诡异,说好的这个电影很差的呢?!

怎么看影评都好评如潮了都,写长评的竟然有30.7%的占比了,莫非给一星的吃瓜群众都懒得去吐槽了?

不着急,我们再来看一组数据,这回,我们结合影评后面的顶踩(即有用、没用的按钮),来进一步深挖(要知道,影评可以作假,但是吃瓜群众这么多,随手的顶踩量总难作假吧)。

这是一个有意思的分析数据,参与长影评点赞互动的人数为27347,大概是撰写长评人数的10倍多点,参与短评点赞互动的人数是89758,大概是撰写短评人数20191的4.5倍。

从长影评的反馈中,计算的评分应该是7.3分,即使单纯看长评数据计算的评分也有6.7,相对于整体的5.3,俨然不是一个级别的了。

从这里看,是进行长评的人中混杂了大量的水军?还是说吐槽的人都懒得写长评进行吐槽?

再来看看短评数据,单纯的从评论数据计算出来的5.9,再加以点赞的人数进行评分修正,最终获得的评分是5.1,低于整体评分的5.3,比重从22.58%下降到12.19%

再对比长评的计算的评分情况,是长评区的水太深,还是说短评中吃瓜群众参与的太多,暴露了最终的分数质量本质,5.1?

由于长评和短评的意见已经难以统一了,所以我们把长评和短评的特征拆开来对比分析一下。

左侧为长评的正面评价特征,右侧为短评的正面的评价特征(只取前100的特征词 )。

我们可以看出短评的正面评价总体偏口语化的正面评价居多,如数量最多的“不错”、“喜欢”、“值得”等词,而长评中的正面词则偏向于类价值观的正面评价较多,诸如“英雄”、“震撼”、“相信”、“信任”、“拯救”等。

我们再来看一下吃瓜群众的吐槽情况,同样把长评和短评分开进行分析。

同样,左侧为长评的吐槽特征,右侧为短评的吐槽特征(只取前100的特征词)。

长评中整体槽点也不少,但是整体相对偏委婉、理智,诸如“失望”、“不好”、“不行”、“不够”、“强行”等。

但短评中槽点整体偏情绪化,除了“不好”、“失望”等,诸如“恶心”、“弱智”、“傻逼”、“莫名其妙”、“无聊”情绪化明显的特征词占据了不少的比重,其频度也不低。

对比上面两组分析特征,其实是可以看出豆瓣长评与短评的两类评论的特点的,不管是正面评价还是负面评价,长评中整体更趋向于理智的看待影片,而短评中更趋于情绪化的观点表达。

整体来说,长评中正面评价偏多,更多的基于《长城》的价值观进行评析,并且给予正面反馈,而短评中则负面评论特征占据略多,并且整体表现的比较剧烈,更情绪化,甚至在特征的长尾分布中,各种具有中国特色的“国骂”都出现了,精彩绝伦。

我们再来看看吃瓜群众们关注的那些大主演们,在影评中的出境率如何。

排在状元位以及榜眼位的老谋子与景甜姑凉基本垄断了影评区,分别被提及了7K多次,而且大部分都是被吐槽。

吐槽老谋子的更多的是对影片的失望,而景甜姑凉基本和面瘫划上等号了,说到面瘫,还有一位王俊凯小男孩,据说台词加起来不到10句,不过在影评中居然还有这么多人讨论他,是吐槽?还是小男孩的粉丝?

熊士兵鹿晗排第三位,并且与没活过半集的张涵予的提及次数拉开了一定的差距,颜值经济果然还是有一定效果的,而张涵予虽然“早死”,但也可以瞑目了,最起码是被吃瓜群众记住了。

至于我们的绝对第一主角,马特呆萌,这个影评出镜率,真是有点对不起他的大猪脚的名头,看来呆萌被《长城》毁的不轻,奥斯卡还有望么?

接下来就是以彭于晏、刘德华领衔的酱油阵容了,基本来说一改往日影片主角定位的风格,在《长城》中打了一手好酱油,所以基本影评中也涉及的比较少。

黄轩除了跟着将军们完成了三句半和“遵命”的和声和一句 ,打仗的时候感觉就直接消失了,但也有可能因为扮演的是速度最快的鹿军,快到镜头都拍不到。

快到镜头都拍不到,所以吃瓜群众估计在影评中仅有的少数讨论就是:欸,黄轩呢,黄轩哪去了?~~

而对于吃瓜群众来说,最没有存在感的三人:佩德罗·帕斯卡、威廉·达福、余心恬。

余心恬就算了,估计也没有几人认识,但佩德罗·帕斯卡与威廉·达福作为《长城》中戏份数一数二重的配角,吃瓜群众对他们竟然毫不关心,实在是存在感略低。

时间有限,先上这些了~~

More...

【数据虫巢】数据化政务舆情的探索

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

并且自2015年8月份以来,国务院印发了《促进大数据发展行动纲要》,从政策上支持了大数据在政务方面落地,并且其中很重要的一项就是,使用大数据提升政府对社会的治理能力,更加的精准化以及更加效率。

并且自2015年来,各省市都陆陆续续的出台了相应的措施,但总体来说都还停留在文件层面,目前落地的案例还比较少。

上面这六个维度,只是我们对政务大数据的一个应用探索,可以说相对还是比较浅层的,但即使是相对比较浅层,但我们已经能够管中窥豹,相信大家还是能够看出大数据与政务的结合还是有一定可实施性以及确实利用性的。


More...

数据虫巢-提供专业的大数据解决方案

作者: blogchong | 分类: 原创-Hadoop大数据 | 评论:3人 | 浏览:

【数据虫巢】我们是一个年轻的数据科学工作室团队,专注于多元化的数据采集、存储、建模,挖掘与可视化,希望使用技术、数据改变生活,实现数据驱动的精准化运营、决策,以及提升业务治理能力。(微信公众号“数据虫巢”ID:blogchong)


数据虫巢官网:http://www.mite8.com



我们擅长:

·政务舆情:依赖于公开的政府以及相关机构的官网数据,以及结合地方性门户数据,针对性的进行诸如财政统计分析、问政舆情、人才&招聘舆情、外界口碑舆情、地方房产舆情以及教育舆情等数据化分析,进行政务信息的全面数据化、精准化,进一步提升政府的社会治理水平。

·行业报告:依赖于互联网开放的行业信息数据,进行收据爬取、收集、建模,以及挖掘分析等,提供垂直行业的大数据数据咨询服务,提供精准化的行业数据分析报告,诸如房产走势分析报告、大数据职位需求分析报告等。


More...

聊一聊支付宝的芝麻信用评分模型

作者: blogchong | 分类: 原创-数据挖掘 | 评论:0人 | 浏览:

支付宝都推出圈子了,是时候聊聊芝麻信用评分模型了。

More...