你最关心的马蜂窝事件舆论全景图在这里,用文本挖掘一挖到底

640x_fmt=png

原创作者:谭婧,苏格兰折耳喵

企业作为社会基本的细胞,在守法盈利的同时,担负着服务消费者、社区、社会等利益相关方的重要责任。互联网企业是互联网时代的宠儿,举手投足备受关注。所谓成也萧何,败也萧何。大众的高度关注成就了品牌知名度,但是,这种关注度也变成了无形的压力,增加了互联网企业和利益相关方沟通的难度。中国互联网企业的创始团队往往见长于技术,在如何主动与公众沟通方面还有很长的路要走。常在“爆料式”传播事件中占不了辩论的上风,被动得很。于是乎,一有危机事件发生,互联网就成了信息传播速度最快,但信息也最为混沌的地方,事实与谣言边界模糊。

640x_fmt=png

640x_fmt=png
  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

这不是一个国产的问题,前不久Facebook也因面临挑战,在软件中推出反辱骂等限制不良评论的功能。早在1947年,美国学者奥尔波特(Gordon W.Allport)和波斯特曼(Leo Postman)就提出谣言的传播公式:谣言的流通量=事件的重要性×事件的模糊性(Rumor=Importance×Ambiguous)。该公式自提出后一直被学界奉为圭臬。纵观中国互联网企业危机事件的大事记,涉事企业往往保持沉默,置之不理或者回应回避要害,导致事件的模糊性不断放大,而法律诉讼又具有一定的滞后性。几件要素共同作用,形成了网络谣言与真相起此彼伏的奇景,群众看不到事情的真相,涉事企业或委屈满腹,或诚惶诚恐,或羞于提及。虽然互联网拉近了人与人距离,使得信息处理无比高效,不断激发出新的传播方式,可是每一次热点事件爆发,人们距离真相依然非常遥远。

640x_fmt=jpeg
  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

本文采取文本分析与数据挖掘的数据科学方法对本次「马蜂窝涉嫌数据造假」事件的舆情进行分析,挖掘本次传播现象,主要侧重于分析全网媒体对该事件的参与。以最直观的方式做出呈现与描述,不做结论性判断,意欲抛砖引玉,鼓励与企业利益最紧密相关的利益相关方从各自视角,积极发声、站出来为公众解读事实。

(一)分析篇

一、我们用什么工具一挖到底/span>

原始数据:我们分析了全网2000条以上的新闻数据,数据来自新浪、网易、搜狐等门户网站,以及虎嗅、36氪等科技资讯网站,以上新闻文本数据经过标题去重,也就是说,媒体平台之间相互转发的文章,我们已经将重复标题的新闻文本数据去除。

时间段:10月21日、22日、23日。

工具:编程语言Python,Scrapy爬虫抓取框架,Genism文本分析库,Wordart绘制个性化词云

二、热度指数,大家究竟有多关注br>

图一:热度指数趋势与爆发时间段。

640x_fmt=png
  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

图二:活跃媒体对此事的跟进与报道,如图所示,新闻报道来自新浪、网易、搜狐等门户网站,来自微信公众号、百度百家号和今日头条的信息平台。排名前五的媒体都贡献了10%以上份额,可见媒体均对此事充分重视,并无哪家媒体的声量一家独秀,其中信息量贡献最大的依然是微信平台。这也符合关注此事件人们的直观感受,爆料团队在微信公众号平台首发消息,各家媒体紧随其后进行报道与解读,显示了媒体对此事反应非常迅速。也符合文章开头所提到的社会现象,互联网企业吸引眼球、备受关注。既因为存在互联网群众对信息获取的刚需,也因为媒体对互联网敏锐的嗅觉。如此供需匹配,形成信息供需的有效闭环,良莠不齐的资讯都会被这轮信息流吸收和放大。

640x_fmt=png
  •  数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

三、关键词词云图,大家都在讨论啥/span>

词云图是文本数据可视化的常用工具,我们选取排名前五十的关键词来绘制关键词云图。可以看到,排名前十的词语分别是:

1.  马蜂窝

2.  点评数据

3.   点评

4.   内容

5.   抄袭

6.   UGC(中文为,用户创造内容)

7.   交易

8.   虚假账号

9.   平台

10. 数据造假

640x_fmt=png
  • 数据来源:全网数据,数据统计时间:2018年10月21日-2018年10月23日

舆论关注点一:内容

马蜂窝以游记和攻略起家的公司,与用户有着较深的情感连接,在消费者的品牌意识里,马蜂窝不仅仅是一款旅游产品/平台,它提供给人们的是对于自由生活的向往,是一种不被束缚、逃离俗世的情感归属感,一种正面的价值观。而这种价值观让品牌个性年轻有趣,让人向往,具有很强的品牌领导力,这也是马蜂窝虽然处在在线旅游市场的第二梯队,营业收入(GMV)远远低于第一梯队携程等企业的情况下,其品牌知名度、口碑不亚于第一梯队。正如马蜂窝所主张的:向崇尚自由的加勒比海盗致敬。

640x_fmt=png

根据其性质,马蜂窝的核心竞争是源于其社区里活跃着一批不断生产内容,并对社区品牌有认同的用户,产生大量优质的原创旅游攻略等内容。而我们从分析中可以看出,在与马蜂窝相关的全部信息中,被提及频次最高的词语分别为「点评」、「内容」和「抄袭」。从广义上讲,抄袭是原创的反义词。「内容」一词反复出现,是关键词中的关键词,可见舆论重视程度之高,与其类似的「评论」、「问答」、「游记」、「攻略」均排在前五十,可见舆论对马蜂窝涉嫌作假的细节有所了解,清楚知道哪一块出现了问题。按照马蜂窝的所属行业,有关旅游产品的词汇包括机票、酒店、自助游、自由行、目的地旅游等,这类词没有一个出现在前五十的关键词中,可见舆论聚焦度高,讨论的火力都集中在举报团队质疑的核心问题上,事件的焦点充分聚焦,没有出现指东骂西,东拉西扯的谣言。

关于内容的词汇,以「假」字居多,「抄袭」、「造假」、「虚假」成为核心关键词,可见马蜂窝的品牌形象有所跌落,品牌美誉度受损。

640x_fmt=png

另外,「马蜂窝」一词,在此次事件语境下,一语双关。既是公司名称,又意喻招惹麻烦,惹祸上身。词云图中字体大小与重要度相关。「马蜂窝」一词字体最大最突出。我们可以直观感受到,确实也有不少媒体拿捅了「马蜂窝」用作新闻标题。

640x_fmt=png
  • 截图来源于B站

这次事件与上市企业的危机有本质的不同,原因在于公司的性质。马蜂窝属于融资轮次企业,并没有公开向公众发售股票来融资。一旦这个类型的公司出现负面问题,最受伤害的是投资方。由于马蜂窝估值较高,达175亿,所以「估值」、「融资」成为重点。不仅「估值」一词受关注,关于融资情况的一整句话——2017年12月12日,成立11年的老牌旅游网站马蜂窝宣布获得D轮巨额融资,淡马锡、今日资本等合计投资1.33亿美元。入选「马蜂窝+数据造假」话题中的代表性语句。事实上马蜂窝确实受到鸥翎投资、美国泛大西洋资本集团、高瓴资本、Coatue、CoBuilder、启明创投、Rich Barton、今日资本等机构的青睐。

那么,投资人和马蜂窝的底气在哪里/span>

据了解,2017年中国出游人次达51.3亿,整体收入为5.4万亿,年度增幅为15.1%。近年来,旅游市场保持着稳定增长,国内排名靠前的在线旅游平台都活得风生水起,份额稳定。马蜂窝的底气来源于三点:

第一、如今的马蜂窝已经不仅仅是一家靠出售流量和广告进行导流和转化的平台,慢慢地向一端连接海量用户,一端对接合作商户的平台转变。商业变现的可行性会增强。

640x_fmt=jpeg

第二、旅游消费习惯发生了变化,“专家型”消费者的比例大幅提升。业内人士表示,这一变化也推动着像中青旅这样的老牌企业转型。例如,中青旅的签证业务增长较快,观察用户数据发现,一个中青旅的老用户,一个自然年度在中青旅办七次签证,也不会报名一次跟团游。这种市场的转型,对于马蜂窝是有利的,有旅行需求的专业型消费者越多,对专业的、细致的旅游信息需求越旺盛,这是马蜂窝的优势。

第三、旅游产品具有长决策周期的属性,且消费者对旅游目的地的选择容易受到信息的影响,进而影响决策。如果有刚需存在,受到签证办不下来、航班、线路等负面问题的影响,消费者有较大可能更改旅游目的地。马蜂窝所产出的信息对消费者决策影响力比一般电商所售卖商品的用后评价更有说服力和影响力,提高内容的精准度,就能够带动用户粘性和销售转化率提高。

640x_fmt=jpeg

「投资人」、「资本」、「估值」、「融资」等关键词的本质是有大家都在关心马蜂窝的商业模式和核心盈利能力。这些也是投资人与机构能够为其做出175亿估值,并且买单的原因。这块是本次话题讨论的第二大焦点。相关报道中,存在不少报道直接以175亿作为新闻标题。

在文本聚类的基础上进行典型意见挖掘,话题中的代表性语句包括:

1. 如果大量造假情况真实存在,马蜂窝的融资计划还能顺利进行吗/span>

2. 标题:马蜂窝被曝大规模抄袭用户点评 新一轮融资前陷危机

3. 标题:马蜂窝被爆“点评造假”,或将像熊猫直播一样融资落空/span>

4. 标题:被捅的马蜂窝:融资暗战和五毛党江湖

我们认为,可以做出合理推论:投资机构的投资行为成为困扰舆论的最大问题。

舆论关注点三: 围绕话题风暴的中心「马蜂窝+数据造假」,网民还讨论了什么/span>

当网民在讨论「马蜂窝+数据造假」这个问题时,还讨论了哪些问题们需要挑选出之前报道中出现频率较高的词汇,进行文本相似度计算。技术原理是用Python工具包Gensim跑多种主题算法。

我们选取了“马蜂窝+数据造假”作为检索条件,按照「马蜂窝」「数据造假」的关联词的相关程度,从高到低排序。「承认」「指控」「维护」「攻击行为」「发酵」「歪曲事实」排在前面。分析中可以看出:

第一、大家都在讨论与事实相关的信息。

与事实相关的包括,基于事实的「声明」、「歪曲事实」、对事实的「质疑」、对事实的「否认」,讨论的话题都没有离开事实。换句话说,人民群众高度重视事实,想要了解真相,这是一场围绕寻找事实真相的大讨论。总体看来,追求事实的真相是本次热议的关键。

第二、辩论双方和其举动。

「声明」「承认」与「指控」是爆料团队与被爆料企业在事件中你来我往的举动,也就是说,双方的一举一动都牵动着互联网人民群众的心。「起家」一词也被多次讨论,涉事一共有两方,「起家」显然是关于马蜂窝的企业成长历史,可见关于涉事企业本身的讨论也是热点议题,网民关心涉事企业是一家什么样的企业,拥有哪些服务,有着怎样的历史。「攻击行为」则是属于对于爆料团队的推测。

来源:csdn业界要闻

声明:本站部分文章及图片转载于互联网,内容版权归原作者所有,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2018年9月26日
下一篇 2018年9月26日

相关推荐