雷竞技app官网入口|raybet雷竞app

raybet雷竞app

咨询热线

0354-3118151

Classification

技术文库

0354-3118151
传真:
手机:13103543152
邮箱:1044412950@qq.com
地址:山西省晋中市榆次区迎宾街
当前位置: 首页 > 技术文库 > 技术探讨

文本舆情数据的6个分析方法,你值得拥有!

发布时间:2019-06-07 09:41:41 丨 浏览次数:173

用户舆情信息包括文本、音频、图片等各种各样的形式,其中分析文本舆情数据,主要用到的是文本分析的方法。因为文本数据是非结构化的,拿到文本舆情之后的一个关键问题是要把数据转化为能被计算机理解和处理的结构化数据,然后才可能进一步对用户舆情数据进行完整系统的处理分析,从无关冗余的数据中提炼出有意义的部分。

文本舆情数据的6个分析方法,你值得拥有!(图1)

过程中需要用到的工具有:

  1. 数据爬虫工具:可以根据我们的需要免费从网站上爬取数据(在设有反爬虫机制的渠道,获取舆情数据的难度会增加)。

  2. 文本分析工具:通过分词处理、词频分析、语义网络分析等,挖掘潜藏其中的关键信息,把握深层的关系和结构。根据笔者的实际使用经验,文本分析工具ROST的功能完善,在文本数据量不太大的情况下基本能满足中文舆情分析的需要。如果对于文本分析结果有更高的要求,可使用Python、R等编程语言进行处理。

  3. 文本数据可视化工具:使用工具将文本分析结果以可视化的形式(如词云图、语义网络图)呈现出来,便于从中直观的发现价值点。

一、数据爬虫

数据爬虫是在明确舆情分析的目的和需求后,筛选数据来源渠道获取用户舆情数据。例如论坛发帖、微博评论、淘宝京东的买家评价等文本舆情信息都是可以用爬虫工具直接爬取的。

二、文本清洗和预处理

用户在网络上的书写表达形式是非常随意多样的,因此文本清洗首要把这些噪音数据清洗掉,随后根据需要对数据进行重新编码。

三、分词

分词在基于算法和中文词库建成分词系统后,还需要通过不断的训练来提高分词的效果,如果不能考虑到各种复杂的汉语语法情况,算法中存在的缺陷很容易影响分词的准确性。

四、词频和关键词

词频就是某个词在文本中出现的频次。如果一个词在文本中出现的频次越多,这个词在文本中就越重要,就越有可能是该文本的关键词。这个逻辑本身没有问题,但其中有一些特殊情况需要留意。不能完全直接的基于词频来判断舆情文本中哪些是重要的关键词,词频最高的其实是中文中的常用字,而非对当前文本最有代表性的关键词。一个单词出现的频率与它在频率表里的排名成反比。

五、语义网络分析

语义网络分析是指筛选统计出高频词以后,以高频词两两之间的共现关系为基础,将词与词之间的关系数值化处理,再以图形化的方式揭示词与词之间的结构关系。基于这样一个语义网络结构图,可以直观的对高频词的层级关系、亲疏程度进行分析。其基本原理是统计出文本中词汇、短语两两之间共同出现的次数,再经聚类分析,梳理出这些词之间关系的紧密程度。

六、情感分析

对用户舆情进行情感分析,主要是分析具有情感成分的词汇的情感极性(即情感的正性、中性、负性)和情感强烈程度,然后计算出每个语句的总值,判定其情感类别。还可以综合全文本中所有语句,判定总舆情数据样本的整体态度和情感倾向。


Copyright © 2017-2019雷竞技app官网入口 版权所有Powered by EyouCms
电 话:0354-3118151    手 机:13103543152   传 真:    E-mail:1044412950@qq.com
地 址:山西省晋中市榆次区迎宾街
晋ICP备19005586号-1

扫一扫关注微信公众帐号

免费咨询 投诉建议