近日,胡歌主演的电视剧《县委大院》大火,收视率破2。最新剧情里,胡歌扮演的县委书记梅晓歌遭遇了开播以来的“假奶牛网络舆情事件”。
剧中,刘涛主演的宣传部长通报的舆情报告相信所有舆情分析师看了都会会心一笑。
这一千四百五十六条是哪里来的呢?这部分内容在舆情报告里面叫做“舆情综述”,舆情综述包括相关信息数量老版海角下载,舆论情绪占比等。一般情况下,舆情系统的事件分析功能也就这部分有用了……
△某舆情系统技术架构
相关信息的数量是舆情系统统计出来的,怎么实现呢?首先是数据采集,互联网信息都是散落在网络上的,需要使用爬虫技术根据关键词将数据抓取过来,这就是数据采集环节。
某舆情系统服务商介绍就表示:自己的技术合作伙伴拥有全老版海角下载球6大云服务中心,2000多台服务器,日均处理数据大于1000万;系统对互联网进行全网监测,每天微博采集数据量在280万-310万,每秒采集微博35条,数据库可查询微博数据6.5亿,对全量微博的分析覆盖全国908个省、市、县,以及2.8万个政务舆情关键词,全网监测范围覆盖新闻、论坛、App、微博、微老版海角下载信、海外新闻等各类型互联网信息渠道。
谈到数据采集,分为内网数据采集、外网数据采集、暗网数据采集和私域数据采集以及非网数据采集。
内网数据采集:就是用爬虫根据关键词在国内互联网抓取所需的信息,有两个难点:一是突破数据资源拥有者的防火墙,二是关键词的设置。
以新浪微博为例,微博网民的内容数据是其宝贵的数据资老版海角下载产,一般微博搜索和百度搜索所能够搜索到的数据是有限的,而且搜索出来的数据有一定的期限,但对于分析师来说,数据越全得出得结论就会越准确。
△我怀疑这是微博的广告
新浪有自己的舆情系统产品,为了竞争对手不能免费利用自己的数据资源,就要利用“反爬虫”技术让其他舆情系统服务商不能够爬到自己的数据。
这是一场战争。老版海角下载但有一个问题,微博用户设置自己的微博仅三个月可见,但使用特定的舆情系统时候能够看到那些不可见的信息吗?如果能,是否构成侵权?
据了解,微博对外是售卖数据接口的,一年好几百万,有的舆情系统服务商觉得自己在技术上实在是干不过微博,还不如花钱跟微博买数据……
数据获取大致就是如此了。
△这种图舆情系统可以自动生老版海角下载成的,不同的关键词设置数据量是不一样的,这样可以骗领导
爬虫是非常重要的,对于爬虫的命名,有的叫交互式爬虫、有的叫这个爬虫、有的叫那个爬虫……反正我是分不清楚的。
关键词的设置也很重要,其和舆情系统一个是工具一个是使用工具的策略。关键词设置的准确程度取决于关键词设置者对一个行业一个事件的了解程度,同一套老版海角下载系统拿给不同的舆情分析师使用能够获取到的信息是千差万别的。这就是所谓的行家一出手便知有没有。懂行业黑话的人就算使用百度搜索所能获取到的信息也比行业小白使用最贵的舆情系统能够获取的信息多。
同一个事件,不同的关键词设置出来的信息总量是不一样的,这个就看客户的需要了。
外网数据采集原理是一样的,这些服务器一老版海角下载般架设在国外或其他能够访问外网的地区。我们一直认为想要提供全球舆情信息采集服务语言是一大难点,但有聪明的技术人员充分地利用谷歌翻译,就是先使用谷歌翻译将目标信息翻译成中文(准确性无法保证,但舆情研判肯定够了)再用中文爬虫系统去命中包含所需关键词的信息。
关键词设置的逻辑前面提过了,这里就不仅是对行业了老版海角下载解的问题了,还需要舆情分析师有相应的外语能力,谷歌翻译会导致信息丢失,在谷歌翻译过来的信息中从中文语言习惯出发设置关键词会导致信息丢失更严重。
所以对有志于成为世界级舆情服务商的公司来说,舆情分析师最好能够直接使用目标信息语言获取所需信息。
暗网数据采集:数据采集和关键词设置原理都是一样的。但暗网这个东老版海角下载西,我连入口都找不到,更不用说在上面开展工作了。但这块肯定是有人在上面开展工作的……
私域数据采集:数据采集原理差不多,但这个领域对人脉要求很高,骗子也是最多的。但信息的质量和时效性无疑都是很高的。具体来说就是朋友圈数据采集、微信群数据采集、qq群数据采集,这类数据采集往往是人工采集为主,机器在这个领老版海角下载域作用有限……技术是可行的,法律不允许。
非网数据采集:这个领域就已经不是舆情领域了,是情报领域。有的是合法的、有的是非法的。目前世界上70%的数据是不上网的,这部分数据的价值就不用说了。
就拿报纸来说吧,有的报纸有六七十年的历史了,互联网94年才进入中国,所以目前有的公司做的就是把报纸的非网数据变为电老版海角下载子数据。
其他的我也不知道了,有一个写网络小说的叫杨恒均(杨军),其致命系列谍战小说因为写得太专业,最后被查出真的是一个间谍。
数据采集来了,就要进行数据清理了。
专业的说法是:使用中文语义分析引擎提供行业领先的语义识别技术,基于大数据词库辅助以大量的行业语料库,通过关联学习、知识图谱以及相似度计算等方法老版海角下载实现智能语义分析。
△观舆君的合作伙伴的自然语义处理技术
大家都知道中文词汇是分褒义词、贬义词和中性词的,通过对这些词汇进行正负赋值,然后再统计其占比就可以计算出一个事件中的负面情绪、中性情绪和正面情绪占比了。
这个只能参考,因为关键词设置得准不准、全不全很关键。但有所参考总比没有参考好。
正常情况下负面情老版海角下载绪的占比都很难超过50%,因为一些信息是垃圾信息和事件本身无关,属于爬虫不精确命中也会被算进来,此外在舆情事件中因为“沉默的大多数”存在,负面信息占比超过5%就应该警惕了。
舆情分析师:陈大衡