丁香标讯与报告库/舆情数据采集之舆情数据的采集

海清微信联系:18612816913
2022-09-18

对于舆情,我们首先需要获取到各个网站上的相关数据,然后对原始文本进行清洗,最后对清洗后的数据进行特征提取,挖掘出每篇文章的重要信息,方便之后的舆情分析挖掘。

一般来讲,互联网上的公开内容,存在于互联网的媒介网站中,即互联网普通用户从传播受体的角度可以直接读取到的内容。从存在形态上讲,互联网内容数据可以分为以下几种类型:




一、明确舆情来源


舆情监测的前提是明确数据来源,舆情的数据来源主要包括以下几个方面:




1、政府网站

政府网站的**类为国务院、省、地、市及县的政府官方网站,网站域名一般均以.gov结尾。政府网站的第二类为涉旅政府职能部门网站,包括中央、省、地市及县的文旅部体系与发改委体系等各级网站。


2、新闻资讯

新闻资讯指传播类的专业媒体。主要分为中央官方媒体,如新华网与人民网等;地方官方媒体,如天津日报与河南日报;商业媒体,如新浪网、凤凰网、腾讯新闻及今日头条等。新闻资讯是舆情的重要载体,在舆情过程中的作用至关重要,因其专业属性,一般态度相对自媒体较为克制和客观。

3、微博

微博的模式源自美国的Twitter,是典型的互联网自媒体。微博早期有不同的品牌,如腾讯微博、网易微博及新浪微博等。而发展至今,新浪微博是公认的老大,其他微博或关闭或运营惨淡。因此,舆情监测在舆情的数据源上特指新浪微博。

4、微信

近年来,随着微信公众号平台上的用户数量与日俱增,微信也逐渐成为重要的社交平台和涉旅主体营销的重要阵地。每天在该平台会产生大量的网络舆情信息,也使得微信成为舆情信息发酵的聚集地。

5、OTA

互联网时代,OTA(Online Travel Agency)在线旅行社蓬勃发展,2019年以携程为首的OTA线上交易量已达万亿规模。OTA在向旅行社提供全方位服务的同时,也非常重视客户评价。在OTA的门票、酒店和目的地的频道中,都有针对特定门票、酒店和城市的评价功能,这些评价是舆情的主要载体之一。因为评价的重要性,涉旅企业也非常关心,正是基于此,游客也希望把一些意见和建议在这个地方提出,希望让相关企业看到。因为OTA中的评价发布者基本都是曾经的消费客户,评价相当有针对性。因此,OTA评价的数据质量相对较高。

6、论坛

坛是网民的一种独特的交流形式。在自媒体高速发展之前,论坛是网络意见的先锋常驻论坛。鉴于监管压力及自媒体的流量掠夺,论坛往日辉煌已不在。但是,作为一种独特的存在形式,论坛虽然不在风口浪尖,但是也能够凭一己之力独善其身。比较**的论坛,如天涯论坛与西祠胡同等。

7、其他

上述六个舆情数据源是旅游舆情数据采集常用与主流的数据源。其他数据源还包括博客(Blog)、问答、贴吧及视频网站等。这几类数据源中,能获取的旅游舆情相关数据较少,因此,仅作为主流数据源的补充使旅游舆情数据更加全面。

二、了解数据采集

网络数据采集常见的称谓包括网页抓屏、数据挖掘、网络收割或其他类似的版本。理论上,网络数据采集是一种通过多种手段收集网络数据的方式,不光是通过与API 交互(或直接与浏览器交互)的方式。最常用的方法是写一个自动化程序向网络服务器请求数据,然后对数据进行解析,提取需要的信息。实践中,网络数据采集涉及非常广泛的编程技术和手段,如数据分析与信息安全等。常见的数据采集工具有八爪鱼、后羿采集器及火车采集器等,下面重点介绍八爪鱼和Python数据采集。

1、八爪鱼

八爪鱼是国内领先的互联网数据收集平台,可以将网页非结构化数据转换成结构化数据,以数据库或EXCEL等多种形式进行存储。通过云采集实现精准、高效及大规模的数据采集,降低获取信息的成本与提高效率,协助用户进行电商价格监控、舆情分析、市场分析、风险监测及品牌检测等。




八爪鱼官网及软件内部,有附带的软件操作教程可以进行学习,直接通过点击实现数据采集。


2、Python爬去数据


如果我们把互联网比作一张大的蜘蛛网,数据便是存放于蜘蛛网的各个节点,而爬虫就是一只小蜘蛛,沿着网络抓取自己的猎物(数据)。爬虫指的是向网站发起请求,获取资源后分析并提取有用数据的程序。


从技术层面来说就是通过程序模拟浏览器请求站点的行为,把站点返回的HTML代码/JSON数据/二进制数据(图片与视频)爬到本地,进而提取自己需要的数据,存放起来使用。




Python作为大数据时代最常用的语言有完善的爬取数据库供大家调用,urllib、urllib2和Scrapy等,并通过正则表达式实现数据获取。

大数据教学实训平台内置了Python爬虫工具包,下面我们借助实训平台来介绍通过Python爬虫获取数据的方法:首先选择链接数据字节,然后点击确认选择,出现对应网址,选择数据爬取,点击开始运算,下方进行爬取结果展示。




当然,除了这两种常见的数据获取方式外,还有其他的方法可供大家爬取互联网数据。但是历经千辛万苦爬来的数据,是否可以直接应用?是否还需要进一步的数据处理?下一篇,将和大家一起学习如何对爬取到的数据进行有效清洗,并对其文本信息特征进行进一步处理。


阅读2
分享
写评论...