财务分析报告库dxqxpt.com & dxylqxpt.com

丁香标讯与报告库/舆情数据采集之舆情数据的采集

海清微信联系：18612816913

2022-09-18

对于舆情，我们首先需要获取到各个网站上的相关数据，然后对原始文本进行清洗，最后对清洗后的数据进行特征提取，挖掘出每篇文章的重要信息，方便之后的舆情分析挖掘。

一般来讲，互联网上的公开内容，存在于互联网的媒介网站中，即互联网普通用户从传播受体的角度可以直接读取到的内容。从存在形态上讲，互联网内容数据可以分为以下几种类型：

一、明确舆情来源

舆情监测的前提是明确数据来源，舆情的数据来源主要包括以下几个方面：

1、政府网站

政府网站的**类为国务院、省、地、市及县的政府官方网站，网站域名一般均以.gov结尾。政府网站的第二类为涉旅政府职能部门网站，包括中央、省、地市及县的文旅部体系与发改委体系等各级网站。

2、新闻资讯

新闻资讯指传播类的专业媒体。主要分为中央官方媒体，如新华网与人民网等；地方官方媒体，如天津日报与河南日报；商业媒体，如新浪网、凤凰网、腾讯新闻及今日头条等。新闻资讯是舆情的重要载体，在舆情过程中的作用至关重要，因其专业属性，一般态度相对自媒体较为克制和客观。

3、微博

微博的模式源自美国的Twitter，是典型的互联网自媒体。微博早期有不同的品牌，如腾讯微博、网易微博及新浪微博等。而发展至今，新浪微博是公认的老大，其他微博或关闭或运营惨淡。因此，舆情监测在舆情的数据源上特指新浪微博。

4、微信

近年来，随着微信公众号平台上的用户数量与日俱增，微信也逐渐成为重要的社交平台和涉旅主体营销的重要阵地。每天在该平台会产生大量的网络舆情信息，也使得微信成为舆情信息发酵的聚集地。

5、OTA

互联网时代，OTA（Online Travel Agency）在线旅行社蓬勃发展，2019年以携程为首的OTA线上交易量已达万亿规模。OTA在向旅行社提供全方位服务的同时，也非常重视客户评价。在OTA的门票、酒店和目的地的频道中，都有针对特定门票、酒店和城市的评价功能，这些评价是舆情的主要载体之一。因为评价的重要性，涉旅企业也非常关心，正是基于此，游客也希望把一些意见和建议在这个地方提出，希望让相关企业看到。因为OTA中的评价发布者基本都是曾经的消费客户，评价相当有针对性。因此，OTA评价的数据质量相对较高。

6、论坛

坛是网民的一种独特的交流形式。在自媒体高速发展之前，论坛是网络意见的先锋常驻论坛。鉴于监管压力及自媒体的流量掠夺，论坛往日辉煌已不在。但是，作为一种独特的存在形式，论坛虽然不在风口浪尖，但是也能够凭一己之力独善其身。比较**的论坛，如天涯论坛与西祠胡同等。

7、其他

上述六个舆情数据源是旅游舆情数据采集常用与主流的数据源。其他数据源还包括博客（Blog）、问答、贴吧及视频网站等。这几类数据源中，能获取的旅游舆情相关数据较少，因此，仅作为主流数据源的补充使旅游舆情数据更加全面。

二、了解数据采集

网络数据采集常见的称谓包括网页抓屏、数据挖掘、网络收割或其他类似的版本。理论上，网络数据采集是一种通过多种手段收集网络数据的方式，不光是通过与API 交互（或直接与浏览器交互）的方式。最常用的方法是写一个自动化程序向网络服务器请求数据，然后对数据进行解析，提取需要的信息。实践中，网络数据采集涉及非常广泛的编程技术和手段，如数据分析与信息安全等。常见的数据采集工具有八爪鱼、后羿采集器及火车采集器等，下面重点介绍八爪鱼和Python数据采集。

1、八爪鱼

八爪鱼是国内领先的互联网数据收集平台，可以将网页非结构化数据转换成结构化数据，以数据库或EXCEL等多种形式进行存储。通过云采集实现精准、高效及大规模的数据采集，降低获取信息的成本与提高效率，协助用户进行电商价格监控、舆情分析、市场分析、风险监测及品牌检测等。

八爪鱼官网及软件内部，有附带的软件操作教程可以进行学习，直接通过点击实现数据采集。

2、Python爬去数据

如果我们把互联网比作一张大的蜘蛛网，数据便是存放于蜘蛛网的各个节点，而爬虫就是一只小蜘蛛，沿着网络抓取自己的猎物（数据）。爬虫指的是向网站发起请求，获取资源后分析并提取有用数据的程序。

从技术层面来说就是通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片与视频）爬到本地，进而提取自己需要的数据，存放起来使用。

Python作为大数据时代最常用的语言有完善的爬取数据库供大家调用，urllib、urllib2和Scrapy等，并通过正则表达式实现数据获取。

大数据教学实训平台内置了Python爬虫工具包，下面我们借助实训平台来介绍通过Python爬虫获取数据的方法：首先选择链接数据字节，然后点击确认选择，出现对应网址，选择数据爬取，点击开始运算，下方进行爬取结果展示。

当然，除了这两种常见的数据获取方式外，还有其他的方法可供大家爬取互联网数据。但是历经千辛万苦爬来的数据，是否可以直接应用？是否还需要进一步的数据处理？下一篇，将和大家一起学习如何对爬取到的数据进行有效清洗，并对其文本信息特征进行进一步处理。

声明：此篇为丁香标讯与报告库 dxqxpt.com 16619948786原创文章，转载请标明出处链接： https://m.dxqxpt.com/h-nd-27917.html

阅读2

写评论...

在线咨询