您现在的位置是:综合 >>正文

在qq买赞:微博买热搜

综合5人已围观

简介采集场景在微博热搜榜)可实时查看微博热搜排行、热搜关键词和热搜数。点击每位热搜关键词可步入与其相关的微博列表页。我们须要采集以上数据。采集数组微博热搜排行、热搜关键词、热搜数、内容、发布时间、来源、收 ...

采集场景

在微博热搜榜()可实时查看微博热搜排行、买赞买热热搜关键词和热搜数。微博点击每位热搜关键词可步入与其相关的买赞买热qq空间刷人气访客微博列表页。我们须要采集以上数据。微博

采集数组

微博热搜排行、买赞买热热搜关键词、微博热搜数、买赞买热内容、微博发布时间、买赞买热来源、微博收藏数、买赞买热转发数、微博评论数、买赞买热点赞数、微博采集时间和页面网址等数组。买赞买热

采集结果

采集结果可导入为Excel、CSV、qq空间刷人气访客HTML、数据库等多种格式。导出为Excel示例:

教程说明

本篇制做时间:2024/01/15 八爪鱼版本:V8.6.7

如果因网页改版导致网址或步骤无效,无法搜集到目标数据,请联系官方客服,我们将及时修正。

采集步骤

步骤一、打开网页,切换浏览模式登陆,获取登陆状态的cookie

步骤二、生成列表循环采集流程,并点击步入详情页

步骤三、创建【循环列表】,采集所有微博列表中的数据

步骤四、修改【循环】的XPath,以除去多余列表

步骤五、修改数组的XPath,以精准采集所有数组

步骤六、规则优化

步骤七、启动采集

以下为具体步骤:

步骤一、打开网页,获取登陆状态的cookie

1、获取登陆状态的cookie

在首页输入微博热搜榜网址 ,点击【开始采集】,八爪鱼手动打开网页。

点击切换

【浏览模式】,在浏览模式下点击页面上的登陆按键,跳到扫码登陆窗口,使用手机app扫码登陆,登录成功以后关掉【浏览模式】,在打开网页步骤的【高级设置】里面勾选【使用指定的cookie】,然后点击获取当前页面的cookie,点击应用。

步骤二、生成列表循环,并点击步入详情页

1、创建【循环列表】,采集热搜页面的列表数据

①、先选中页面上第一个列表的第一个单元格,再点击提示框右下角的【扩大选区】

按钮,选中至一整行。(

的作用是,扩大选中的范围。当前选中的是一个单元格,点一下

,选中的范围就扩大一个层级,即选中了一行)

②、在提示框中,选择【选中全部子元素】。第1个热搜中的具体数组就被选中了,这时八爪鱼又手动辨识到页面中其他热搜列表具有相同的【子元素】。

③、在提示框中,选择【选中全部相似组】。可以看见页面中所有热搜列表中的子元素也都被选中了,被红色框框上去。

④、在提示框中,选择【文本内容】。这时候,八爪鱼就将表格中的数组都提取出来了。

2、删除多余数组,修改数组名

这里的链接数组没有用,我们删掉,然后更改剩下数组的数组名(双击字段名即可更改)

3、点击红框中的关键词,进入详情页(注意要在循环列表上面配置,这样就能循环步入每一个关键词的详情页面)

在循环的当前项(用黑色框框上去)中找到关键词并选中,在弹出的操作提示框中,选择【点击该链接】。

可以看见流程中生成了1个【点击元素】步骤,八爪鱼手动跳转到了详情页,然后提取详情页数据即可。

步骤三、创建【循环列表】,采集所有列表数据

1、创建【循环列表】

通过以下连续3步,创建【循环列表】,采集所有微博列表中的数据

① 选中页面上1个微博列表,包含所有数组(微博这个网页比较特殊,无法直接选中整块微博列表,可以先选中较小的范围,然后在操作提示框中不断点击

按钮,直至选中的区域扩大至整块列表,示例中点击了2次

按钮)

②继续选中页面上1个微博列表,包含所有数组(同①)

③ 点击【文本内容】

2、提取微博列表中的数组

在循环的当前项中(用红色框框上去),选中文本,在操作提示框中,选择【文本内容】。

文本类数组都可这样提取,示例中提取了内容、发布时间、来源、收藏数、转发数、评论数、点赞数、等数组。

特别说明:

a. 经过以上连续3步微博买热搜,【循环-提取数据】创建完成。【循环】中的项,对应着页面上所有微博列表。但是这样会将整个列表作为一个数组提取出来,如果须要分开提取数组,请看下边的操作。

b.为何通过以上3步,可构建【循环-提取数据】?详情点击查看列表数据采集教程。

c. 选中一个范围后,在操作提示框中,点击

按钮,可扩大一层选中的层级。可连续多次点击,每点一次微博买热搜,选中范围扩大一个层级。

d.请注意,一定要在循环的当前项中提取数组,才能与循环产生联动。否则,将重复采集某一条特定数据,无法与循环联动。

3、提取特殊数组,编辑数组

进入【提取列表数据】设置页面,可删掉多余数组,修改数组名(双击字段名即可更改),移动数组次序等。

在【当前数据页面预览】中,点击

,可以添加提取采集时间和页面网址。

4、格式化数据

【转发数】和【收藏数】【评论数】这3个数组比较特殊,如当转发数为0 的时侯,显示的是文字:”转发“,可以通过正则表达式,将其替换成数字0。

如果不介意重复,可跳过此步骤。

【转发数】格式化:点击数组后的

按钮,选择【格式化数据】→ 点击【添加步骤】→【替换】,将【转发】替换成【0】

Tags:

相关文章



友情链接