八爪鱼采集器怎样操作,八爪鱼软件的自定义采集工作方式下
有了上次使用模板抓取数据的经验,相信你应该能熟练使用octopus collector。也许有些朋友很好奇。只能通过软件预设的模板抓取数据吗?当然不是。Octopus collector还有自定义收集功能,供用户收集自己想要的数据。与预置模块相比,定制更加灵活。虽然比预置的模板复杂,但爬取的数据更符合你的意愿。这篇文章是为你整理的。
步骤一
首先像往常一样,启动并登录你的octopus collector,进入主界面,点击【新建】下的【新建任务组】,新建一个组。
单击“确定”创建新组。
步骤二
创建组后,点击【新建】下的自定义任务,得到这样的界面。
我们可以寻找链接到我们想要抓取的网页。在这里,边肖去JD.COM搜索手机,当搜索结果出来时,我们可以复制链接。
将复制的链接粘贴到URL列,将任务组更改为之前创建的组,然后单击[保存设置]。
步骤三
保存后会跳转到抓取界面,软件会自动开始识别网页中要抓取的部分。根据个人机器的网速不同,对应的等待时间也不同。
鉴定后可以看到数据很多,其中有很多无用的数据需要剔除。
将光标移到表格字段上,会出现两个图标。钢笔图标是更改字段名称,垃圾桶是删除这个字段。
我们可以随意删除和更改字段名,这里边肖只保留上图中的字段。
步骤四
设置完字段后,我们将注意力转向上图中的小方框。第一个不是可选的,我们直接忽略。
收集前面的滚动页面加载更多的数据:因为现在很多网站都采用动态页面,有些内容在加载的时候是不会显示的,只有在我们下拉的时候才会逐渐显示,而这个功能就是为了防止这种情况的发生。
翻页并收集多页数据:设置为抓取多个页面,取消选中则只抓取当前页面。
点击列表中的XXX,收集下一级页面:该功能允许我们抓取子页面中的内容。
这里就不抓取了,只勾选前两项,然后点击【生成采集设置】。
点击生成后,您将开始保存或查看。点击此处保存并开始收集。
步骤五
到了这个界面之后,我们可以看到一个详细的流程,里面的循环列表就是这个页面上爬取的内容。
我们单击外部循环的设置按钮。
退出循环设置,并检查循环执行的次数。在这里,我们只抓取3页。
开始收集。
收集,点击导出。
另外,如果你抓取的页面中有重复数据,软件会直接提示,根据你自己的情况选择保留或删除。
导出模式
保存导出文件的位置
保存完成
图像数据
以上是边肖带来的章鱼采集器自定义模块教程。熟练使用后,相信朋友们可以收集到更多的数据。使用octopus collector收集数据后,可以根据收集到的数据分析并完成各种任务。希望这篇文章能帮到你。