前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本 -

qianxiu

浏览: 42799 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

博客分类：

教程

前嗅数据采集 ForeSpider数据采集采集教程脚本教程

今天，小编给大家带来的教程为：前嗅ForeSpider脚本教程中，链接抽取的应用场景，以及链接在源码的html标签里写脚本的实战教程。具体内容如下：

一.应用场景

当需要手动添加链接时，可添加链接脚本。

在“链接脚本处”，可能用到的类为extractor 、result、url、grabDoc、dom。

二.链接在源码的html标签里

链接地址可在源码中查找到。在目标网页右键，选择“查看源代码”，键盘点击“ctrl+F”，查找目标链接所在位置。目标链接存在于标签中。

1.链接需要循环

场景：比如翻页等规律相同的一系列目标链接，存在于一个大的ul标签或者div标签里。

示例：获取CSDN首页文章列表链接。

在该网页右键选择“查看源文件”，查找第一条链接的链接地址，定位目标数据位置。

将该源码粘贴到notepad++中，选择语言为html，搜索目标数据的所在位置“ul”标签的id值。

由图可知，列表页文章链接位于每个li中的a标签的href中。

脚本实例：暂无。

2.链接不循环

场景：获取更多链接，链接不像翻页那页具有自增性的规律。

示例：获取该网站更多的招标公告信息。

获取更多的招标公告信息，需要点击“更多”按钮。在该网页右键选择“查看源文件”，定位链接所在位置。

因<a>标签名，和父级<div>的class属性都在多处存在，因此需要再向上查找节点，直到id为tab2-list的<div>。

脚本实例：

var div = DOM.FindId("tab2-list");//先查找div

var a = DOM.FindClass("more","a",div );//从上一行找到的div开始查找，class属性为more的a标签。

url u;

u.urlname = "http://www.bgpc.gov.cn"+a.href;//拼接完整的链接地址

u.title = "更多";//填写title

u.entryId = CHANN.id;

u.tmplId = 2;

RESULT.AddLink(u);

分享到：

前嗅ForeSpider脚本教程-链接抽取：链接在 ... | 前嗅ForeSpider脚本教程-频道脚本：脚本采 ...

2019-04-09 09:41
浏览 339
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

前嗅ForeSpider脚本教程-链接抽取：应用场景及链接在源码的html标签里写脚本

评论

发表评论

相关推荐

从零学爬虫：采集房天下二手房信息

前嗅教你大数据：常见几种编码介绍

前嗅教你大数据：常见的网站反爬策略与解决方案

如何在ForeSpider数据采集器中设置代理IP

前嗅ForeSpider采集教程：通过关键词的【检索列表】采集【检索结果】

前嗅大数据—ForeSpider教你如何采集【列表数据】

前嗅forespider教程：关键词采集【检索结果】

ForeSpider采集教程发布（论坛类）：零基础轻松获取数据

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

爬虫软件真的可以获取隐私数据？真相只有一个

大数据告诉你，五一出行，性价比最高的酒店是它

前嗅教程：如何获取精准客源，提高销量

字段在源码的html标签里

前嗅ForeSpider脚本教程-数据抽取脚本实战教程

前嗅ForeSpider脚本教程-链接过滤脚本

前嗅ForeSpider脚本教程-链接抽取：自定义链接写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在POST请求里写脚本

前嗅ForeSpider脚本教程-链接抽取：链接在源码的js变量里写脚本

前嗅ForeSpider脚本教程-频道脚本：脚本采集数据

前嗅ForeSpider脚本教程：频道脚本使用场景及配置关键词搜索

最近访客更多访客>>