ForeSpider采集教程发布（表格类）：零基础轻松获取数据 - - ITeye博客

`

qianxiu

浏览: 42418 次

最近访客更多访客>>

wangyy

leimingchao

masuweng

abc123

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

ForeSpider采集教程发布（表格类）：零基础轻松获取数据

博客分类：

数据采集数据获取爬虫软件爬虫教程采集教程

阅读更多

本篇以孔夫子旧书网为例：

一.网站结构

1.网站截图说明

该网站为列表结构,可以通过识别列表的方式对全篇数据进行抽取

【网站列表页】

2.采集结果截图

【采集数据结果】

二.配置模板

1.新建任务

【新建任务】

点击【下一步】，需要采集每一页检索结果并抽取数据,所以此处需要勾选【普通翻页】和【数据抽取】，如图：

【新建采集任务】

2.创建/选择表单

①创建表单

【创建表单】

②配置表单

根据所需内容，配置表单字段（即表头），此处配置了包括网页主键、作者名称、标题名称、价格等四个字段, 以配置发布时间(pubtime)为例

【配置表单】

③数据抽取链接关联表单

选择刚才新创建的表单''孔夫子''

【关联表单】

3.字段定位

取值方法：由于此处活取的是列表页的数据，所以可以应用“识别列表”功能，直接取到列表数据，操作方法如下：

①点击“数据抽取-孔夫子”，按住ctrl+鼠标左键点击定位标题内容

【定位标题】

②按住Shift+鼠标左键继续点击，直到点击到选中整个第一条数据

【定位第一条数据】

③在软件的右下角可以看到“识别列表”按钮，此时点击“识别列表”，如下图，此时列表中的内容都已经选中。

【定位全数据】

④对每个字段进行取值,方法依然是：按住Ctrl+鼠标左键，进行区域选择，按住Shift+鼠标左键，扩大选择区域。如：price字段,见下图:

【字段定位】

4.模板预览

鼠标右键点击“孔夫子”，然后点击“模板预览”

【模板预览】

5.过滤翻页链接

勾选标题过滤,过滤规则选择包含,填入''下一页''

【过滤翻页】

三.数据采集

1.连接数据库

【连接数据库】

2.创建数据表

【创建数据表】

3.选中数据表

【关联数据表】

4.开始采集

【开始采集】

5.采集结果

【采集结果】

分享到：

ForeSpider采集教程发布（论坛类）：零基础 ... | 致敬图灵，数说人工智能的前世今生

2019-12-10 13:57
浏览 297
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

forespider数据采集软件: 前嗅forespider数据采集软件，可视化的软件，简单的操作，强大的功能，帮助不会爬虫的人采集数据。

使用ForeSpider爬虫软件批量采集企业信息公示系统.zip: ForeSpider爬虫工具软件使用教程使用ForeSpider爬虫软件批量采集企业信息公示系统.zip

forespider: 网上的便捷爬虫软件，可直接在许多网站上进行数据爬取

大数据背景下数据分析服务的市场分析.docx: 八爪鱼采集器使用者及时不懂网络爬虫技术，通过数据采集器轻松获取相应数据信息。目前八爪鱼采集器有免费和付费两种形式共七个版本，付费版本价格区间跨度较大数据背景下数据分析服务的市场分析全文共7页，当前为第3...

网络爬虫之Spider: 小小网络爬虫测试软件，对搜索引擎设计者有所帮助！java语言开发。需要导入第三方包，可以到网站上下载，也可以找本人索取。

weibo_spider_spider_爬取微博_爬取微博评论_微博_weibospider_: 能够对微博进行爬取，爬取相关的内容及评论。

Global site tag (gtag.js) - Google Analytics