丛德网络

用网络爬虫软件自动下载网页上的文件

2023.05.14 | admin | 131次围观

采集内容：代码、简称、标题、日期，下载文件。

1.1 打开网页

1.2 标注第一行要采集的内容

在第一行，除了要下载文件，我们还要采集代码，简称，标题，日期，需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据》

第一次标注，要输入表名，自定义。

继续标注其它的信息，标注完成后，工作台上有了四个字段：代码，简称，标题，日期。

1.3 设置文件下载

点击第一行的文件图标，对应到DOM窗口的IMG节点，看看这个节点左侧的属性，没发现文件的链接，继续沿着这个节点向上找到A节点易语言自动点击网页上的东西，点击A节点，我们发现A节点的@href属性易语言自动点击网页上的东西，有文件的链接。

鼠标右键@href，做一个内容映射，文件的链接映射给一个新建内容，我们把这个新建内容命名为“文件链接”（命名是任意的），并勾选“补全网址”，“下载文件”。

现在，工作台上新添加了一个字段：文件链接

2. 样例复制

按上面的步骤，我们已经把第一行的内容和文件下载设置好了，如果还要采集后面各行，做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例，第二行是第二个样例。

3. 翻页设置

如果还要自动翻页批量采集多页的数据，可以设置翻页。具体的操作见《翻页采集数据》。

4. 测试，保存，启动采集

点击测试，看看要采集的信息，都采集下来吗，没有问题，点击保存。

然后点击采数据，启动采集。（下图非本例采集任务的图，但是操作类似）。

5. 采集到的文件保存在哪里

如果在爬虫软件里设置了分任务存放，

那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下，在这个具体的例子中，是DataScraperWorks/下载文件-教程/PageContentDir。

打开PageContentDir，下载的文件存放在这里。

如果没有设置按任务保存，那么直接保存在DataScraperWorks下的PageContentDir目录下。

上篇文章：《采集下载指定网页区域内的所有图片》下篇文章：《用网络爬虫软件自动下载网页上的文件》

鲜花

握手

雷人

路过

鸡蛋

刚表态过的朋友 ()

版权声明

本文仅代表作者观点。
本文系作者授权发表，未经许可，不得转载。

标签: 网络爬虫

用网络爬虫软件自动下载网页上的文件

版权声明

发表评论

作者其它文章

微机控制与接口技术形成性考核册答案

手机百度浏览器如何翻译网页？

如何重置小米摄像头（如何重置小米摄像头云台版）

热门文章

随机文章

最近发表

标签列表

用网络爬虫软件自动下载网页上的文件

版权声明

相关阅读

发表评论

作者其它文章

微机控制与接口技术形成性考核册答案

手机百度浏览器如何翻译网页？

如何重置小米摄像头（如何重置小米摄像头云台版）

热门文章

随机文章

最近发表

标签列表