0

    用网络爬虫软件自动下载网页上的文件

    2023.05.14 | admin | 131次围观

    采集内容:代码、简称、标题、日期,下载文件。

    1.1 打开网页

    1.2 标注第一行要采集的内容

    在第一行,除了要下载文件,我们还要采集代码,简称,标题,日期,需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据》

    第一次标注,要输入表名,自定义。

    继续标注其它的信息,标注完成后,工作台上有了四个字段:代码,简称,标题,日期。

    1.3 设置文件下载

    点击第一行的文件图标,对应到DOM窗口的IMG节点,看看这个节点左侧的属性,没发现文件的链接,继续沿着这个节点向上找到A节点易语言自动点击网页上的东西,点击A节点,我们发现A节点的@href属性易语言自动点击网页上的东西,有文件的链接。

    鼠标右键@href,做一个内容映射,文件的链接映射给一个新建内容,我们把这个新建内容命名为“文件链接”(命名是任意的),并勾选“补全网址”,“下载文件”。

    现在,工作台上新添加了一个字段:文件链接

    2. 样例复制

    按上面的步骤,我们已经把第一行的内容和文件下载设置好了,如果还要采集后面各行,做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例,第二行是第二个样例。

    3. 翻页设置

    如果还要自动翻页批量采集多页的数据,可以设置翻页。具体的操作见《翻页采集数据》。

    4. 测试,保存,启动采集

    点击测试,看看要采集的信息,都采集下来吗,没有问题,点击保存。

    然后点击采数据,启动采集。(下图非本例采集任务的图,但是操作类似)。

    5. 采集到的文件保存在哪里

    如果在爬虫软件里设置了分任务存放,

    那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下,在这个具体的例子中,是DataScraperWorks/下载文件-教程/PageContentDir。

    打开PageContentDir,下载的文件存放在这里。

    如果没有设置按任务保存,那么直接保存在DataScraperWorks下的PageContentDir目录下。

    上篇文章:《采集下载指定网页区域内的所有图片》 下篇文章:《用网络爬虫软件自动下载网页上的文件》

    鲜花

    握手

    雷人

    1

    路过

    鸡蛋

    刚表态过的朋友 ()

    版权声明

    本文仅代表作者观点。
    本文系作者授权发表,未经许可,不得转载。

    标签: 网络爬虫
    发表评论