采集内容:代码、简称、标题、日期,下载文件。
1.1 打开网页
1.2 标注第一行要采集的内容
在第一行,除了要下载文件,我们还要采集代码,简称,标题,日期,需要对这些信息进行标注。详细的标注操作可以参考《采集网页数据》
第一次标注,要输入表名,自定义。
继续标注其它的信息,标注完成后,工作台上有了四个字段:代码,简称,标题,日期。
1.3 设置文件下载
点击第一行的文件图标,对应到DOM窗口的IMG节点,看看这个节点左侧的属性,没发现文件的链接,继续沿着这个节点向上找到A节点易语言自动点击网页上的东西,点击A节点,我们发现A节点的@href属性易语言自动点击网页上的东西,有文件的链接。
鼠标右键@href,做一个内容映射,文件的链接映射给一个新建内容,我们把这个新建内容命名为“文件链接”(命名是任意的),并勾选“补全网址”,“下载文件”。
现在,工作台上新添加了一个字段:文件链接
2. 样例复制
按上面的步骤,我们已经把第一行的内容和文件下载设置好了,如果还要采集后面各行,做个样例复制。具体的操作见《采集列表数据》。第一行是第一个样例,第二行是第二个样例。
3. 翻页设置
如果还要自动翻页批量采集多页的数据,可以设置翻页。具体的操作见《翻页采集数据》。
4. 测试,保存,启动采集
点击测试,看看要采集的信息,都采集下来吗,没有问题,点击保存。
然后点击采数据,启动采集。(下图非本例采集任务的图,但是操作类似)。
5. 采集到的文件保存在哪里
如果在爬虫软件里设置了分任务存放,
那么下载的文件保存在DataScraperWorks目录下的任务名文件夹下,在这个具体的例子中,是DataScraperWorks/下载文件-教程/PageContentDir。
打开PageContentDir,下载的文件存放在这里。
如果没有设置按任务保存,那么直接保存在DataScraperWorks下的PageContentDir目录下。
上篇文章:《采集下载指定网页区域内的所有图片》 下篇文章:《用网络爬虫软件自动下载网页上的文件》
鲜花
握手
雷人
1
路过
鸡蛋
刚表态过的朋友 ()
版权声明
本文仅代表作者观点。
本文系作者授权发表,未经许可,不得转载。
发表评论