首先是 重复和失效 问题,对于类似百度这样的大型 spider 系统,因为随时都存在网页被修改、删除、失效或出现新的超链接的可能。因此,不是把网站抓取过来就完事了,而是要维护一个网址库和页面库,保证库内网页的真实有效、不冗余。
还有其他问题比如:
如何保证抓取网站的质量?应拒绝垃圾广告、不良信息网站。
如何保证抓取友好性?应控制蜘蛛抓取的频率和深度,别蜘蛛太重把整个网搞破了。
如何使抓取的覆盖度更大?抓取一些原本抓不到的数据孤岛。
当然,问题远远不止这些,设计搜索引擎的抓取系...
中文分词
-
2023.07.29 | admin | 178次围观